open_x_embodiment

统一格式机器人数据集和RT-X模型

Open X-Embodiment 机器人学习数据集 RT-X模型深度学习 Github 开源项目

Open X-Embodiment项目整合多个开源机器人数据集，采用统一RLDS格式。它提供RT-1-X模型检查点，支持RGB图像输入和7维机械臂动作输出。项目包含数据集可视化和模型推理Colab示例，以及详细使用指南。这一开放资源促进机器人学习研究，简化数据处理和模型应用流程。

Github

文档

论文

介绍相关项目

low_cost_robot - 低成本机器人手臂项目实现自动化与远程控制

3D打印Dynamixel伺服电机Github低成本机器人手臂开源项目机器人学习机器人控制

这个开源项目提供了一种低成本机器人手臂方案，总成本约250美元。采用Dynamixel XL430和XL330伺服电机，结构轻巧高效。项目还包含一个领导臂设计，可实现远程控制。系统适用于机器人学习和衣物折叠等应用。项目提供完整材料清单、组装指南和模拟环境，方便DIY爱好者和研究人员构建测试这一高性价比机器人系统。

Open-LLaVA-NeXT - 多模态大语言模型实现视觉语言对齐和指令微调的开源项目

AI模型评估GithubLLaVA-NeXT多模态模型开源实现开源项目视觉语言训练

Open-LLaVA-NeXT是一个复现LLaVA-NeXT系列模型的开源项目。它提供开源训练数据和检查点，基于LLaVA代码库进行修改。该项目支持CLIP-L-336视觉编码器以及Vicuna-7B和LLaMA3-8B等语言模型。通过特征对齐和视觉指令微调两个阶段的训练，Open-LLaVA-NeXT实现了多模态能力，在多项评估任务中表现优异。

keras-llm-robot - 基于Langchain和Fastchat开源框架的Web应用，支持多模态、RAG和Agent等多功能

GithubKeras-llm-robotWeb UI多模态模型开源开源项目语言模型

keras-llm-robot是一套基于Langchain和Fastchat开源框架的Web应用，支持多模态、RAG和Agent等多功能。项目完全开源，适合在Hugging Face平台上测试和部署各类模型。用户可自定义模型组合以适应不同的部署和实验需求，同时提供语音和图像识别、代码执行、实时翻译等多元化功能。

OmniControl - 先进的人体动作生成与精确控制技术

GithubOmniControl人体动作生成关节控制开源项目机器学习计算机视觉

OmniControl是一个基于扩散模型的人体动作生成项目，实现了对任意关节在任意时间的精确控制。通过空间引导和真实性引导，该项目能生成高质量、自然的动作序列。OmniControl提供预训练模型、训练代码和评估工具，支持HumanML3D等数据集，为动作生成研究和应用领域提供了灵活有力的解决方案。

blenderbot-3B - BlenderBot-3B项目的开放域对话生成策略和技巧

GithubHuggingfacePARLAI多轮对话开源项目技能训练模型神经模型聊天机器人

BlenderBot-3B项目展示了如何构建高性能开放域聊天机器人，通过结合大型神经模型和对话技巧，如信息传达、倾听、提问和应答，在多轮对话中的表现优于现有方法。项目还公开了代码和模型，分析了其可能的局限性。

Open3D-ML - Open3D 的扩展，用于处理 3D 机器学习任务

3D机器学习GithubOpen3D-MLPyTorchTensorFlow开源项目语义分割

Open3D-ML基于Open3D库，扩展了3D机器学习工具，支持语义点云分割和目标检测等应用。提供预训练模型和训练管道，兼容TensorFlow和PyTorch框架，易于集成到现有项目中。同时，提供数据可视化等通用功能，覆盖多种数据集和算法，提高3D数据处理效率和效果。

unified-io-2 - 跨模态人工智能的开源新标杆

GithubUnified-IO 2人工智能多模态模型开源项目机器学习深度学习

Unified-IO 2是一个开源的多模态AI框架，集成视觉、语言、音频和动作处理能力。项目提供完整代码支持演示、训练和推理，适用于TPU和GPU环境。基于T5X优化，内含多规格预训练模型和丰富数据集。其跨模态学习和生成能力为AI研究与应用提供了新的可能性。项目采用模块化设计，便于研究人员和开发者进行二次开发和定制。Unified-IO 2支持多种数据格式和预处理流程，为不同任务场景提供灵活解决方案。其开源性质促进了AI社区的协作与创新，为多模态AI技术的进步做出贡献。

internlm-xcomposer2d5-7b - 7B参数规模实现视觉语言理解和创作的开源多模态模型

GithubHuggingfaceInternLM-XComposer-2.5图像理解多模态开源项目模型网页生成长文本处理

InternLM-XComposer2.5采用7B参数规模构建，通过24K交错图文上下文训练,支持扩展至96K长文本理解。这个开源多模态模型在视频理解、多图对话、高清图像分析、网页生成和文章创作等场景中展现出强大的理解与创作能力。其优秀的长文本处理特性使其能够处理需要大量上下文的复杂任务。

Awesome-Implicit-NeRF-Robotics - 机器人领域中神经隐式表示和NeRF技术的最新进展

3D重建GithubNeRFSLAM姿态估计开源项目机器人

这个项目汇集了神经隐式表示和NeRF在机器人领域的应用论文，涵盖物体姿态估计、SLAM、操作学习、物体重建、物理模拟和导航规划等方向。它为研究人员和工程师提供了解该交叉领域最新进展的综合资源。

robotic-warehouse - 多智能体仓库机器人协作模拟环境

GithubGymnasium动作空间多机器人仓库奖励机制开源项目强化学习

robotic-warehouse项目是一个多智能体强化学习环境，模拟仓库中多机器人移动和配送货物的场景。该环境可配置仓库大小、机器人数量、通信能力和奖励设置，支持部分可观察性、离散动作空间和碰撞动力学。研究人员可使用此环境测试和比较不同的多智能体算法，为仓库自动化研究提供了灵活真实的测试平台。

相关项目

推荐项目

豆包MarsCode

豆包 MarsCode 是一款革命性的编程助手，通过AI技术提供代码补全、单测生成、代码解释和智能问答等功能，支持100+编程语言，与主流编辑器无缝集成，显著提升开发效率和代码质量。

AI写歌

Suno AI是一个革命性的AI音乐创作平台，能在短短30秒内帮助用户创作出一首完整的歌曲。无论是寻找创作灵感还是需要快速制作音乐，Suno AI都是音乐爱好者和专业人士的理想选择。

白日梦AI

白日梦AI提供专注于AI视频生成的多样化功能，包括文生视频、动态画面和形象生成等，帮助用户快速上手，创造专业级内容。

有言AI

有言平台提供一站式AIGC视频创作解决方案，通过智能技术简化视频制作流程。无论是企业宣传还是个人分享，有言都能帮助用户快速、轻松地制作出专业级别的视频内容。

Kimi

Kimi AI助手提供多语言对话支持，能够阅读和理解用户上传的文件内容，解析网页信息，并结合搜索结果为用户提供详尽的答案。无论是日常咨询还是专业问题，Kimi都能以友好、专业的方式提供帮助。

讯飞绘镜

讯飞绘镜是一个支持从创意到完整视频创作的智能平台，用户可以快速生成视频素材并创作独特的音乐视频和故事。平台提供多样化的主题和精选作品，帮助用户探索创意灵感。

讯飞文书

讯飞文书依托讯飞星火大模型，为文书写作者提供从素材筹备到稿件撰写及审稿的全程支持。通过录音智记和以稿写稿等功能，满足事务性工作的高频需求，帮助撰稿人节省精力，提高效率，优化工作与生活。

阿里绘蛙

绘蛙是阿里巴巴集团推出的革命性AI电商营销平台。利用尖端人工智能技术，为商家提供一键生成商品图和营销文案的服务，显著提升内容创作效率和营销效果。适用于淘宝、天猫等电商平台，让商品第一时间被种草。

AIWritePaper论文写作

AIWritePaper论文写作是一站式AI论文写作辅助工具，简化了选题、文献检索至论文撰写的整个过程。通过简单设定，平台可快速生成高质量论文大纲和全文，配合图表、参考文献等一应俱全，同时提供开题报告和答辩PPT等增值服务，保障数据安全，有效提升写作效率和论文质量。

使用协议隐私政策广告服务

投诉举报邮箱: service@vectorlightyear.com