Project Icon

MotionLLM

融合视频和动作数据的人类行为理解先进AI模型

MotionLLM是一个人类行为理解框架,通过融合视频和动作序列数据来分析人类行为。该项目采用统一的视频-动作训练策略,结合粗粒度视频-文本和细粒度动作-文本数据,以获得深入的时空洞察。项目还包括MoVid数据集和MoVid-Bench评估工具,用于研究和评估人类行为理解。MotionLLM在行为描述、时空理解和推理方面展现出优越性能,为人机交互和行为分析研究提供了新的方向。

MotionLLM:通过人体运动和视频理解人类行为

任务

陈凌昊😎 1, 3卢顺麟😎 2, 3曾爱玲3张昊3, 4王本友2张瑞茂2张磊🤗 3

😎共同第一作者。列出顺序随机。 🤗通讯作者。

1清华大学, 2香港中文大学(深圳)数据科学学院, 3国际数字经济研究院(IDEA), 4香港科技大学

📰 新闻

  • [2024-06-17]:MoVid数据集的视频数据现已在HuggingFace上发布。可以在这里快速浏览我们的数据。
  • [2024-06-11]:已支持CLI模式。MotionLLM现在在🤗HuggingFace演示上使用A100 GPU运行(Twitter上的帖子)。
  • [2024-05-31]:论文、演示和代码已发布(Twitter上的帖子)。

🤩 摘要

本研究深入探讨了利用大型语言模型(LLMs)的强大能力来理解多模态(即视频和动作模态)人类行为。与最近仅针对视频或仅针对动作理解设计的LLMs不同,我们认为理解人类行为需要同时从视频和动作序列(如SMPL序列)进行联合建模,以有效捕捉细微的身体部位动态和语义。鉴于此,我们提出了MotionLLM,这是一个简单而有效的人体动作理解、描述和推理框架。具体而言,MotionLLM采用统一的视频-动作训练策略,利用现有粗粒度视频-文本数据和细粒度动作-文本数据的互补优势,以获得丰富的时空洞察。此外,我们收集了一个大型数据集MoVid,包含多样化的视频、动作、描述和指令。我们还提出了MoVid-Bench,其中包含精心手动标注的数据,以更好地评估视频和动作上的人类行为理解。大量实验表明MotionLLM在描述、时空理解和推理能力方面的优越性。

🤩 亮点应用

应用

🔧 技术方案

系统

💻 试用

我们提供了一个简单的在线演示供您试用MotionLLM。以下是在本地机器上部署演示的指南。

步骤1:设置环境

pip install -r requirements.txt

步骤2:下载预训练模型

2.1 下载LLM 请按照[Lit-GPT](https://github.com/Lightning-AI/litgpt)的说明准备LLM模型(vicuna 1.5-7B)。这些文件将是:
./checkpoints/vicuna-7b-v1.5
├── generation_config.json
├── lit_config.json
├── lit_model.pth
├── pytorch_model-00001-of-00002.bin
├── pytorch_model-00002-of-00002.bin
├── pytorch_model.bin.index.json
├── tokenizer_config.json
└── tokenizer.model

如果您有任何疑问,我们将在几天内更新更详细的说明。

我们现在发布了一个版本的MotionLLM检查点,即v1.0(在这里下载)。向陈令豪和卢顺林征集建议。

wget xxx

将它们保存在一个命名的文件夹中,并记住路径(LINEAR_VLORA)。

2.3 运行演示

选项1: gradio演示
GRADIO_TEMP_DIR=temp python app.py --lora_path $LORA --mlp_path $LINEAR_V

如果在下载huggingface模型时遇到错误,可以尝试使用以下带有huggingface镜像的命令。

HF_ENDPOINT=https://hf-mirror.com GRADIO_TEMP_DIR=temp python app.py --lora_path $LORA --mlp_path $LINEAR_V

GRADIO_TEMP_DIR=temp将临时目录定义为./temp,用于Gradio存储数据。您可以将其更改为自己的路径。

之后,您可以打开浏览器并通过命令行输出提示访问本地主机。如果未加载,请将IP地址更改为您的本地IP地址(通过ifconfig命令)。

选项2: CLI演示 我们还提供了一个CLI演示,供您尝试MotionLLM。您可以运行以下命令来尝试MotionLLM。
python cli.py --lora_path $LORA --mlp_path $LINEAR_V

在推理过程中,您可以输入视频路径和您的问题来获取答案。

# 示例
输入视频路径: xxx.mp4
您的问题: 什么xxx?
================================
这个人打算xxx。
================================

💼 待办事项

  • 发布MotionLLM的CLI演示。
  • 发布MotionLLM的视频演示。
  • 发布MotionLLM的动作演示。
  • 发布MoVid数据集和MoVid-Bench。
  • 发布MotionLLM的调优说明。

💋 致谢

作者团队要向很多人表示衷心的感谢。蒋青在MoVid Bench的部分手动标注和解决MotionLLM的一些伦理问题方面提供了很大帮助。胡景程为高效训练提供了一些技术建议。刘世龙和资博嘉为LLM调优提供了一些重要的技术建议。刘嘉乐、杨文浩和钱辰来为我们完善论文提供了一些重要建议。李宏扬在图形设计方面给予了很大帮助。庞以仁在我们的密钥暂时配额不足时提供了GPT API密钥。代码基于Video-LLaVAHumanTOMATOMotionGPTlit-gptHumanML3D。感谢所有贡献者!

📚 许可证

本代码根据IDEA LICENSE分发。请注意,我们的代码依赖于其他库和数据集,每个库和数据集都有各自的许可证,也必须遵守。

如果您有任何问题,请联系:thu [DOT] lhchen [AT] gmail [DOT] com 和 shunlinlu0803 [AT] gmail [DOT] com。

🌟 Star历史

Star History Chart

📜 引用

@article{chen2024motionllm,
  title={MotionLLM: Understanding Human Behaviors from Human Motions and Videos},
  author={Chen, Ling-Hao and Lu, Shunlin and Zeng, Ailing and Zhang, Hao and Wang, Benyou and Zhang, Ruimao and Zhang, Lei},
  journal={arXiv preprint arXiv:2405.20340},
  year={2024}
}
项目侧边栏1项目侧边栏2
推荐项目
Project Cover

豆包MarsCode

豆包 MarsCode 是一款革命性的编程助手,通过AI技术提供代码补全、单测生成、代码解释和智能问答等功能,支持100+编程语言,与主流编辑器无缝集成,显著提升开发效率和代码质量。

Project Cover

AI写歌

Suno AI是一个革命性的AI音乐创作平台,能在短短30秒内帮助用户创作出一首完整的歌曲。无论是寻找创作灵感还是需要快速制作音乐,Suno AI都是音乐爱好者和专业人士的理想选择。

Project Cover

有言AI

有言平台提供一站式AIGC视频创作解决方案,通过智能技术简化视频制作流程。无论是企业宣传还是个人分享,有言都能帮助用户快速、轻松地制作出专业级别的视频内容。

Project Cover

Kimi

Kimi AI助手提供多语言对话支持,能够阅读和理解用户上传的文件内容,解析网页信息,并结合搜索结果为用户提供详尽的答案。无论是日常咨询还是专业问题,Kimi都能以友好、专业的方式提供帮助。

Project Cover

阿里绘蛙

绘蛙是阿里巴巴集团推出的革命性AI电商营销平台。利用尖端人工智能技术,为商家提供一键生成商品图和营销文案的服务,显著提升内容创作效率和营销效果。适用于淘宝、天猫等电商平台,让商品第一时间被种草。

Project Cover

吐司

探索Tensor.Art平台的独特AI模型,免费访问各种图像生成与AI训练工具,从Stable Diffusion等基础模型开始,轻松实现创新图像生成。体验前沿的AI技术,推动个人和企业的创新发展。

Project Cover

SubCat字幕猫

SubCat字幕猫APP是一款创新的视频播放器,它将改变您观看视频的方式!SubCat结合了先进的人工智能技术,为您提供即时视频字幕翻译,无论是本地视频还是网络流媒体,让您轻松享受各种语言的内容。

Project Cover

美间AI

美间AI创意设计平台,利用前沿AI技术,为设计师和营销人员提供一站式设计解决方案。从智能海报到3D效果图,再到文案生成,美间让创意设计更简单、更高效。

Project Cover

AIWritePaper论文写作

AIWritePaper论文写作是一站式AI论文写作辅助工具,简化了选题、文献检索至论文撰写的整个过程。通过简单设定,平台可快速生成高质量论文大纲和全文,配合图表、参考文献等一应俱全,同时提供开题报告和答辩PPT等增值服务,保障数据安全,有效提升写作效率和论文质量。

投诉举报邮箱: service@vectorlightyear.com
@2024 懂AI·鲁ICP备2024100362号-6·鲁公网安备37021002001498号