dolphin

通用视频互动平台，基于大型语言模型的视频理解、处理与生成

Dolphin 视频理解视频处理视频生成大型语言模型 Github 开源项目

Dolphin是一个基于大型语言模型的通用视频互动平台，专注于视频理解、处理和生成。该平台支持视频问答、视频剪辑、字幕添加、音频提取及生成等功能，旨在提升视频处理的智能化水平。用户可通过文本生成视频、姿态到视频转换及视频图像转换等多种方式进行创作。项目持续更新，欢迎社区贡献和拉取请求，适用于北航和南洋理工大学的科研项目。

访问官网

Github

介绍相关项目

MotionLLM - 融合视频和动作数据的人类行为理解先进AI模型

GithubMotionLLM人工智能人类行为理解多模态学习大语言模型开源项目

MotionLLM是一个人类行为理解框架，通过融合视频和动作序列数据来分析人类行为。该项目采用统一的视频-动作训练策略，结合粗粒度视频-文本和细粒度动作-文本数据，以获得深入的时空洞察。项目还包括MoVid数据集和MoVid-Bench评估工具，用于研究和评估人类行为理解。MotionLLM在行为描述、时空理解和推理方面展现出优越性能，为人机交互和行为分析研究提供了新的方向。

DynamiCrafter - 将开放域图像转化为动态视频的AI动画工具

AI动画DynamiCrafterGithub图像动画化开源项目视频插帧视频生成

DynamiCrafter是一个图像动画化项目,能够基于文本提示将静态图像转换为动态视频。该项目利用预训练的视频扩散模型,生成高分辨率、连贯性强的动画。除了基础的图像动画化功能,DynamiCrafter还支持故事视频生成、帧插值和循环视频生成等应用。该项目在ECCV 2024会议上进行了口头报告,并在多项图像到视频生成基准测试中表现出色。

Wav2Lip - 先进的AI视频口型同步技术

GithubWav2Lip唇形同步开源项目深度学习视频处理音频处理

Wav2Lip是一个开源项目，采用先进的人工智能技术实现高精度的视频口型同步。该技术适用于各种身份、声音和语言，包括CGI人脸和合成语音。项目提供完整的训练和推理代码以及预训练模型，方便用户将任意音频与视频进行口型同步。Wav2Lip在多个基准数据集上展现出领先性能，为视频制作和内容创作领域提供了有力支持。

Videofa.st - 智能短视频自动字幕生成平台

AI工具AI技术Videofa.st内容制作社交媒体视频字幕

Videofa.st是一个智能短视频自动字幕生成平台，为短视频添加准确、吸引眼球的自动字幕，提升观看时长和互动率。支持99种语言，实现全球内容可访问。易于集成视频制作流程，节省字幕制作时间。提供个性化和品牌定制，创建专业质量字幕，助力社交媒体传播，扩大受众群体。

sharegpt4video-8b - 基于视频指令数据训练的开源视频对话模型

GithubHuggingfaceShareGPT4Video开源项目机器学习模型视频指令数据视频聊天机器人视频语言模型

sharegpt4video-8b是一个开源视频对话模型，基于153K多样化视频指令数据和28K高质量视频字幕数据进行全模型微调。该模型能处理视频问答、描述和分析等任务，旨在推进视频-语言模型研究。它主要面向计算机视觉、自然语言处理和人工智能领域的研究人员，用于探索大规模视频-语言模型和视频聊天机器人的潜力。

Bith.ai - 智能视频创作与编辑工具集成平台

AI内容创作AI工具图像生成字幕生成视频编辑配音生成

Bith.ai整合了多种AI驱动的内容生成工具和视频编辑功能，为创作者提供全面的视频制作解决方案。平台支持视频、图像和配音的智能生成，并配备视频编辑、字幕添加和尺寸调整等实用工具，大幅简化了内容创作流程。通过Bith.ai，各类创作者都能高效地将创意转化为专业水准的视频作品，满足多样化的内容创作需求。

VideoLingo - 一站式视频字幕处理工具，提高视频制作效率

AI字幕AI工具NLP技术VideoLingo智能翻译语音合成

VideoLingo提供从字幕切割到精准配音的全套自动化服务，利用先进技术实现高质量视频本地化。支持智能字幕分段和上下文一致翻译的功能，提升创作效率。同时，开放给开发者的灵活配置使内容制作人更轻松地自定义工作流程。

VideoLLaMA2-7B - 多模态大语言模型在视频时空建模和音频理解上的应用

GithubHuggingfaceVideoLLaMA 2多模态大语言模型开源项目模型模型推理空间-时间建模视频问答

VideoLLaMA2-7B 项目聚焦于视频时空的建模与音频理解，利用先进的视觉和语音编码技术提升视频内容分析能力。项目支持视频聊天和多选视频问答，提供训练与推理代码，适用于多种场景需求，并开放模型权重及技术报告以支持研究与开发。

talk-llama-fast - 开源AI语音对话系统支持多语言实时交互及视频生成

AI对话Githubtalk-llama-fast开源项目视频生成语音合成语音识别

talk-llama-fast是一个开源的AI语音对话系统,支持实时语音识别、自然语言生成和语音合成,可进行多语言交互。系统集成了视频生成功能,能创建与音频同步的唇形动画。采用流式处理和激进VAD等优化技术,实现低延迟响应。提供多种语音命令和中断机制,增强交互体验。适用于开发AI助手、虚拟角色等应用。

VideoToWords - 多语言音视频转录与摘要生成平台

AI工具YouTube多语言支持文件转换视频摘要转录

VideoToWords是一个专业的音视频内容处理平台，提供多语言转录、自动摘要和智能对话功能。支持113种语言的高精度转录，可生成格式化文本和YouTube视频摘要。该工具适用于学术讲座、会议记录和日常对话，能够有效提升学习、研究和内容创作的效率。VideoToWords通过智能技术，帮助用户快速获取文字记录、关键信息和深入见解。

相关项目

项目侧边栏1

项目侧边栏2

推荐项目

Project Cover

豆包MarsCode

豆包 MarsCode 是一款革命性的编程助手，通过AI技术提供代码补全、单测生成、代码解释和智能问答等功能，支持100+编程语言，与主流编辑器无缝集成，显著提升开发效率和代码质量。

Project Cover

AI写歌

Suno AI是一个革命性的AI音乐创作平台，能在短短30秒内帮助用户创作出一首完整的歌曲。无论是寻找创作灵感还是需要快速制作音乐，Suno AI都是音乐爱好者和专业人士的理想选择。

Project Cover

有言AI

有言平台提供一站式AIGC视频创作解决方案，通过智能技术简化视频制作流程。无论是企业宣传还是个人分享，有言都能帮助用户快速、轻松地制作出专业级别的视频内容。

Project Cover

Kimi

Kimi AI助手提供多语言对话支持，能够阅读和理解用户上传的文件内容，解析网页信息，并结合搜索结果为用户提供详尽的答案。无论是日常咨询还是专业问题，Kimi都能以友好、专业的方式提供帮助。

Project Cover

阿里绘蛙

绘蛙是阿里巴巴集团推出的革命性AI电商营销平台。利用尖端人工智能技术，为商家提供一键生成商品图和营销文案的服务，显著提升内容创作效率和营销效果。适用于淘宝、天猫等电商平台，让商品第一时间被种草。

Project Cover

吐司

探索Tensor.Art平台的独特AI模型，免费访问各种图像生成与AI训练工具，从Stable Diffusion等基础模型开始，轻松实现创新图像生成。体验前沿的AI技术，推动个人和企业的创新发展。

Project Cover

SubCat字幕猫

SubCat字幕猫APP是一款创新的视频播放器，它将改变您观看视频的方式！SubCat结合了先进的人工智能技术，为您提供即时视频字幕翻译，无论是本地视频还是网络流媒体，让您轻松享受各种语言的内容。

Project Cover

美间AI

美间AI创意设计平台，利用前沿AI技术，为设计师和营销人员提供一站式设计解决方案。从智能海报到3D效果图，再到文案生成，美间让创意设计更简单、更高效。

Project Cover

稿定AI

稿定设计是一个多功能的在线设计和创意平台，提供广泛的设计工具和资源，以满足不同用户的需求。从专业的图形设计师到普通用户，无论是进行图片处理、智能抠图、H5页面制作还是视频剪辑，稿定设计都能提供简单、高效的解决方案。该平台以其用户友好的界面和强大的功能集合，帮助用户轻松实现创意设计。

使用协议隐私政策广告服务

投诉举报邮箱: service@vectorlightyear.com

@2024 懂AI·鲁ICP备2024100362号-6·鲁公网安备37021002001498号