Project Icon

dolphin

通用视频互动平台,基于大型语言模型的视频理解、处理与生成

Dolphin是一个基于大型语言模型的通用视频互动平台,专注于视频理解、处理和生成。该平台支持视频问答、视频剪辑、字幕添加、音频提取及生成等功能,旨在提升视频处理的智能化水平。用户可通过文本生成视频、姿态到视频转换及视频图像转换等多种方式进行创作。项目持续更新,欢迎社区贡献和拉取请求,适用于北航和南洋理工大学的科研项目。

Otter - 基于MIMIC-IT数据集和OpenFlamingo的多模态模型
GithubMIMIC-ITOtter多模态开源项目指令微调视觉语言处理
该项目结合了OpenFlamingo模型和MIMIC-IT数据集进行多模态指令调优,拥有280万条指令-响应对,支持图像和视频内容的精确理解与互动。该项目还包括OtterHD模型,提升高分辨率视觉输入的细粒度解释,并推出MagnifierBench评估基准测试模型的微小物体识别能力。公开的代码可用于训练和预训练,并支持GPT4V的评估和Flamingo架构的多任务处理。
dolphin-2.5-mixtral-8x7b - 高效编程辅助模型,支持多数据集优化
AI助手DolphinGithubHuggingface开源项目数据集未加密模型模型模型训练
Dolphin 2.5 Mixtral 8x7b模型通过丰富的编码数据进行优化,尽管未经DPO调整,但在明确的系统提示支持下,处理代码请求表现出色。新的数据集如Synthia和OpenHermes增强了模型的适应性。由于模型未过滤对齐和偏见,建议在使用前加入对齐层以确保合规性。
ai-video-search-engine - 智能视频内容检索与分析系统
AI视频搜索引擎GithubJigsawStack向量搜索开源项目视频内容索引视频转录
AI Video Search Engine项目是一种创新型视频搜索引擎,采用先进AI技术实现视频内容的深度索引和智能检索。该系统能够精确定位视频中的特定信息,提供上下文相关的搜索结果,并具备视频摘要生成和智能对话功能。项目整合了Supabase、Hasura和JigsawStack等技术,为视频内容检索提供高效、精准的解决方案,适用于教育、研究和信息获取等领域。
LLaMA-VID - 支持长视频处理的多模态大语言模型
GithubLLaMA-VID多模态大语言模型开源项目视觉语言模型视频理解
LLaMA-VID是一个新型多模态大语言模型,可处理长达数小时的视频。它通过增加上下文令牌扩展了现有框架的能力,采用编码器-解码器结构和定制令牌生成策略,实现对图像和视频的高效理解。该项目开源了完整的模型、数据集和代码,为视觉语言模型研究提供了有力工具。
dreamoving-project - 基于扩散模型的人工智能视频生成框架
DreaMovingGithub人工智能人物视频开源项目扩散模型视频生成
DreaMoving是一个基于扩散模型的视频生成框架,专注于创建高质量的定制人物视频。该系统可根据文本描述在多样化场景中生成人物动作视频,例如海滩、公园和埃及金字塔等。这个由阿里巴巴智能计算研究院开发的项目提供中英文在线演示,体现了人工智能在视频生成领域的最新技术进展。
Video-ChatGPT - 创新视频对话技术开启细致视频理解新纪元
GithubVideo-ChatGPT多模态大型视觉语言模型开源项目视频理解问答系统
Video-ChatGPT是一个融合大型视觉和语言模型的视频对话系统。该项目构建了10万条视频-指令对数据集,开发了首个视频对话量化评估框架,在视频推理、创意生成、空间和时间理解等任务中表现出色。这一开源项目为视频内容理解和人机交互带来了新的发展方向。
InternVideo - 视频基础模型助力多模态理解进展
GithubInternVideo多模态理解开源项目模型更新视频基础模型视频文本数据集
InternVideo项目致力于开发通用视频基础模型,提升多模态视频理解能力。项目包含InternVideo和InternVideo2两个主要版本,以及大规模视频-文本数据集InternVid。InternVideo2采用生成式和判别式学习方法,在多模态视频理解任务中表现突出。项目不断更新,提供多种规模的模型和丰富的视频注释数据,为研究和开发提供有力支持。
LipVideo - 智能视频配音与翻译平台
AI工具AI配音视频配音语言翻译语音选择音频编辑
LipVideo平台提供AI驱动的视频配音和翻译服务。用户可上传视频,选择语言,获得自动配音。平台支持自定义配音轨道和唇形同步选项,并提供脚本编辑功能。为保证翻译质量,系统设有翻译变化限制。LipVideo致力于提供高效、准确的视频本地化解决方案,适用于需要多语言视频内容的用户。
Open-Sora-Plan - 视频生成与分析技术
3D注意力模型AI视频生成CausalVideoVAEGithubOpen-Sora Plan开源项目昇腾AI计算系统热门
Open-Sora-Plan 是由北大-兔展AIGC联合实验室发起的开源项目,旨在复刻并优化Sora模型,采用华为昇腾AI计算系统进行训练和推理。该项目通过3D全注意力架构,提升视频质量与处理速度,还支持视频压缩和文本到视频的生成。项目包含丰富的资源和版本,持续更新,欢迎社区贡献和Pull request。
VideoMamba - 突破性的视频理解状态空间模型
GithubVideoMamba多模态兼容性开源项目状态空间模型视频理解长期视频建模
VideoMamba是一种创新的视频理解模型,克服了现有技术的局限性。它能高效处理长视频和高分辨率内容,展现出可扩展性、短期动作识别敏感性、长期视频理解优势和多模态兼容性四大核心特点。VideoMamba为全面的视频理解任务提供了高效解决方案,推动了该领域的发展。
项目侧边栏1项目侧边栏2
推荐项目
Project Cover

豆包MarsCode

豆包 MarsCode 是一款革命性的编程助手,通过AI技术提供代码补全、单测生成、代码解释和智能问答等功能,支持100+编程语言,与主流编辑器无缝集成,显著提升开发效率和代码质量。

Project Cover

AI写歌

Suno AI是一个革命性的AI音乐创作平台,能在短短30秒内帮助用户创作出一首完整的歌曲。无论是寻找创作灵感还是需要快速制作音乐,Suno AI都是音乐爱好者和专业人士的理想选择。

Project Cover

有言AI

有言平台提供一站式AIGC视频创作解决方案,通过智能技术简化视频制作流程。无论是企业宣传还是个人分享,有言都能帮助用户快速、轻松地制作出专业级别的视频内容。

Project Cover

Kimi

Kimi AI助手提供多语言对话支持,能够阅读和理解用户上传的文件内容,解析网页信息,并结合搜索结果为用户提供详尽的答案。无论是日常咨询还是专业问题,Kimi都能以友好、专业的方式提供帮助。

Project Cover

阿里绘蛙

绘蛙是阿里巴巴集团推出的革命性AI电商营销平台。利用尖端人工智能技术,为商家提供一键生成商品图和营销文案的服务,显著提升内容创作效率和营销效果。适用于淘宝、天猫等电商平台,让商品第一时间被种草。

Project Cover

吐司

探索Tensor.Art平台的独特AI模型,免费访问各种图像生成与AI训练工具,从Stable Diffusion等基础模型开始,轻松实现创新图像生成。体验前沿的AI技术,推动个人和企业的创新发展。

Project Cover

SubCat字幕猫

SubCat字幕猫APP是一款创新的视频播放器,它将改变您观看视频的方式!SubCat结合了先进的人工智能技术,为您提供即时视频字幕翻译,无论是本地视频还是网络流媒体,让您轻松享受各种语言的内容。

Project Cover

美间AI

美间AI创意设计平台,利用前沿AI技术,为设计师和营销人员提供一站式设计解决方案。从智能海报到3D效果图,再到文案生成,美间让创意设计更简单、更高效。

Project Cover

AIWritePaper论文写作

AIWritePaper论文写作是一站式AI论文写作辅助工具,简化了选题、文献检索至论文撰写的整个过程。通过简单设定,平台可快速生成高质量论文大纲和全文,配合图表、参考文献等一应俱全,同时提供开题报告和答辩PPT等增值服务,保障数据安全,有效提升写作效率和论文质量。

投诉举报邮箱: service@vectorlightyear.com
@2024 懂AI·鲁ICP备2024100362号-6·鲁公网安备37021002001498号