Project Icon

Ego4d

大规模多模态视频数据集与基准测试的最新发展

Ego-Exo4D和Ego4D是全球最大的第一人称和多视角视频机器学习数据集,含有时间同步的视频和丰富的注释。Ego4D数据集包括超过3700小时的注释视频,Ego-Exo4D的V2版本新增了1286.30小时的视频内容,提供数据下载、特征提取和研究的CLI工具和API。详细信息请查阅官方网站和文档。

EVA - 推进大规模视觉表示学习的前沿
CLIPEVAGithub多模态学习开源项目自监督学习视觉表示
EVA是北京智源人工智能研究院开发的视觉表示学习模型系列。它包括多个子项目,如EVA-01和EVA-CLIP,致力于探索大规模掩码视觉表示学习的极限和改进CLIP训练技术。这些模型在主流平台上提供,为计算机视觉研究提供了有力支持。EVA项目涵盖基础模型、自监督学习和多模态学习等前沿领域。
End-to-end-Autonomous-Driving - 端到端自动驾驶研究资源综合集成
CARLAGithub开源项目机器学习端到端自动驾驶计算机视觉
该项目整合端到端自动驾驶研究资源,涵盖学习材料、研讨会、论文集、基准测试、数据集及竞赛信息。旨在为自动驾驶研究提供全面参考,推动技术发展。内容定期更新,欢迎社区参与贡献。
DG-Mesh - 从单目视频重建高保真度时序一致网格的框架
3D重建DG-MeshGithub动态场景单目视频开源项目网格生成
DG-Mesh是一个从单目视频重建高保真度时序一致网格的框架。它能够重建高质量的表面、外观和跨时间帧的网格顶点运动,支持灵活的拓扑变化,并能处理鸟翼等细结构。项目包含多个数据集的训练和评估代码,以及自定义数据集支持。
VideoGPT-plus - 双编码器融合提升视频理解能力
GithubVideoGPT+人工智能多模态模型开源项目视频对话视频理解
VideoGPT+是一个创新的视频对话模型,通过集成图像和视频编码器,实现了更精细的空间理解和全局时间上下文分析。模型采用自适应池化技术处理双编码器特征,大幅提升了视频基准测试性能。项目同时推出VCG+ 112K数据集和VCGBench-Diverse基准,为视频对话任务提供全面评估。VideoGPT+在空间理解、推理和视频问答等多项任务中表现优异。
MVHumanNet - 多视角日常穿着人体捕捉大规模数据集
GithubMVHumanNet人体捕捉多视角开源项目数据集计算机视觉
MVHumanNet是一个大规模多视角人体捕捉数据集,包含4,500个人物身份、9,000套日常服装和60,000个动作序列。数据集提供645百万帧图像,附带丰富标注,如人体遮罩、相机参数、2D/3D关键点、SMPL/SMPLX参数及相应文本描述。这一资源为计算机视觉和人体建模研究提供了重要支持,适用于多种应用场景。
Depth-Anything - 大规模无标注数据驱动的强大单目深度估计模型
Depth AnythingGithub人工智能图像处理开源项目深度估计计算机视觉
Depth Anything是一款基于大规模数据训练的单目深度估计模型。它利用150万标注图像和6200万无标注图像进行训练,提供小型、中型和大型三种预训练模型。该模型不仅支持相对深度和度量深度估计,还可用于ControlNet深度控制、场景理解和视频深度可视化等任务。在多个基准数据集上,Depth Anything的性能超越了此前最佳的MiDaS模型,展现出优异的鲁棒性和准确性。
video2dataset - 快速构建大规模视频数据集的开源工具
Githubvideo2dataset分布式处理开源项目数据预处理视频下载视频数据集
video2dataset是一个开源工具,用于从视频URL快速创建大规模视频数据集。它支持多种输入输出格式和文件系统,可在12小时内处理1000万个视频。该工具提供增量模式、分布式处理和Weights & Biases集成,适合机器学习训练等场景。其灵活的API和配置选项让用户能够精细控制数据处理流程。
easyportrait - 人像分割和面部解析大规模数据集
EasyPortraitGithub人像分割人工智能开源项目数据集面部解析
EasyPortrait是一个包含40,000张高质量标注RGB图像的数据集,用于人像分割和面部解析研究。数据集提供9个类别的标注,涵盖背景、人物、皮肤、眉毛、眼睛等。它可应用于视频会议背景移除、面部美化等多个场景。数据集基于用户ID划分训练、验证和测试集,并提供多个基线模型的预训练权重,为计算机视觉研究提供了有价值的资源。
vid2avatar - 自监督场景分解实现野外视频3D人物重建
3D头像重建GithubVid2Avatar场景分解开源项目自监督学习视频处理
Vid2Avatar是一个开源项目,采用自监督场景分解方法从未处理的野外视频中重建3D人物模型。该方法无需额外监督,通过分离人物和背景实现精确建模。项目包含完整代码、预处理数据集和使用说明,适用于复杂场景的人物建模。
ScanNet - 包含2.5百万视图的RGB-D视频数据集及其3D重建
3D重建BundleFusionGithubRGB-D视频数据集ScanNet开源项目语义分割
ScanNet是一个丰富的RGB-D视频数据集,包含超过1500次扫描和2.5百万个视图,包括3D相机姿态、表面重建和实例级语义分割标签。用户需通过机构邮箱填写使用协议以下载数据。数据按RGB-D序列组织,包含多种格式的重建网格和注释文件。附带工具有ScanNet C++工具包、相机参数估计代码和网格分割代码。本数据集支持多项场景理解基准任务,并提供相关代码与文档。
项目侧边栏1项目侧边栏2
推荐项目
Project Cover

豆包MarsCode

豆包 MarsCode 是一款革命性的编程助手,通过AI技术提供代码补全、单测生成、代码解释和智能问答等功能,支持100+编程语言,与主流编辑器无缝集成,显著提升开发效率和代码质量。

Project Cover

AI写歌

Suno AI是一个革命性的AI音乐创作平台,能在短短30秒内帮助用户创作出一首完整的歌曲。无论是寻找创作灵感还是需要快速制作音乐,Suno AI都是音乐爱好者和专业人士的理想选择。

Project Cover

有言AI

有言平台提供一站式AIGC视频创作解决方案,通过智能技术简化视频制作流程。无论是企业宣传还是个人分享,有言都能帮助用户快速、轻松地制作出专业级别的视频内容。

Project Cover

Kimi

Kimi AI助手提供多语言对话支持,能够阅读和理解用户上传的文件内容,解析网页信息,并结合搜索结果为用户提供详尽的答案。无论是日常咨询还是专业问题,Kimi都能以友好、专业的方式提供帮助。

Project Cover

阿里绘蛙

绘蛙是阿里巴巴集团推出的革命性AI电商营销平台。利用尖端人工智能技术,为商家提供一键生成商品图和营销文案的服务,显著提升内容创作效率和营销效果。适用于淘宝、天猫等电商平台,让商品第一时间被种草。

Project Cover

吐司

探索Tensor.Art平台的独特AI模型,免费访问各种图像生成与AI训练工具,从Stable Diffusion等基础模型开始,轻松实现创新图像生成。体验前沿的AI技术,推动个人和企业的创新发展。

Project Cover

SubCat字幕猫

SubCat字幕猫APP是一款创新的视频播放器,它将改变您观看视频的方式!SubCat结合了先进的人工智能技术,为您提供即时视频字幕翻译,无论是本地视频还是网络流媒体,让您轻松享受各种语言的内容。

Project Cover

美间AI

美间AI创意设计平台,利用前沿AI技术,为设计师和营销人员提供一站式设计解决方案。从智能海报到3D效果图,再到文案生成,美间让创意设计更简单、更高效。

Project Cover

AIWritePaper论文写作

AIWritePaper论文写作是一站式AI论文写作辅助工具,简化了选题、文献检索至论文撰写的整个过程。通过简单设定,平台可快速生成高质量论文大纲和全文,配合图表、参考文献等一应俱全,同时提供开题报告和答辩PPT等增值服务,保障数据安全,有效提升写作效率和论文质量。

投诉举报邮箱: service@vectorlightyear.com
@2024 懂AI·鲁ICP备2024100362号-6·鲁公网安备37021002001498号