Project Icon

Vista

通用自动驾驶世界模型实现高保真多场景预测

Vista是一款通用自动驾驶世界模型,可在多种场景中生成高保真度的预测,并扩展至连续和长期视野。模型支持多模态操作控制,包括转向、速度、指令、轨迹和目标点设定,无需真实操作数据即可评估不同行为。Vista在预测精度和操控灵活性上有显著提升,为自动驾驶技术研究提供了有力支持。

llava-v1.5-7b-llamafile - LLaVA模型实现图像理解与自然语言交互的多模态AI
GithubHuggingfaceLLaVA人工智能多模态模型开源项目机器学习模型自然语言处理
LLaVA-v1.5-7b-llamafile作为一个开源多模态AI模型,通过微调LLaMA/Vicuna而成。它整合了图像理解和自然语言处理功能,能够执行图像相关指令和进行对话。该模型于2023年9月推出,主要用于研究大型多模态模型和聊天机器人。LLaVA的训练数据包括558K图像-文本对和多种指令数据,在12个基准测试中表现优异。这个模型为计算机视觉和自然语言处理领域的研究人员提供了探索AI前沿应用的有力工具。
Pandora - 自然语言控制的视频生成世界模型
AI模拟GithubPandora世界模型开源项目自然语言控制视频生成
Pandora是一个通用世界模型项目,通过生成多领域视频模拟世界状态,并支持自然语言实时控制。该模型能跨领域生成视频,允许使用自然语言指令进行交互。Pandora在通用人工智能和视频生成领域取得重要进展,为开发更灵活智能的AI系统奠定基础。
VLN-BEVBert - 多模态地图预训练助力语言引导导航
BEVBertGithub交叉模态推理多模态地图预训练开源项目空间感知视觉语言导航
BEVBert项目为视觉语言导航(VLN)任务开发了新型地图预训练范式。通过结合局部度量地图和全局拓扑地图,该方法平衡了VLN的短期推理和长期规划需求。在R2R、R2R-CE、RxR和REVERIE四个VLN基准测试中,BEVBert展现出领先性能。项目开源了完整代码,并提供详细指南,便于研究人员复现实验和进行深入研究。
all-seeing - 全景视觉识别与关系理解的开放世界AI系统
All-Seeing ProjectGithub关系理解多模态模型大规模数据集开源项目视觉识别
All-Seeing项目开发了全面的视觉识别和理解系统。该项目推出AS-1B大规模数据集和ASM视觉语言模型,实现开放世界的全景视觉识别。其第二版引入关系对话任务,构建AS-V2数据集和ASMv2模型,增强关系理解能力。此外,项目提出CRPE基准测试,为评估关系理解提供系统平台。
EVA - 推进大规模视觉表示学习的前沿
CLIPEVAGithub多模态学习开源项目自监督学习视觉表示
EVA是北京智源人工智能研究院开发的视觉表示学习模型系列。它包括多个子项目,如EVA-01和EVA-CLIP,致力于探索大规模掩码视觉表示学习的极限和改进CLIP训练技术。这些模型在主流平台上提供,为计算机视觉研究提供了有力支持。EVA项目涵盖基础模型、自监督学习和多模态学习等前沿领域。
visualwebarena - 真实视觉网络任务评估多模态智能体表现的基准平台
AI评估GPT-4VGithubVisualWebArena多模态代理开源项目视觉网页任务
VisualWebArena是一个评估多模态自主语言智能体的真实基准平台。它包含多种基于网络的复杂视觉任务,全面评估智能体的各项能力。该项目基于WebArena的可复现评估方法,提供端到端训练和环境重置功能,支持在任意网页上测试多模态智能体。项目还公开了GPT-4V + SoM智能体在910个任务中的表现数据,方便研究人员进行分析和评估。
ScreenAI - 深度理解界面和信息图的视觉语言模型
GithubScreenAIUI理解信息图表理解多模态开源项目视觉语言模型
ScreenAI是一个开源的多模态视觉语言模型,专注于用户界面(UI)和信息图的理解。该模型集成了视觉变换器(ViT)、注意力机制和前馈网络,能够处理图像和文本输入。通过深度学习技术,ScreenAI实现了对复杂视觉信息的处理和文本整合分析,为UI设计、信息可视化和人机交互研究提供了新的工具和方法。
XPretrain - 涵盖视频语言和图像语言模型的多模态学习与预训练研究
GithubXPretrain图像与语言多模态学习开源项目视频与语言预训练
Microsoft Research MSM组在多模态学习和预训练方法上的最新研究成果,包含用于视频语言的HD-VILA-100M数据集,以及HD-VILA、LF-VILA、CLIP-ViP等预训练模型,和用于图像语言的Pixel-BERT、SOHO、VisualParsing模型。这些研究发表在CVPR、NeurIPS和ICLR等顶级会议,代码和数据集已公开,社区成员可以贡献和提出建议。
Depth-Anything-V2 - 单目深度估计新突破,高精度与快速推理并重
Depth Anything V2Github开源项目深度估计计算机视觉预训练模型
Depth-Anything-V2是单目深度估计领域的新进展。该模型在细节表现和鲁棒性上显著优于V1版本,并在推理速度、参数量和深度精度方面超越了基于SD的模型。项目提供四种预训练模型,适用于相对和度量深度估计,可处理图像和视频。此外,发布的DA-2K基准为深度估计研究设立了新标准。
PersFormer_3DLane - PersFormer基于透视变换实现精确的3D车道线检测
3D车道线检测GithubOpenLane基准PersFormerPyTorch实现开源项目透视变换
PersFormer是一种创新的3D车道线检测模型,采用基于Transformer的模块生成BEV特征并参考相机参数。模型能同时进行2D和3D车道检测,提升特征一致性与多任务学习效果。PersFormer在OpenLane和Apollo 3D Lane Synthetic数据集上的表现优异,超越了多种现有方法,并提供简便的安装与评估说明以及详细的训练和测试指南,成为3D车道检测领域的重要进展。
项目侧边栏1项目侧边栏2
推荐项目
Project Cover

豆包MarsCode

豆包 MarsCode 是一款革命性的编程助手,通过AI技术提供代码补全、单测生成、代码解释和智能问答等功能,支持100+编程语言,与主流编辑器无缝集成,显著提升开发效率和代码质量。

Project Cover

AI写歌

Suno AI是一个革命性的AI音乐创作平台,能在短短30秒内帮助用户创作出一首完整的歌曲。无论是寻找创作灵感还是需要快速制作音乐,Suno AI都是音乐爱好者和专业人士的理想选择。

Project Cover

有言AI

有言平台提供一站式AIGC视频创作解决方案,通过智能技术简化视频制作流程。无论是企业宣传还是个人分享,有言都能帮助用户快速、轻松地制作出专业级别的视频内容。

Project Cover

Kimi

Kimi AI助手提供多语言对话支持,能够阅读和理解用户上传的文件内容,解析网页信息,并结合搜索结果为用户提供详尽的答案。无论是日常咨询还是专业问题,Kimi都能以友好、专业的方式提供帮助。

Project Cover

阿里绘蛙

绘蛙是阿里巴巴集团推出的革命性AI电商营销平台。利用尖端人工智能技术,为商家提供一键生成商品图和营销文案的服务,显著提升内容创作效率和营销效果。适用于淘宝、天猫等电商平台,让商品第一时间被种草。

Project Cover

吐司

探索Tensor.Art平台的独特AI模型,免费访问各种图像生成与AI训练工具,从Stable Diffusion等基础模型开始,轻松实现创新图像生成。体验前沿的AI技术,推动个人和企业的创新发展。

Project Cover

SubCat字幕猫

SubCat字幕猫APP是一款创新的视频播放器,它将改变您观看视频的方式!SubCat结合了先进的人工智能技术,为您提供即时视频字幕翻译,无论是本地视频还是网络流媒体,让您轻松享受各种语言的内容。

Project Cover

美间AI

美间AI创意设计平台,利用前沿AI技术,为设计师和营销人员提供一站式设计解决方案。从智能海报到3D效果图,再到文案生成,美间让创意设计更简单、更高效。

Project Cover

AIWritePaper论文写作

AIWritePaper论文写作是一站式AI论文写作辅助工具,简化了选题、文献检索至论文撰写的整个过程。通过简单设定,平台可快速生成高质量论文大纲和全文,配合图表、参考文献等一应俱全,同时提供开题报告和答辩PPT等增值服务,保障数据安全,有效提升写作效率和论文质量。

投诉举报邮箱: service@vectorlightyear.com
@2024 懂AI·鲁ICP备2024100362号-6·鲁公网安备37021002001498号