Project Icon

DriveLM

自主驾驶图形视觉问答新进展

DriveLM项目集成nuScenes和CARLA数据集,提出基于VLM的图形视觉问答方法,实现图形VQA和端到端驾驶。作为CVPR 2024自主驾驶挑战的主要赛道,提供了基准、测试数据、提交格式和评估流程,帮助解决数据缺乏和闭环规划问题。了解DriveLM的关键特性、主要优势及最新更新,推动多模态模型在现实应用中的发展。

DriveMLM - 融合大语言模型的自动驾驶行为规划框架
DriveMLMGithub多模态大语言模型开源项目自动驾驶行为规划
DriveMLM是一个创新的自动驾驶框架,融合了大语言模型技术。该框架通过标准化决策状态、采用多模态大语言模型进行行为规划,并设计数据引擎收集训练数据,实现了在真实模拟环境中的闭环自动驾驶。在CARLA Town05 Long测试中,DriveMLM获得76.1分的驾驶得分,比Apollo基准高出4.7分。这一成果为大语言模型在自动驾驶领域的应用提供了新的研究方向。
Awesome-Multimodal-LLM-Autonomous-Driving - 多模态大语言模型推动自动驾驶技术创新
GithubWACV人工智能多模态大语言模型开源项目自动驾驶计算机视觉
该资源库汇集自动驾驶领域多模态大语言模型(MLLM)相关研究,全面介绍MLLM在感知、规划和控制方面的应用。内容涵盖最新模型、数据集和基准,并总结WACV 2024 LLVM-AD研讨会成果。项目探讨了MLLM应用于自动驾驶系统的挑战和机遇,为研究人员和工程师提供了解该前沿领域发展的宝贵参考。
End-to-end-Autonomous-Driving - 端到端自动驾驶研究资源综合集成
CARLAGithub开源项目机器学习端到端自动驾驶计算机视觉
该项目整合端到端自动驾驶研究资源,涵盖学习材料、研讨会、论文集、基准测试、数据集及竞赛信息。旨在为自动驾驶研究提供全面参考,推动技术发展。内容定期更新,欢迎社区参与贡献。
Forge_VFM4AD - DriveGAN实现高质量可控神经网络环境模拟
Github人工智能基础模型开源项目深度学习自动驾驶计算机视觉
DriveGAN是一种高质量神经网络模拟器,通过无监督学习实现环境组成部分的解耦控制。它可模拟转向控制、场景天气和非玩家对象位置等特征。DriveGAN的全微分特性支持视频序列重新模拟,允许在已记录场景中采取不同行动。该方法在多个数据集上训练,包括160小时真实驾驶数据,性能显著优于现有技术。
VLM_survey - 用于视觉任务的 AWESOME 视觉语言模型集合
GithubVision-Language Models开源项目数据集知识蒸馏视觉识别任务预训练方法
本页面详尽介绍了视觉语言模型(VLM)在视觉识别任务中的应用和发展。内容涵盖VLM的起源、常用架构、预训练目标、主流数据集及不同的预训练方式、迁移学习和知识蒸馏方法,并针对这些方法进行了详细的基准测试和分析。页面还讨论了未来研究的挑战和方向,让用户掌握VLM技术在图像分类、对象检测和语义分割等任务中的最新应用进展。
DriveDreamer4D - 4D驾驶场景模拟的新突破
4D驾驶场景表示AI工具DriveDreamer4D交通约束自主驾驶视频生成模型
DriveDreamer4D利用世界模型先验,提升4D驾驶场景表示。通过闭环仿真,能将实况驾驶数据转换为新的轨迹视频,并确保视频内容的时空一致性。实验验证了其在新轨迹视频生成方面的优越性,尤其在时空连贯性上表现突出,为自主驾驶系统的研究和开发提供了有力支持。
MagicDrive - 多样化3D几何控制的街景生成框架
3D几何控制GithubMagicDrive开源项目扩散模型街景生成计算机视觉
MagicDrive是一个创新街景生成框架,提供多样化的3D几何控制,包括相机姿态、道路地图和3D边界框。通过结合文本描述、定制编码策略和跨视图注意力模块,实现了多相机视角的一致性。该框架能生成高保真街景图像和视频,精确捕捉3D几何特征和场景细节,有助于提升BEV分割和3D物体检测等任务的性能。
VisionLLM - 面向视觉任务的开放式多模态大语言模型
GithubVisionLLM人工智能多模态大语言模型开源项目视觉语言任务计算机视觉
VisionLLM 系列是一种多模态大语言模型,专注于视觉相关任务。该模型利用大语言模型作为开放式解码器,支持数百种视觉语言任务,包括视觉理解、感知和生成。VisionLLM v2 进一步提升了模型的通用性,扩展了其在多模态应用场景中的能力,推动了计算机视觉与自然语言处理的融合。
carla - 一个用于自动驾驶研究的开源模拟器
CARLAGithub仿真平台开源模拟器开源项目自主驾驶自动驾驶系统
CARLA是一款专为自动驾驶研究设计的开源模拟器,支持开发、训练和验证自动驾驶系统。提供丰富的开放数字资产,包括城市布局、建筑物和车辆,并支持灵活配置传感器套件和环境条件。CARLA支持在多平台上模拟和测试自动驾驶解决方案。
LLaVA - 提升大型语言与视觉模型的视觉指令调优
GPT-4GithubLLaVA多模态交互大型语言与视觉模型开源项目视觉指令调优
LLaVA项目通过视觉指令调优提升大型语言与视觉模型的性能,达到了GPT-4级别。最新更新包括增强版LLaVA-NeXT模型及其在视频任务上的迁移能力,以及高效的LMMs-Eval评估管道。这些更新提升了模型的多任务和像素处理能力,支持LLama-3和Qwen等不同规模的模型,并提供丰富的示例代码、模型库和数据集,方便用户快速上手和深度研究。
项目侧边栏1项目侧边栏2
推荐项目
Project Cover

豆包MarsCode

豆包 MarsCode 是一款革命性的编程助手,通过AI技术提供代码补全、单测生成、代码解释和智能问答等功能,支持100+编程语言,与主流编辑器无缝集成,显著提升开发效率和代码质量。

Project Cover

AI写歌

Suno AI是一个革命性的AI音乐创作平台,能在短短30秒内帮助用户创作出一首完整的歌曲。无论是寻找创作灵感还是需要快速制作音乐,Suno AI都是音乐爱好者和专业人士的理想选择。

Project Cover

有言AI

有言平台提供一站式AIGC视频创作解决方案,通过智能技术简化视频制作流程。无论是企业宣传还是个人分享,有言都能帮助用户快速、轻松地制作出专业级别的视频内容。

Project Cover

Kimi

Kimi AI助手提供多语言对话支持,能够阅读和理解用户上传的文件内容,解析网页信息,并结合搜索结果为用户提供详尽的答案。无论是日常咨询还是专业问题,Kimi都能以友好、专业的方式提供帮助。

Project Cover

阿里绘蛙

绘蛙是阿里巴巴集团推出的革命性AI电商营销平台。利用尖端人工智能技术,为商家提供一键生成商品图和营销文案的服务,显著提升内容创作效率和营销效果。适用于淘宝、天猫等电商平台,让商品第一时间被种草。

Project Cover

吐司

探索Tensor.Art平台的独特AI模型,免费访问各种图像生成与AI训练工具,从Stable Diffusion等基础模型开始,轻松实现创新图像生成。体验前沿的AI技术,推动个人和企业的创新发展。

Project Cover

SubCat字幕猫

SubCat字幕猫APP是一款创新的视频播放器,它将改变您观看视频的方式!SubCat结合了先进的人工智能技术,为您提供即时视频字幕翻译,无论是本地视频还是网络流媒体,让您轻松享受各种语言的内容。

Project Cover

美间AI

美间AI创意设计平台,利用前沿AI技术,为设计师和营销人员提供一站式设计解决方案。从智能海报到3D效果图,再到文案生成,美间让创意设计更简单、更高效。

Project Cover

AIWritePaper论文写作

AIWritePaper论文写作是一站式AI论文写作辅助工具,简化了选题、文献检索至论文撰写的整个过程。通过简单设定,平台可快速生成高质量论文大纲和全文,配合图表、参考文献等一应俱全,同时提供开题报告和答辩PPT等增值服务,保障数据安全,有效提升写作效率和论文质量。

投诉举报邮箱: service@vectorlightyear.com
@2024 懂AI·鲁ICP备2024100362号-6·鲁公网安备37021002001498号