Project Icon

InterFuser

多传感器融合技术助力安全增强自动驾驶

该项目融合多模态多视角传感器信息,实现综合场景理解,生成可解释的中间特征,确保动作在安全范围内。该方法在CARLA AD排行榜上取得了最新成果,项目还提供了详细的数据生成、训练和评估步骤,以及实用工具脚本和预训练权重。

Forge_VFM4AD - DriveGAN实现高质量可控神经网络环境模拟
Github人工智能基础模型开源项目深度学习自动驾驶计算机视觉
DriveGAN是一种高质量神经网络模拟器,通过无监督学习实现环境组成部分的解耦控制。它可模拟转向控制、场景天气和非玩家对象位置等特征。DriveGAN的全微分特性支持视频序列重新模拟,允许在已记录场景中采取不同行动。该方法在多个数据集上训练,包括160小时真实驾驶数据,性能显著优于现有技术。
Vista - 通用自动驾驶世界模型实现高保真多场景预测
GithubVista世界模型开源项目控制自动驾驶预测
Vista是一款通用自动驾驶世界模型,可在多种场景中生成高保真度的预测,并扩展至连续和长期视野。模型支持多模态操作控制,包括转向、速度、指令、轨迹和目标点设定,无需真实操作数据即可评估不同行为。Vista在预测精度和操控灵活性上有显著提升,为自动驾驶技术研究提供了有力支持。
Awesome-Multimodal-LLM-Autonomous-Driving - 多模态大语言模型推动自动驾驶技术创新
GithubWACV人工智能多模态大语言模型开源项目自动驾驶计算机视觉
该资源库汇集自动驾驶领域多模态大语言模型(MLLM)相关研究,全面介绍MLLM在感知、规划和控制方面的应用。内容涵盖最新模型、数据集和基准,并总结WACV 2024 LLVM-AD研讨会成果。项目探讨了MLLM应用于自动驾驶系统的挑战和机遇,为研究人员和工程师提供了解该前沿领域发展的宝贵参考。
BEVFormer - 多摄像头鸟瞰图学习框架助力自动驾驶感知
BEVFormerGithub多相机感知开源项目目标检测自动驾驶鸟瞰图表示
BEVFormer是一个用于自动驾驶感知的开源框架,通过时空Transformer从多摄像头图像中学习统一的鸟瞰图表示。该方法利用预定义的网格查询,结合空间交叉注意力和时间自注意力机制,有效聚合多视角的空间和时序信息。在nuScenes测试集上,BEVFormer达到56.9%的NDS指标,显著超越现有方法,与激光雷达系统性能相当。这一创新为基于纯视觉的3D目标检测提供了新的基准。
awesome-CARLA - CARLA自动驾驶模拟器资源大全
CARLAGithub开源开源项目教程模拟器自动驾驶
CARLA是一款开源的自动驾驶系统模拟器,本文汇总了CARLA相关的优质资源,包括官方发布、教程、示例代码等。涵盖强化学习、模仿学习、多智能体、目标检测、图像分割等多个领域,为开发者提供全面的CARLA学习和应用参考。无论是入门还是进阶,都能在这里找到有价值的CARLA项目和工具。
DriveMLM - 融合大语言模型的自动驾驶行为规划框架
DriveMLMGithub多模态大语言模型开源项目自动驾驶行为规划
DriveMLM是一个创新的自动驾驶框架,融合了大语言模型技术。该框架通过标准化决策状态、采用多模态大语言模型进行行为规划,并设计数据引擎收集训练数据,实现了在真实模拟环境中的闭环自动驾驶。在CARLA Town05 Long测试中,DriveMLM获得76.1分的驾驶得分,比Apollo基准高出4.7分。这一成果为大语言模型在自动驾驶领域的应用提供了新的研究方向。
3D-deformable-attention - 3D可变形注意力技术提升自动驾驶物体检测精度
3D目标检测BEVFormerDFA3DGithub开源项目深度估计特征提升
3D-deformable-attention项目提出了3D可变形注意力(DFA3D)操作符,用于2D到3D特征提升。该方法首先利用深度估计将2D特征扩展到3D空间,再通过DFA3D聚合3D特征。这种方法缓解了深度歧义问题,并支持逐层特征细化。在多个基准测试中,DFA3D平均提高1.41 mAP,高质量深度信息下最高提升15.1 mAP。研究结果显示DFA3D在自动驾驶3D目标检测等任务中具有较大潜力。
Cam2BEV - 深度学习实现多视角车载图像到语义分割鸟瞰图转换
Cam2BEVGithub开源项目深度学习自动驾驶语义分割鸟瞰图
该项目提出一种深度学习方法,将多个车载摄像头图像转换为语义分割鸟瞰图(BEV)。采用合成数据集训练,可良好泛化到真实场景。方法使用语义分割图像作为输入,缩小了仿真与真实数据的差距,无需手动标注。项目开源了代码、网络架构和数据集,适用于自动驾驶环境感知研究。相比传统逆透视映射,该方法在处理3D物体和遮挡区域时表现更佳。
UniTR - 多模态变换器网络推动3D感知进展
3D感知BEV分割GithubUniTR多模态转换器开源项目目标检测
UniTR是一种新型统一多模态变换器网络,用于3D感知任务。它通过共享权重处理相机和激光雷达等多传感器数据,实现高效多模态融合。在nuScenes数据集上,UniTR在3D目标检测和BEV地图分割任务中均达到最新水平,且降低推理延迟。该研究为提升自动驾驶系统的感知能力提供了新思路。
DriveLM - 自主驾驶图形视觉问答新进展
CVPR 2024DriveLMGithubGraph VQAnuScenes开源项目自主驾驶
DriveLM项目集成nuScenes和CARLA数据集,提出基于VLM的图形视觉问答方法,实现图形VQA和端到端驾驶。作为CVPR 2024自主驾驶挑战的主要赛道,提供了基准、测试数据、提交格式和评估流程,帮助解决数据缺乏和闭环规划问题。了解DriveLM的关键特性、主要优势及最新更新,推动多模态模型在现实应用中的发展。
项目侧边栏1项目侧边栏2
推荐项目
Project Cover

豆包MarsCode

豆包 MarsCode 是一款革命性的编程助手,通过AI技术提供代码补全、单测生成、代码解释和智能问答等功能,支持100+编程语言,与主流编辑器无缝集成,显著提升开发效率和代码质量。

Project Cover

AI写歌

Suno AI是一个革命性的AI音乐创作平台,能在短短30秒内帮助用户创作出一首完整的歌曲。无论是寻找创作灵感还是需要快速制作音乐,Suno AI都是音乐爱好者和专业人士的理想选择。

Project Cover

有言AI

有言平台提供一站式AIGC视频创作解决方案,通过智能技术简化视频制作流程。无论是企业宣传还是个人分享,有言都能帮助用户快速、轻松地制作出专业级别的视频内容。

Project Cover

Kimi

Kimi AI助手提供多语言对话支持,能够阅读和理解用户上传的文件内容,解析网页信息,并结合搜索结果为用户提供详尽的答案。无论是日常咨询还是专业问题,Kimi都能以友好、专业的方式提供帮助。

Project Cover

阿里绘蛙

绘蛙是阿里巴巴集团推出的革命性AI电商营销平台。利用尖端人工智能技术,为商家提供一键生成商品图和营销文案的服务,显著提升内容创作效率和营销效果。适用于淘宝、天猫等电商平台,让商品第一时间被种草。

Project Cover

吐司

探索Tensor.Art平台的独特AI模型,免费访问各种图像生成与AI训练工具,从Stable Diffusion等基础模型开始,轻松实现创新图像生成。体验前沿的AI技术,推动个人和企业的创新发展。

Project Cover

SubCat字幕猫

SubCat字幕猫APP是一款创新的视频播放器,它将改变您观看视频的方式!SubCat结合了先进的人工智能技术,为您提供即时视频字幕翻译,无论是本地视频还是网络流媒体,让您轻松享受各种语言的内容。

Project Cover

美间AI

美间AI创意设计平台,利用前沿AI技术,为设计师和营销人员提供一站式设计解决方案。从智能海报到3D效果图,再到文案生成,美间让创意设计更简单、更高效。

Project Cover

稿定AI

稿定设计 是一个多功能的在线设计和创意平台,提供广泛的设计工具和资源,以满足不同用户的需求。从专业的图形设计师到普通用户,无论是进行图片处理、智能抠图、H5页面制作还是视频剪辑,稿定设计都能提供简单、高效的解决方案。该平台以其用户友好的界面和强大的功能集合,帮助用户轻松实现创意设计。

投诉举报邮箱: service@vectorlightyear.com
@2024 懂AI·鲁ICP备2024100362号-6·鲁公网安备37021002001498号