MultiPLY

3D环境中的多感官物体中心大语言模型

MultiPLY是一个多感官交互式大语言模型，在3D环境中能主动与物体交互并收集视觉、听觉、触觉和热感信息。它将多感官交互数据整合到语言模型中，建立词语、行为和感知间的关联。该模型采用物体中心表示，通过执行动作揭示物体的多感官细节，为自然语言处理和人工智能研究提供新思路。

访问官网

Github

论文

介绍相关项目

SenseVoice - 高效、多语种语音识别与情绪识别技术平台

GithubSenseVoice多语言语音识别开源项目情绪识别推理效率热门音频事件检测

SenseVoice是一款支持多语言的语音解析模型，整合了自动语音识别、语种识别、情绪识别及音频事件检测功能。该项目采用非自回归端到端框架，可在超过50种语言上提供精准的语音识别服务，大幅降低了推理延迟，提供方便的微调脚本和多语种细粒度情绪分析，支持多种客户端语言和服务部署，适用于多种商业场景。

MultiChat AI - 整合多种顶级AI模型的智能对话平台

AI对话AI工具图像生成图像编辑大语言模型数字助手

MultiChat AI集成了Mixtral、Llama-3、Claude-3等多种顶级大语言模型。平台提供单一界面访问多个AI，支持预设助手、图像生成和编辑功能。适用于编程、个人成长等多种场景，还包括开源和无审查模型。致力于提供多样化、高效的AI交互体验。

MultiModal_BigModels_Survey - 大规模多模态预训练模型综合调研

Github人工智能多模态预训练模型大规模模型开源项目深度学习综述

这个项目提供了大规模多模态预训练模型的全面调研。内容包括发展历程、关键技术、代表性模型和应用场景。调研分析了模型架构、预训练策略和下游任务等研究热点,并探讨了未来方向。这份资料可为多模态人工智能研究和开发提供参考。

3DTopia - 创新的文本到3D模型生成系统

3DTopia3D资产优化Github两阶段生成开源项目扩散模型文本到3D生成

3DTopia是一个创新的文本到3D生成模型，采用双阶段处理方法。第一阶段利用扩散模型快速生成候选项，第二阶段对选中的资产进行精细化处理。这种方法支持高质量3D内容的快速创建，实现了从文本描述到逼真3D模型的高效转换。3DTopia结合了先进的机器学习技术，为3D设计、游戏开发和虚拟现实等领域提供了新的可能性。

Monkey - 利用高分辨率图像和优质文本标签增强多模态模型性能

GithubMonkey图像分辨率多模态模型开源项目文本标签视觉问答

Monkey是一个开源的多模态大模型项目，通过提高图像分辨率和优化文本标签来改善模型性能。该项目在MMBench、CCBench和MME等基准测试中表现优异。Monkey提供完整的模型定义、训练代码和演示系统，支持离线和在线部署。此外，项目还开源了多级描述生成数据集，并提供了针对多个视觉问答数据集的评估工具，方便研究人员进行实验和改进。

MentalLLaMA - 开源大语言模型助力社交媒体上的可解释心理健康分析

GithubMentaLLaMA可解释性大语言模型开源项目心理健康分析社交媒体

MentalLLaMA项目开发了基于IMHI数据集的开源指令型大语言模型,用于社交媒体数据的心理健康分析。该模型能生成高质量解释,提高分析结果的可解释性。项目还提供了涵盖8个任务和10个测试集的全面评估基准。MentalLLaMA为心理健康监测和研究领域带来新的分析工具和方法。

chameleon - 多模态早期融合基础模型的开源实现

AI研究GithubMeta Chameleon可视化工具多模态模型开源项目模型推理

Chameleon是Meta AI开发的多模态早期融合基础模型。项目提供GPU推理实现、浏览器端多模态输入输出查看工具和评估提示。开源内容包括模型代码、权重和数据集，支持多模态AI技术研究与应用。Chameleon能够在文本、图像等多种模态间实现高效融合和理解。

MPP-LLaVA - 基于QwenLM的多模态并行系统，支持多轮对话及视频交流

GithubMPPQwen-Nextsft数据多轮对话开源项目流水线并行视频对话

MPP-Qwen-Next项目基于QwenLM，提供多模态流水线并行系统，支持多轮对话、视频对话和多图对话功能。借助DeepSpeed Pipeline Parallel技术，实现高效的单图、多图及视频推理。项目包含详细的预训练和指令微调数据，适用于多种对话场景，并专为大规模显卡配置进行了优化。

CosyVoice - 提升智能语音体验的创新技术和多语言支持

CosyVoiceGithub在线演示多语言支持开源项目语音模型跨语言推理

CosyVoice是一个先进的多语言语音生成技术，致力于提升语音交互的流畅性和实时反馈。该项目支持广泛的语言，提供灵活的下载和安装选项，包括跨语言和指令式语音合成，满足不同用户需求。通过预训练模型和定制选项，用户可以实现从简短语句到完整语音输出的自然转换，优化整体交互体验。

Chinese-Mixtral - 使用Sparse MoE架构的中文Mixtral模型

Chinese-MixtralGithubMixtral大模型量化开源项目指令精调稀疏混合专家模型

模型基于Mistral.ai的Mixtral模型开发，经过中文增量训练与指令精调，具备处理长文本（原生支持32K上下文，实测可达128K）的能力。包括中文Mixtral基础模型与指令模型，显著提升数学推理和代码生成性能。通过llama.cpp进行量化推理，最低仅需16G内存。开源提供代码、训练脚本与详细教程，支持多种推理和部署工具，适合个人电脑本地快速部署量化模型。

相关项目

推荐项目

豆包MarsCode

豆包 MarsCode 是一款革命性的编程助手，通过AI技术提供代码补全、单测生成、代码解释和智能问答等功能，支持100+编程语言，与主流编辑器无缝集成，显著提升开发效率和代码质量。

AI写歌

Suno AI是一个革命性的AI音乐创作平台，能在短短30秒内帮助用户创作出一首完整的歌曲。无论是寻找创作灵感还是需要快速制作音乐，Suno AI都是音乐爱好者和专业人士的理想选择。

有言AI

有言平台提供一站式AIGC视频创作解决方案，通过智能技术简化视频制作流程。无论是企业宣传还是个人分享，有言都能帮助用户快速、轻松地制作出专业级别的视频内容。

Kimi

Kimi AI助手提供多语言对话支持，能够阅读和理解用户上传的文件内容，解析网页信息，并结合搜索结果为用户提供详尽的答案。无论是日常咨询还是专业问题，Kimi都能以友好、专业的方式提供帮助。

阿里绘蛙

绘蛙是阿里巴巴集团推出的革命性AI电商营销平台。利用尖端人工智能技术，为商家提供一键生成商品图和营销文案的服务，显著提升内容创作效率和营销效果。适用于淘宝、天猫等电商平台，让商品第一时间被种草。

吐司

探索Tensor.Art平台的独特AI模型，免费访问各种图像生成与AI训练工具，从Stable Diffusion等基础模型开始，轻松实现创新图像生成。体验前沿的AI技术，推动个人和企业的创新发展。

SubCat字幕猫

SubCat字幕猫APP是一款创新的视频播放器，它将改变您观看视频的方式！SubCat结合了先进的人工智能技术，为您提供即时视频字幕翻译，无论是本地视频还是网络流媒体，让您轻松享受各种语言的内容。

美间AI

美间AI创意设计平台，利用前沿AI技术，为设计师和营销人员提供一站式设计解决方案。从智能海报到3D效果图，再到文案生成，美间让创意设计更简单、更高效。

稿定AI

稿定设计是一个多功能的在线设计和创意平台，提供广泛的设计工具和资源，以满足不同用户的需求。从专业的图形设计师到普通用户，无论是进行图片处理、智能抠图、H5页面制作还是视频剪辑，稿定设计都能提供简单、高效的解决方案。该平台以其用户友好的界面和强大的功能集合，帮助用户轻松实现创意设计。

使用协议隐私政策广告服务

投诉举报邮箱: service@vectorlightyear.com