#多模态LLM
LLaMA-Cult-and-More
LLaMA-Cult-and-More项目详细介绍了最新大模型的参数数量、微调数据集与技术,并提供LLM对齐后训练的实用指南,包括数据集、基准数据集和高效训练库。从预训练模型到后训练模型,项目涵盖了许多有趣的内容,帮助您了解关键功能和最新进展。
NExT-GPT
NExT-GPT,一个先进的多模态语言处理大型模型,支持文本、图像、视频和音频的综合处理。该模型整合了最新科技,提供代码和数据资源,可广泛应用于内容自动生成和多模态交互等领域。它利用先进的多模态编码器和语言模型进行有效的语义理解与生成,同时能输出特定模态内容,满足多种输入与输出需求。
cambrian
Cambrian-1是一个开源的视觉为中心的多模态AI模型项目。采用两阶段训练方法,在8B、13B和34B参数规模上达到了与闭源模型相当的性能。项目发布了Cambrian-10M指令微调数据集和CV-Bench基准测试集,为研究提供重要资源。Cambrian-1使用较少的视觉token,在多个视觉语言任务中表现出色,促进了开放式多模态AI的进步。
ultravox
Ultravox 是一个创新的多模态大语言模型,能直接理解文本和语音,无需单独的语音识别步骤。基于 Llama 3 模型,它通过多模态投影器将音频转换为高维空间。Ultravox 的首字响应时间约为 200 毫秒,每秒可生成约 100 个 token,有效支持实时语音交互。目前支持音频输入和文本输出,未来计划增加语音输出功能。
CrayEye
CrayEye是一款开源的多模态AI分析应用,利用智能手机摄像头和传感器解读环境。用户可创建、共享和使用融合实时位置、天气等数据的增强型提示。支持iOS和Android,提供鸟类识别、物品分析等功能。这个AI驱动开发的应用为探索视觉多模态模型提供了创新平台,鼓励用户社区共同贡献和改进。
VolansDB
VolansDB是一款多模态数据引擎,支持使用SQL直接查询和分析表格、图像和视频等非结构化数据。内置AI代理可实现数据提取、分类和语义搜索,无需复杂ETL流程。平台连接多种数据源,提供成本可视化和缓存机制,帮助数据分析师高效处理大规模非结构化数据。适用于生成式AI应用分析、创意优化等场景。
MMVP
MMVP基准测试揭示了多模态大语言模型在视觉理解方面的局限。即使是顶尖模型也难以准确完成基本视觉定位任务。项目开发的Interleaved-MoF模型旨在改善这些问题。MMVP还提供了开放的评估工具和数据集,为多模态AI技术的发展做出了贡献。
Awesome-LLM-Healthcare
该项目汇集了医疗保健领域大语言模型(LLM)的研究和应用资源。内容包括通用和专业医疗LLM、多模态医疗LLM以及LLM驱动的医疗智能助手等方向的最新进展。此外还涵盖了LLM在医疗领域的评估策略、相关综述和代码库链接。这一资源集对于研究和开发医疗健康AI应用的人员具有重要参考价值。