Logo

#多模态LLM

Logo of NExT-GPT
NExT-GPT
NExT-GPT,一个先进的多模态语言处理大型模型,支持文本、图像、视频和音频的综合处理。该模型整合了最新科技,提供代码和数据资源,可广泛应用于内容自动生成和多模态交互等领域。它利用先进的多模态编码器和语言模型进行有效的语义理解与生成,同时能输出特定模态内容,满足多种输入与输出需求。
Logo of VolansDB
VolansDB
VolansDB是一款多模态数据引擎,支持使用SQL直接查询和分析表格、图像和视频等非结构化数据。内置AI代理可实现数据提取、分类和语义搜索,无需复杂ETL流程。平台连接多种数据源,提供成本可视化和缓存机制,帮助数据分析师高效处理大规模非结构化数据。适用于生成式AI应用分析、创意优化等场景。
Logo of ultravox
ultravox
Ultravox 是一个创新的多模态大语言模型,能直接理解文本和语音,无需单独的语音识别步骤。基于 Llama 3 模型,它通过多模态投影器将音频转换为高维空间。Ultravox 的首字响应时间约为 200 毫秒,每秒可生成约 100 个 token,有效支持实时语音交互。目前支持音频输入和文本输出,未来计划增加语音输出功能。
Logo of Awesome-LLM-Healthcare
Awesome-LLM-Healthcare
该项目汇集了医疗保健领域大语言模型(LLM)的研究和应用资源。内容包括通用和专业医疗LLM、多模态医疗LLM以及LLM驱动的医疗智能助手等方向的最新进展。此外还涵盖了LLM在医疗领域的评估策略、相关综述和代码库链接。这一资源集对于研究和开发医疗健康AI应用的人员具有重要参考价值。