HalluQA

中文大语言模型幻觉评估基准

HalluQA是一个评估中文大语言模型幻觉问题的基准测试。该项目包含450个涵盖多领域的对抗性问题，考虑中国特色文化因素。HalluQA提供数据集、评估脚本和多选任务，采用GPT-4评估非幻觉率。研究结果揭示不同模型在处理误导性和知识性问题的表现，为中文大语言模型的改进提供参考。

Github

论文

介绍相关项目

MiniGPT-4 - 视觉语言多任务学习的统一接口

GithubMiniGPT-v2图像理解多任务学习大型语言模型开源项目视觉语言模型

MiniGPT-4是一个视觉语言理解项目，整合了Llama 2和Vicuna模型以增强多模态能力。它支持图像描述、视觉问答和多任务学习，能够处理复杂的视觉理解任务。项目的开源性和灵活架构为研究人员和开发者提供了探索视觉语言AI的工具。

LLMs-Planning - 大型语言模型规划与推理能力评估与分析工具

GithubLLM人工智能基准测试开源项目规划评估

LLMs-Planning项目包含PlanBench和大型语言模型规划能力分析两个子项目。PlanBench提供可扩展的基准测试，用于评估大型语言模型在规划和推理变化方面的表现。项目还对大型语言模型的规划能力进行了批判性调查，为自然语言处理和人工智能规划领域的研究者提供了重要参考。

long-form-factuality - 大型语言模型长篇文本事实性评估工具集

F1@KGithubLongFactSAFE大语言模型开源项目长篇事实性

Long-form-factuality项目提供了一套完整的工具和方法来评估大型语言模型生成长篇文本的事实准确性。项目包括LongFact提示集、SAFE评估器和F1@K指标。研究人员可以利用这些工具对OpenAI和Anthropic等模型进行基准测试，深入探究语言模型在长篇事实性文本生成方面的表现。项目代码开源，便于复现实验结果和进行further研究。

moondream - 小巧高效的视觉语言模型兼容多平台运行

AI问答Githubmoondream图像识别开源项目深度学习视觉语言模型

moondream是一款小型视觉语言模型，可在多种平台上运行。该模型在VQAv2、GQA和TextVQA等基准测试中表现优异，能够回答图像相关问题并提供详细描述。moondream支持批量处理，可通过transformers库或GitHub仓库使用。尽管体积小巧，该模型在图像理解和问答任务上表现出色。

LRV-Instruction - 通过稳健指令调优降低多模态模型幻觉风险

GPT4GithubLRV-InstructionMiniGPT4mplug-owl多模态模型开源项目

该项目通过稳健的指令调优，减少大规模多模态模型的幻觉现象，提升其在复杂视觉和语言任务中的表现。LRV-Instruction 数据集包含多种视觉和语言任务数据，通过 GPT-4 生成，提供正面和反面的指令示例，以提高模型的鲁棒性和准确性。最新的研究进展和更新内容不断推进多模态图表理解和图像上下文推理基准的发展，为相关领域提供重要的数据支持。

Qwen2-VL-7B-Instruct-GPTQ-Int4 - 量化模型支持多分辨率视觉理解

GithubHuggingfaceQwen2-VL图像理解多模态开源项目模型视觉语言模型视频理解

Qwen2-VL-7B-Instruct-GPTQ-Int4是一款量化视觉语言模型,支持多分辨率图像和20分钟以上视频理解。模型具备复杂推理能力,可应用于移动设备和机器人操作。支持多语言理解,包括欧洲语言、日语和韩语等。采用动态分辨率和多模态旋转位置嵌入技术,在视觉理解基准测试中表现出色。

MMStar - 大型视觉语言模型评估的新标准

GithubMMStar人工智能基准测试多模态评估开源项目视觉语言模型

MMStar是一个创新的多模态评估基准，包含1500个精选的视觉关键样本。它解决了现有评估中的视觉冗余和数据泄露问题，提高了多模态性能评估的准确性。MMStar涵盖6大核心能力和18个细分维度，每个核心能力均衡分配250个样本。项目提供评估工具、数据集和在线排行榜，为视觉语言模型研究指明新方向。

can-ai-code - 通过人类撰写的面试题测试AI的编程能力

AI codingDockerGithubLLMquantizationtesting suite开源项目

该项目通过人类撰写的面试题测试AI的编程能力，提供多种主流API提供商和CUDA支持的推理脚本，并在基于Docker的沙盒环境中验证Python和NodeJS代码的安全性。用户可以评估提示技巧和采样参数对大语言模型（LLM）编码性能的影响，以及量化对LLM编码性能的衰减影响。项目包括多语言测试套件和来自OpenAI的Python-only测试套件，支持对比分析，并提供了详尽的结果数据和评估脚本。

phasellm - 探索和评估大型语言模型的框架

API集成GithubPhaseLLM大语言模型开源开源项目性能评估

PhaseLLM是一个创新的框架，旨在帮助用户管理和测试由大型语言模型（LLM）驱动的体验，如ChatGPT及其变种。该框架提供标准化API，兼容OpenAI、Cohere、Anthropic等多家服务提供商，构建评估体系，并新增自动化功能，使开发者和数据科学家能更容易地启动新的产品。适合各类品牌和产品经理，简化和加速大型语言模型的集成与评估过程。

CLoT - 探索大语言模型的跳跃思维能力

CLoTGithub创意幽默生成多模态大语言模型开源项目跳跃性思维

CLoT项目致力于探索大型语言模型的跳跃思维能力，通过创意幽默生成任务挑战模型进行非顺序思考。研究团队利用大喜利游戏作为实验平台，要求模型对多模态信息生成出人意料的幽默回应。项目提供零样本推理示例和Gradio网页界面，并公开发布数据集和模型检查点，为研究大语言模型的创造性思维能力开辟了新途径。

相关项目

推荐项目

豆包MarsCode

豆包 MarsCode 是一款革命性的编程助手，通过AI技术提供代码补全、单测生成、代码解释和智能问答等功能，支持100+编程语言，与主流编辑器无缝集成，显著提升开发效率和代码质量。

AI写歌

Suno AI是一个革命性的AI音乐创作平台，能在短短30秒内帮助用户创作出一首完整的歌曲。无论是寻找创作灵感还是需要快速制作音乐，Suno AI都是音乐爱好者和专业人士的理想选择。

有言AI

有言平台提供一站式AIGC视频创作解决方案，通过智能技术简化视频制作流程。无论是企业宣传还是个人分享，有言都能帮助用户快速、轻松地制作出专业级别的视频内容。

Kimi

Kimi AI助手提供多语言对话支持，能够阅读和理解用户上传的文件内容，解析网页信息，并结合搜索结果为用户提供详尽的答案。无论是日常咨询还是专业问题，Kimi都能以友好、专业的方式提供帮助。

阿里绘蛙

绘蛙是阿里巴巴集团推出的革命性AI电商营销平台。利用尖端人工智能技术，为商家提供一键生成商品图和营销文案的服务，显著提升内容创作效率和营销效果。适用于淘宝、天猫等电商平台，让商品第一时间被种草。

吐司

探索Tensor.Art平台的独特AI模型，免费访问各种图像生成与AI训练工具，从Stable Diffusion等基础模型开始，轻松实现创新图像生成。体验前沿的AI技术，推动个人和企业的创新发展。

SubCat字幕猫

SubCat字幕猫APP是一款创新的视频播放器，它将改变您观看视频的方式！SubCat结合了先进的人工智能技术，为您提供即时视频字幕翻译，无论是本地视频还是网络流媒体，让您轻松享受各种语言的内容。

美间AI

美间AI创意设计平台，利用前沿AI技术，为设计师和营销人员提供一站式设计解决方案。从智能海报到3D效果图，再到文案生成，美间让创意设计更简单、更高效。

稿定AI

稿定设计是一个多功能的在线设计和创意平台，提供广泛的设计工具和资源，以满足不同用户的需求。从专业的图形设计师到普通用户，无论是进行图片处理、智能抠图、H5页面制作还是视频剪辑，稿定设计都能提供简单、高效的解决方案。该平台以其用户友好的界面和强大的功能集合，帮助用户轻松实现创意设计。

使用协议隐私政策广告服务

投诉举报邮箱: service@vectorlightyear.com