ToolQA

评估工具增强型大语言模型的开源数据集

ToolQA是一个开源数据集，专门用于评估工具增强型大语言模型。数据集涵盖8个领域，包含需要综合使用多个工具解答的问题，分为简单和困难两个级别。ToolQA通过人机协作创建，提供了数据统计、下载链接、工具实现和基准代码，为研究人员评估和改进大语言模型的外部工具使用能力提供全面资源。

访问官网

Github

论文

介绍相关项目

ToolBench - 大规模工具使用指令数据集与开源语言模型

AI工具APIGithubToolBench大规模语言模型工具使用能力开源项目

ToolBench项目构建了大规模的指令微调数据集，旨在提升语言模型的工具使用能力。该项目收集了16464个真实API，覆盖单工具和多工具场景，采用深度优先搜索决策树方法生成注释。项目提供训练脚本和微调后的ToolLLaMA模型，其工具使用能力达到了与ChatGPT相当的水平。

primeqa - PrimeQA：多语言问答系统的开源研究和开发平台

GithubPrimeQA信息检索多语言问答开源项目机器阅读理解问题生成

PrimeQA是一个开源平台，帮助研究人员和开发人员训练先进的问答模型。用户可以在PrimeQA上复制NLP会议中的实验，下载预训练模型并应用于自定义数据。该平台支持信息检索、多语言阅读理解、问题生成及检索增强的生成技术。PrimeQA在多个排行榜中名列前茅，整合Transformers工具包以提供强大的问答功能，满足领先的研究和开发需求。

HalluQA - 中文大语言模型幻觉评估基准

GithubHalluQA中文幻觉大型语言模型开源项目评估基准问答任务

HalluQA是一个评估中文大语言模型幻觉问题的基准测试。该项目包含450个涵盖多领域的对抗性问题，考虑中国特色文化因素。HalluQA提供数据集、评估脚本和多选任务，采用GPT-4评估非幻觉率。研究结果揭示不同模型在处理误导性和知识性问题的表现，为中文大语言模型的改进提供参考。

freshqa - 搜索引擎增强技术提升大型语言模型性能

FreshLLMsGithub大语言模型开源项目搜索引擎增强数据集评估方法

FreshLLMs项目开发搜索引擎增强方法,提升大型语言模型性能。核心组件包括FreshQA问答数据集、FreshPrompt回答生成工具和FreshEval自动评估指标。FreshQA每周更新,保持数据时效性。FreshPrompt整合搜索结果生成回答。FreshEval提供客观评估标准。该项目为研究人员提供开放资源,助力提高语言模型的时效性和准确性,推动AI技术创新。

LLM-Tool-Survey - 大型语言模型工具学习调查研究

Github人工智能大语言模型工具学习开源项目综述自然语言处理

该研究系统性调查大型语言模型(LLMs)通过工具学习增强解决复杂问题能力。从工具学习的优势和实现方法两方面全面回顾现有文献,总结基准测试和评估方法,讨论当前挑战和未来方向,为相关研究和开发提供见解。

T-Eval - 分步骤评估大语言模型工具使用能力的基准测试框架

GithubT-Eval基准测试大语言模型工具使用能力开源项目评估

T-Eval是一个评估大语言模型工具使用能力的基准测试框架。它将评估过程分解为指令遵循、规划、推理、检索、理解和审查等多个子过程，实现了细粒度分析。该项目提供英文和中文评测数据集、测试脚本和排行榜。T-Eval为研究人员和开发者提供了一个深入分析语言模型工具使用能力的新方法。

langtest - 开源工具助力语言模型全面测试与优化

AI偏见检测GithubLangTestNLP开源项目模型评估语言模型测试

LangTest是一款强大的开源工具,专为语言模型的测试和优化而设计。该工具提供超过60种测试类型,全面评估模型的鲁棒性、偏见、表示、公平性和准确性。LangTest兼容多个主流NLP框架,如Spark NLP、Hugging Face和Transformers。此外,它还能对OpenAI、Cohere等大型语言模型进行问答、毒性检测和临床测试等方面的评估。通过使用LangTest,数据科学家可以开发出更安全、可靠和负责任的自然语言处理模型。

Awesome-Tool-Learning - 大型语言模型工具学习研究与应用进展综述

Github人工智能大语言模型工具增强工具学习开源项目自然语言处理

Awesome-Tool-Learning汇集了工具学习领域的精选论文和应用。项目涵盖调查研究、微调、上下文学习等多个方向的最新进展，同时收录英文和中文资源。研究人员和开发者可通过该项目全面了解大型语言模型在工具使用方面的前沿发展。

ScienceQA - 多模态推理与思维链技术在科学问题回答中的创新应用

GithubScienceQA人工智能多模态推理大语言模型开源项目科学问答

ScienceQA项目结合多模态推理和思维链技术，开发了一个包含图像和文本的大规模科学问题数据集。通过利用GPT等先进语言模型，该项目在科学问题回答任务中实现了高达96%的准确率。ScienceQA已被多家机构采用，并在多个顶级学术会议上展示，展现了其在科学教育和人工智能领域的应用潜力。

factool - 增强型AI文本事实性检测框架

AIFacToolGithub事实检测大语言模型开源项目生成式AI

FacTool是一款专注于检测大型语言模型生成文本中事实性错误的增强型框架。该工具支持知识问答、代码生成、数学推理和科学文献综述四个领域的检测任务。通过识别错误并提供分析和修正建议，FacTool显著提升了AI生成内容的可靠性和准确性。这一创新工具为AI研究和开发提供了有力支持，有助于推动生成式AI技术的整体进步。

相关项目

推荐项目

豆包MarsCode

豆包 MarsCode 是一款革命性的编程助手，通过AI技术提供代码补全、单测生成、代码解释和智能问答等功能，支持100+编程语言，与主流编辑器无缝集成，显著提升开发效率和代码质量。

AI写歌

Suno AI是一个革命性的AI音乐创作平台，能在短短30秒内帮助用户创作出一首完整的歌曲。无论是寻找创作灵感还是需要快速制作音乐，Suno AI都是音乐爱好者和专业人士的理想选择。

有言AI

有言平台提供一站式AIGC视频创作解决方案，通过智能技术简化视频制作流程。无论是企业宣传还是个人分享，有言都能帮助用户快速、轻松地制作出专业级别的视频内容。

Kimi

Kimi AI助手提供多语言对话支持，能够阅读和理解用户上传的文件内容，解析网页信息，并结合搜索结果为用户提供详尽的答案。无论是日常咨询还是专业问题，Kimi都能以友好、专业的方式提供帮助。

阿里绘蛙

绘蛙是阿里巴巴集团推出的革命性AI电商营销平台。利用尖端人工智能技术，为商家提供一键生成商品图和营销文案的服务，显著提升内容创作效率和营销效果。适用于淘宝、天猫等电商平台，让商品第一时间被种草。

吐司

探索Tensor.Art平台的独特AI模型，免费访问各种图像生成与AI训练工具，从Stable Diffusion等基础模型开始，轻松实现创新图像生成。体验前沿的AI技术，推动个人和企业的创新发展。

SubCat字幕猫

SubCat字幕猫APP是一款创新的视频播放器，它将改变您观看视频的方式！SubCat结合了先进的人工智能技术，为您提供即时视频字幕翻译，无论是本地视频还是网络流媒体，让您轻松享受各种语言的内容。

美间AI

美间AI创意设计平台，利用前沿AI技术，为设计师和营销人员提供一站式设计解决方案。从智能海报到3D效果图，再到文案生成，美间让创意设计更简单、更高效。

AIWritePaper论文写作

AIWritePaper论文写作是一站式AI论文写作辅助工具，简化了选题、文献检索至论文撰写的整个过程。通过简单设定，平台可快速生成高质量论文大纲和全文，配合图表、参考文献等一应俱全，同时提供开题报告和答辩PPT等增值服务，保障数据安全，有效提升写作效率和论文质量。

使用协议隐私政策广告服务

投诉举报邮箱: service@vectorlightyear.com