ToolQA

评估工具增强型大语言模型的开源数据集

ToolQA是一个开源数据集，专门用于评估工具增强型大语言模型。数据集涵盖8个领域，包含需要综合使用多个工具解答的问题，分为简单和困难两个级别。ToolQA通过人机协作创建，提供了数据统计、下载链接、工具实现和基准代码，为研究人员评估和改进大语言模型的外部工具使用能力提供全面资源。

访问官网

Github

论文

介绍相关项目

JudgeLM - 大语言模型开放场景高效评估技术

GithubJudgeLM大语言模型开放式任务开源项目微调模型评估

JudgeLM是一个用于训练和评估大语言模型评判器的开放平台。通过微调技术，该项目实现了对开放场景中大语言模型的高效评估，评判一致性超过人类水平。JudgeLM提供先进的评判器训练和评估代码，能够处理单一回答、多模态模型、多个回答和多轮对话等任务。此外，该平台还集成了分布式多模型服务系统和Web界面，方便用户使用和部署。

learntools - Kaggle Learn课程开源辅助工具提升交互式学习体验

GithubKaggle Learn开源开源项目测试运行练习检查课程材料

learntools是Kaggle Learn课程使用的开源项目，主要功能包括实时反馈和练习检查。项目涵盖Python、机器学习等多个课程模块，并提供核心基础设施。项目分为learntools包和notebooks目录两部分，前者负责练习检查，后者包含课程材料和发布工具。此外，learntools还包含简化课程发布的工具和相关课程材料。尽管主要应用于Kaggle Learn平台，其开源特性也为教育技术领域提供了有价值的参考。

reward-model-deberta-v3-large-v2 - 人类反馈训练奖励模型提升问答评估和强化学习效果

DeBERTaGithubHuggingfaceRLHF人工智能奖励模型开源项目模型语言模型

这个开源项目开发了一种基于人类反馈的奖励模型(RM)，能够评估给定问题的答案质量。该模型在多个数据集上进行训练，可应用于问答系统评估、强化学习人类反馈(RLHF)奖励计算，以及有害内容检测等场景。项目提供了详细的使用说明、性能对比和代码示例。其中，DeBERTa-v3-large-v2版本在多项基准测试中展现出优异性能。

AIQuizGen - AI测验生成平台，快速创建多样化高质量题目

AI quiz generatorAI工具个性化评估在线测评教育技术测验创建

AIQuizGen是一个AI驱动的测验生成平台，能在几分钟内创建多样化、高质量的测验题。平台支持多种题型，如选择题、判断题和简答题，可从不同来源生成测验，并提供自定义难度设置。用户可编辑生成的测验并查看历史记录。该工具适用于教育工作者、培训师等需要快速创建专业测验的人士，简化测验创建过程，提高工作效率。

LLM-eval-survey - 汇集了涵盖自然语言处理、逻辑推理、机器翻译等领域关于大型语言模型（LLMs）的全面评估研究与资源

ChatGPTGithub大型语言模型开源项目自然语言处理论文评估

作为一个独立资源，LLM-eval-survey汇集了关于大型语言模型（LLMs）的全面评估研究与资源。涵盖自然语言处理、逻辑推理、机器翻译等领域，旨在提升对这些先进模型的理解和应用。项目通过多维度的评估方法，助力研究人员和开发者深入探索LLMs的潜力与挑战，推动人工智能技术进步。还定期更新最新研究论文和实用资源，为学术和工业界提供重要信息与工具。

t5-small-qg-hl - 模型优化与问答生成的高效工具

GithubHuggingfaceT5开源项目机器学习模型自然语言处理问题生成高亮标记

T5-small模型专为生成含答案意识的问句而优化，使用特殊<hl>标记突出答案，提升问答生成效率。适用于squad等多数据集，助力高效生成高质量问题。API提供简易交互体验，通过在文本中标记答案并添加结尾标记即可使用。更多详情请参考GitHub仓库。

GPT4Tools - 大语言模型自学使用多模态工具的创新系统

GPT4ToolsGithub多模态交互大语言模型开源项目自我指导视觉基础模型

GPT4Tools是基于Vicuna (LLaMA)的创新系统,通过71K自建指令数据实现对多个视觉基础模型的智能控制。该系统能自动决策和利用不同视觉模型,实现对话中的图像交互。项目支持通过自我指导和LoRA微调教授大语言模型使用工具,为图像相关需求提供高效解决方案。GPT4Tools的开源性和灵活性使其成为AI研究与应用的重要工具。

LLMBox - 全面的大型语言模型训练与评估框架

GithubLLMBox大语言模型开源项目模型评估训练管道高效推理

LLMBox是一个综合性大型语言模型(LLM)库，集成了统一的训练流程和全面的模型评估功能。该框架旨在提供LLM训练和应用的完整解决方案，其设计注重实用性，在训练和使用过程中体现出高度的灵活性和效率。LLMBox支持多样化的训练策略和数据集，提供丰富的评估方法，并具备高效的推理和量化能力，为LLM的研究和开发提供了强大支持。

static-analysis - 综合静态分析工具库助力代码质量提升

Github代码质量多语言支持安全检查开源工具开源项目静态分析

static-analysis项目汇集了适用于各类编程语言、构建工具和配置文件的静态分析工具,重点收录代码检查器和格式化工具等提升代码质量的工具。项目官网analysis-tools.dev在此基础上增添了工具排名、用户评论及视频等扩展资源。涵盖ABAP至YAML等多种语言,同时覆盖容器、安全等领域,为开发者提供了全面的静态代码分析工具参考。

IQA-PyTorch - 纯Python和PyTorch图像质量评估工具箱

GPU加速GithubIQAPyTorch图像质量评估开源项目纯Python

IQA-PyTorch是一款基于纯Python和PyTorch的图像质量评估工具箱，支持多种主流全参考和无参考评估指标。通过GPU加速，评估速度优于Matlab实现，用户可通过命令行或代码进行图像质量评估。该工具箱还支持作为损失函数使用，提供便捷的基准数据集下载和详细文档，适用于评估各种场景。定期更新及多种预训练模型让它成为图像质量评估的理想选择。详情请查阅文档和示例代码。

相关项目

推荐项目

豆包MarsCode

豆包 MarsCode 是一款革命性的编程助手，通过AI技术提供代码补全、单测生成、代码解释和智能问答等功能，支持100+编程语言，与主流编辑器无缝集成，显著提升开发效率和代码质量。

AI写歌

Suno AI是一个革命性的AI音乐创作平台，能在短短30秒内帮助用户创作出一首完整的歌曲。无论是寻找创作灵感还是需要快速制作音乐，Suno AI都是音乐爱好者和专业人士的理想选择。

有言AI

有言平台提供一站式AIGC视频创作解决方案，通过智能技术简化视频制作流程。无论是企业宣传还是个人分享，有言都能帮助用户快速、轻松地制作出专业级别的视频内容。

Kimi

Kimi AI助手提供多语言对话支持，能够阅读和理解用户上传的文件内容，解析网页信息，并结合搜索结果为用户提供详尽的答案。无论是日常咨询还是专业问题，Kimi都能以友好、专业的方式提供帮助。

阿里绘蛙

绘蛙是阿里巴巴集团推出的革命性AI电商营销平台。利用尖端人工智能技术，为商家提供一键生成商品图和营销文案的服务，显著提升内容创作效率和营销效果。适用于淘宝、天猫等电商平台，让商品第一时间被种草。

吐司

探索Tensor.Art平台的独特AI模型，免费访问各种图像生成与AI训练工具，从Stable Diffusion等基础模型开始，轻松实现创新图像生成。体验前沿的AI技术，推动个人和企业的创新发展。

SubCat字幕猫

SubCat字幕猫APP是一款创新的视频播放器，它将改变您观看视频的方式！SubCat结合了先进的人工智能技术，为您提供即时视频字幕翻译，无论是本地视频还是网络流媒体，让您轻松享受各种语言的内容。

美间AI

美间AI创意设计平台，利用前沿AI技术，为设计师和营销人员提供一站式设计解决方案。从智能海报到3D效果图，再到文案生成，美间让创意设计更简单、更高效。

稿定AI

稿定设计是一个多功能的在线设计和创意平台，提供广泛的设计工具和资源，以满足不同用户的需求。从专业的图形设计师到普通用户，无论是进行图片处理、智能抠图、H5页面制作还是视频剪辑，稿定设计都能提供简单、高效的解决方案。该平台以其用户友好的界面和强大的功能集合，帮助用户轻松实现创意设计。

使用协议隐私政策广告服务

投诉举报邮箱: service@vectorlightyear.com