AgentBench

全面评估大型语言模型在多环境下的自主代理能力

AgentBench LLM-as-Agent 评估框架测试结果任务设置 Github 开源项目

AgentBench是首个评估大型语言模型（LLM）作为自主代理的基准，涵盖操作系统、数据库、知识图谱等8个不同环境。该项目通过多任务设置和完整的数据集，深入分析LLM的实际应用能力。新版AgentBench v0.2优化了框架结构，并增加了更多模型的测试结果，方便开发者扩展和使用。

AlignBench - 多维度评估中文大语言模型对齐性能的基准

AlignBenchGPT-4-0613Github大语言模型对齐水平开源项目评测

AlignBench 是多维度评估中文大语言模型对齐性能的评测基准。最新的 v1.1 版本提供了动态更新的数据、详细评分规则和高质量参考答案，确保评估的可靠性和可解释性。涵盖八大能力类别的数据主要来自真实用户问题，并使用 GPT-4 作为评分模型，通过多维度分析方法系统评估模型性能。

Test-Agent - 智能测试助理助力软件质量提升

GithubTest-AgentTestGPT-7B大模型开源项目测试用例生成质量技术

Test-Agent是一个开源的智能测试助理项目，融合大模型与质量工程技术。它提供多语言测试用例生成和Assert补全功能，支持Java、Python和JavaScript。项目开源的TestGPT-7B模型在用例执行通过率和场景覆盖方面表现优异。Test-Agent支持本地部署，保障数据安全。未来将持续迭代，扩展更多测试应用场景和模型规模。

Q-Bench - 评测多模态大语言模型的低层视觉能力

GithubICLR2024Q-Bench低层视觉基准测试多模态大语言模型开源项目

Q-Bench是一个评估多模态大语言模型低层视觉能力的基准测试。它通过感知、描述和评估三个领域，使用LLVisionQA和LLDescribe数据集测试模型性能。该项目采用开放式评估框架，支持研究者提交结果或模型。Q-Bench对比了开源和闭源模型的表现，并与人类专家水平进行对照，为深入理解和提升多模态AI的基础视觉处理能力提供了关键洞察。

LawBench - 通过司法认知多维度评估大模型法律能力

GithubLawBench大语言模型开源项目数据集法律知识评估认知水平

LawBench通过模拟司法认知的三个维度，设计了20个任务，全面评估大语言模型的法律能力。这些任务包括法律知识记忆、理解和应用，涵盖了法律实体识别、阅读理解、犯罪金额计算和咨询等实际应用场景。LawBench还设立了“弃权率”作为独立评估指标，以衡量模型在法律问询下的回应情况。通过注重实际应用，LawBench为用户提供了可靠的大语言模型法律能力评估工具。

agent-search - 提升搜索代理与本地搜索能力的先进框架

AgentSearchGithubLLM技术信息检索定制搜索开源项目搜索引擎

AgentSearch是一个创新框架，通过结合多家提供商的LLM技术与搜索引擎，增强搜索代理性能。支持搜索结果总结、查询生成与深度检索，还能部署个性化本地搜索解决方案，提供多样的API接入选项。

KnowAgent - 知识增强LLM智能体规划框架

AI智能体GithubKnowAgent开源项目知识增强自学习规划路径生成

KnowAgent是一个知识增强的大语言模型(LLM)智能体规划框架。该框架通过构建行动知识库、知识文本化和知识化自学习,提升了LLM智能体的规划能力。KnowAgent支持HotpotQA和ALFWorld等复杂任务,并提供了安装指南和使用说明。这一框架不仅增强了LLM智能体在复杂场景中的应用潜力,也为相关研究领域带来了新的思路。

AppAgent - 智能代理框架简化智能手机应用操作

AppAgentGPT-4VGithub多模态开源项目探索学习智能手机应用

AppAgent是一种基于LLM的多模态智能代理框架，模仿人类点击和滑动操作来运行智能手机应用。框架通过自主探索或观察人类演示学习新操作，生成知识库以执行复杂任务。无需系统后端访问，适用性广泛。提供详细配置步骤、评估基准和使用案例，支持GPT-4V和通义千问-VL等多种模型。

Awesome-AI-Agents - AI驱动的自主代理和多智能体系统资源集锦

AI AgentsGithub多智能体系统大语言模型开源项目框架自主智能体

Awesome-AI-Agents汇集了大型语言模型驱动的自主代理和多智能体系统资源。涵盖自主任务解决、多智能体协作和社会模拟应用，以及智能体构建框架。项目还包含基准测试、评估工具和连接LLM与现实世界的平台，为AI代理技术研究和开发提供全面参考。

MMBench - 全面评估多模态大模型能力的基准测试

GithubMMBench多模态模型开源项目循环评估视觉语言模型评估基准

MMBench是评估视觉语言模型多模态理解能力的基准测试集。它包含近3000道多项选择题,涵盖20个能力维度,采用循环评估和LLM选项提取等创新方法,提供可靠客观的评估。通过细粒度的能力测试和可重复的评价标准,MMBench为多模态模型开发提供了有价值的反馈。

Awesome-Embodied-Agent-with-LLMs - 大语言模型在智能体研究与应用中的精选资源

Embodied AIGithubInteractive Embodied LearningLarge Language ModelsMulti-Agent LearningSelf-Evolving Agents开源项目

该项目汇集了使用大语言模型(LLMs)进行智能体(Embodied AI)研究的精选资源，涵盖自适应智能体、社交智能体、复杂应用、模拟学习、规划与操作、多智能体协调等专题。项目主页提供丰富的论文资料和最新研究进展，适合相关领域研究者和开发者参考，不断更新。

相关项目

推荐项目

豆包MarsCode

豆包 MarsCode 是一款革命性的编程助手，通过AI技术提供代码补全、单测生成、代码解释和智能问答等功能，支持100+编程语言，与主流编辑器无缝集成，显著提升开发效率和代码质量。

AI写歌

Suno AI是一个革命性的AI音乐创作平台，能在短短30秒内帮助用户创作出一首完整的歌曲。无论是寻找创作灵感还是需要快速制作音乐，Suno AI都是音乐爱好者和专业人士的理想选择。

有言AI

有言平台提供一站式AIGC视频创作解决方案，通过智能技术简化视频制作流程。无论是企业宣传还是个人分享，有言都能帮助用户快速、轻松地制作出专业级别的视频内容。

Kimi

Kimi AI助手提供多语言对话支持，能够阅读和理解用户上传的文件内容，解析网页信息，并结合搜索结果为用户提供详尽的答案。无论是日常咨询还是专业问题，Kimi都能以友好、专业的方式提供帮助。

阿里绘蛙

绘蛙是阿里巴巴集团推出的革命性AI电商营销平台。利用尖端人工智能技术，为商家提供一键生成商品图和营销文案的服务，显著提升内容创作效率和营销效果。适用于淘宝、天猫等电商平台，让商品第一时间被种草。

吐司

探索Tensor.Art平台的独特AI模型，免费访问各种图像生成与AI训练工具，从Stable Diffusion等基础模型开始，轻松实现创新图像生成。体验前沿的AI技术，推动个人和企业的创新发展。

SubCat字幕猫

SubCat字幕猫APP是一款创新的视频播放器，它将改变您观看视频的方式！SubCat结合了先进的人工智能技术，为您提供即时视频字幕翻译，无论是本地视频还是网络流媒体，让您轻松享受各种语言的内容。

美间AI

美间AI创意设计平台，利用前沿AI技术，为设计师和营销人员提供一站式设计解决方案。从智能海报到3D效果图，再到文案生成，美间让创意设计更简单、更高效。

稿定AI

稿定设计是一个多功能的在线设计和创意平台，提供广泛的设计工具和资源，以满足不同用户的需求。从专业的图形设计师到普通用户，无论是进行图片处理、智能抠图、H5页面制作还是视频剪辑，稿定设计都能提供简单、高效的解决方案。该平台以其用户友好的界面和强大的功能集合，帮助用户轻松实现创意设计。

使用协议隐私政策广告服务

投诉举报邮箱: service@vectorlightyear.com