AGIEval

全面评估AI模型人类认知能力的基准测试

AGIEval 基准测试基础模型人工智能评估自然语言处理 Github 开源项目

AGIEval是一个评估AI基础模型人类认知能力的综合基准。它包含20个源自高标准入学和资格考试的任务，涉及多个领域。AGIEval提供完整数据集、基线系统评估和详细评估方法，是衡量AI模型综合能力的权威工具。最新版本支持多语言评估，并设有完整排行榜，为研究人员提供了全面的AI模型能力评估平台。

evalplus - 提升大语言模型代码生成评估的框架

EvalPlusGithubHumanEval+LLM评估MBPP+代码生成开源项目

EvalPlus是一个开源框架,旨在严格评估大语言模型的代码生成能力。它包含HumanEval+和MBPP+两个增强数据集,测试用例数量大幅提升。该框架提供精确评估、代码严谨性检验、LLM生成样本等功能,可显著加速相关研究。EvalPlus支持代码生成、后处理和评估全流程,在GitHub开源并提供Docker镜像,便于研究人员使用。

Multi-Modality-Arena - 完善的多模态模型评估工具，让视觉问答更精准

GithubLVLM LeaderboardLVLM-eHubMulti-Modality ArenaOmniMedVQATiny LVLM-eHub开源项目

Multi-Modality Arena 是一个专注于评估多模态模型的开放平台，支持视觉问答任务的对比测试。平台发布了OmniMedVQA和Tiny LVLM-eHub等评估基准，涵盖广泛的视觉和语言领域。用户可以访问在线演示，参与评估项目，并利用丰富的模型和数据集资源进行性能优化。

Awesome-AGI-Agents - 全面解读AGI智能体的最新资源与开发平台

AI AgentsAuto-GPTGithubLLMLangChainOpenAI开源项目

精选AGI智能体资源集合，涵盖文章、视频、论文、前沿项目和开发平台。开源项目如Auto-GPT和MetaGPT展示了自主AI智能体的应用潜力。复旦NLP与米哈游的综述论文对大语言模型驱动的Agent提供了深度解读。开发者可借助LangChain、SuperAGI等工具，快速构建和部署智能体。适用于关注AI智能体发展及其在科研、技术和应用领域前沿探索的用户。

HybridAGI - 基于图的可编程AGI框架

GithubHybridAGI图数据库图程序大语言模型开源项目神经符号人工智能

HybridAGI是一个基于图的AI开发框架，结合了符号AI和神经网络技术。它采用图形化编程方法，允许开发者精确控制AI代理行为。该框架整合了机器人学、认知科学等领域知识，提供可预测的AI系统。HybridAGI支持模块化设计、自定义工具和图数据库，适合构建高效、可解释的AI应用。

geekai - 基于AI大语言模型API的开源AI助手解决方案

AI助手AI绘画GeekAIGithub大语言模型开源开源项目

GeekAI是一款基于AI大语言模型API的开源AI助手解决方案，包含前端应用和后台管理系统。支持OpenAI、Azure、ChatGLM、讯飞星火、文心一言等多平台大语言模型以及MidJourney和Stable Diffusion的AI绘画功能。内置预训练角色和多种支付方式，支持插件开发，适用于多种应用需求。

ScreenAI - 深度理解界面和信息图的视觉语言模型

GithubScreenAIUI理解信息图表理解多模态开源项目视觉语言模型

ScreenAI是一个开源的多模态视觉语言模型，专注于用户界面(UI)和信息图的理解。该模型集成了视觉变换器(ViT)、注意力机制和前馈网络，能够处理图像和文本输入。通过深度学习技术，ScreenAI实现了对复杂视觉信息的处理和文本整合分析，为UI设计、信息可视化和人机交互研究提供了新的工具和方法。

agnai - 多功能AI角色扮演聊天平台集成多种人工智能服务

AI聊天AgnaisticGithub多AI服务开源项目角色扮演

agnai是一个开源的AI角色扮演聊天平台，集成了多种人工智能服务。该平台提供群组对话、多租户功能、订阅系统和记忆/背景设定等特性。agnai还包括长期记忆和Wikipedia文章嵌入等可选pipeline功能，为用户创造丰富的互动体验。这个项目适合追求定制化AI对话的开发者和用户。

Awesome-AI-GPTs - 涵盖了多种 OpenAI GPT 应用和资源的开源项目

AIGPTsGithubOpenAI开源项目智能模型

EmbraceAGI GPTs 是一个涵盖了多种 OpenAI GPT 应用和资源的开源项目，囊括从教育到业务优化的解决方案。提供易用的资源数据库和搜索功能，以及深入的技术文章和社区互动，致力于推动AI技术的创新与应用。

AIgrind - 综合性AI和机器学习编程训练平台

AIAI工具专家指导机器学习编程练习面试准备

提供全面的AI和机器学习编程训练。平台特色包括广泛的编码和理论问题练习、行业专家指导、面试准备、定期竞赛和双语支持。强大的测试环境、实时反馈和性能分析助力用户提升技能，为AI领域发展奠定基础。

CharacterEval - 中文角色扮演对话代理评估基准

CharacterEvalGithub中文基准测试人工标注开源项目角色扮演对话代理评估指标

CharacterEval是一个评估中文角色扮演对话代理(RPCAs)的基准。它包含1,785个多轮对话和23,020个样例，涵盖77个源自中国文学作品的角色。该基准采用四个维度的十三项指标进行评估，并开发了基于人工标注的角色奖励模型(CharacterRM)。实验显示，CharacterRM与人类评估的相关性显著高于GPT-4。

相关项目

推荐项目

豆包MarsCode

豆包 MarsCode 是一款革命性的编程助手，通过AI技术提供代码补全、单测生成、代码解释和智能问答等功能，支持100+编程语言，与主流编辑器无缝集成，显著提升开发效率和代码质量。

AI写歌

Suno AI是一个革命性的AI音乐创作平台，能在短短30秒内帮助用户创作出一首完整的歌曲。无论是寻找创作灵感还是需要快速制作音乐，Suno AI都是音乐爱好者和专业人士的理想选择。

有言AI

有言平台提供一站式AIGC视频创作解决方案，通过智能技术简化视频制作流程。无论是企业宣传还是个人分享，有言都能帮助用户快速、轻松地制作出专业级别的视频内容。

Kimi

Kimi AI助手提供多语言对话支持，能够阅读和理解用户上传的文件内容，解析网页信息，并结合搜索结果为用户提供详尽的答案。无论是日常咨询还是专业问题，Kimi都能以友好、专业的方式提供帮助。

阿里绘蛙

绘蛙是阿里巴巴集团推出的革命性AI电商营销平台。利用尖端人工智能技术，为商家提供一键生成商品图和营销文案的服务，显著提升内容创作效率和营销效果。适用于淘宝、天猫等电商平台，让商品第一时间被种草。

吐司

探索Tensor.Art平台的独特AI模型，免费访问各种图像生成与AI训练工具，从Stable Diffusion等基础模型开始，轻松实现创新图像生成。体验前沿的AI技术，推动个人和企业的创新发展。

SubCat字幕猫

SubCat字幕猫APP是一款创新的视频播放器，它将改变您观看视频的方式！SubCat结合了先进的人工智能技术，为您提供即时视频字幕翻译，无论是本地视频还是网络流媒体，让您轻松享受各种语言的内容。

美间AI

美间AI创意设计平台，利用前沿AI技术，为设计师和营销人员提供一站式设计解决方案。从智能海报到3D效果图，再到文案生成，美间让创意设计更简单、更高效。

稿定AI

稿定设计是一个多功能的在线设计和创意平台，提供广泛的设计工具和资源，以满足不同用户的需求。从专业的图形设计师到普通用户，无论是进行图片处理、智能抠图、H5页面制作还是视频剪辑，稿定设计都能提供简单、高效的解决方案。该平台以其用户友好的界面和强大的功能集合，帮助用户轻松实现创意设计。

使用协议隐私政策广告服务

投诉举报邮箱: service@vectorlightyear.com