AlignBench

多维度评估中文大语言模型对齐性能的基准

AlignBench 大语言模型对齐水平评测 GPT-4-0613 Github 开源项目

AlignBench 是多维度评估中文大语言模型对齐性能的评测基准。最新的 v1.1 版本提供了动态更新的数据、详细评分规则和高质量参考答案，确保评估的可靠性和可解释性。涵盖八大能力类别的数据主要来自真实用户问题，并使用 GPT-4 作为评分模型，通过多维度分析方法系统评估模型性能。

bge-reranker-large - 高效多语言文档重排序模型

FlagEmbeddingGithubHuggingface多语言嵌入模型开源项目模型语义检索重排序模型

BGE-Reranker-Large是一款开源的多语言文档重排序模型,支持中英文处理。该模型可对检索结果进行精确重排,有效提升检索质量。采用交叉编码器架构,在准确度和效率间实现平衡。使用简便,无需额外指令即可计算相似度,适用于多种检索增强场景。

SuperCLUE - 中文大模型综合能力评估基准

GithubSuperCLUE中文大模型人工智能开源项目评测基准语言模型

SuperCLUE是针对中文大语言模型的综合评测基准，从语言理解生成、专业知识、智能体和安全四个维度评估12项基础能力。包含开放问题、客观题测评及AI Agent能力评估，为中文大模型发展提供全面客观的参考标准。

helm - 全面评估语言模型和文本图像模型的开源框架

GithubHEIMHELMStanford CRFM开源项目文本生成图像模型语言模型评估

HELM是一个开源的评估框架，用于全面分析语言模型和文本到图像模型的性能。该框架提供标准化数据集、统一模型接口和多维度评估指标。HELM不仅关注准确性，还评估效率、偏见和毒性等方面。对于文本到图像模型，HELM涵盖12个关键评估维度，包括图像质量、推理能力和多语言支持。研究人员可借助HELM深入了解模型的优势和潜在风险。

Entity_Alignment_Papers - 跨语言知识图谱实体对齐研究论文集锦

Github实体对齐嵌入方法开源项目知识图谱神经网络跨语言

Entity Alignment Papers项目收录了实体对齐领域近年来的重要研究论文，涵盖从联合嵌入到图神经网络和预训练语言模型的多种方法。该项目展示了实体对齐技术的发展历程，为研究人员提供了全面的文献综述，并附有论文代码链接。通过这个项目，读者可以深入了解实体对齐领域的最新进展和未来研究方向。

deepeval - 简化LLM输出评估的开源框架

AI测试DeepEvalGithubLLM评估开源框架开源项目指标评估

DeepEval是一款开源的大型语言模型(LLM)输出评估框架。它提供G-Eval、幻觉检测和答案相关性等多种评估指标，支持本地运行。该框架适用于RAG和微调应用，可与LangChain和LlamaIndex等工具集成。DeepEval具备批量评估、自定义指标创建功能，易于集成到CI/CD环境。此外，它还支持对主流LLM基准进行简易评估，并可与Confident AI平台对接，实现持续评估和结果分析。

GLM-4 - 多语言支持与长文本处理能力

AI对话GLM-4Github多模态大语言模型开源项目长文本

GLM-4-9B系列是智谱AI推出的开源预训练模型,包括基础版、支持128K上下文的Chat版、1M长文本版及多模态版。该系列支持26种语言,在语义理解、数学计算、逻辑推理等多项评测中表现优异。GLM-4-9B-Chat具备网页浏览、代码执行等功能,GLM-4V-9B则增加了视觉理解能力。这些模型在多项基准测试中均超越了同规模竞品。

benchmarks - 主流机器学习库全面性能基准测试

CatBoostGPU加速Github基准测试开源项目性能比较机器学习

Benchmarks是GitHub上的开源项目，致力于多个主流机器学习库的性能对比。该项目涵盖CatBoost、XGBoost、LightGBM和H2O等库，对比范围包括二元分类、训练速度、模型评估、排序任务和SHAP值计算。此外还提供CPU与GPU性能对比和Kaggle竞赛数据集上的质量评估。这些全面的基准测试为机器学习从业者提供了客观的性能参考数据。

AGIEval - 全面评估AI模型人类认知能力的基准测试

AGIEvalGithub人工智能评估基准测试基础模型开源项目自然语言处理

AGIEval是一个评估AI基础模型人类认知能力的综合基准。它包含20个源自高标准入学和资格考试的任务，涉及多个领域。AGIEval提供完整数据集、基线系统评估和详细评估方法，是衡量AI模型综合能力的权威工具。最新版本支持多语言评估，并设有完整排行榜，为研究人员提供了全面的AI模型能力评估平台。

evalplus - 提升大语言模型代码生成评估的框架

EvalPlusGithubHumanEval+LLM评估MBPP+代码生成开源项目

EvalPlus是一个开源框架,旨在严格评估大语言模型的代码生成能力。它包含HumanEval+和MBPP+两个增强数据集,测试用例数量大幅提升。该框架提供精确评估、代码严谨性检验、LLM生成样本等功能,可显著加速相关研究。EvalPlus支持代码生成、后处理和评估全流程,在GitHub开源并提供Docker镜像,便于研究人员使用。

相关项目

推荐项目

豆包MarsCode

豆包 MarsCode 是一款革命性的编程助手，通过AI技术提供代码补全、单测生成、代码解释和智能问答等功能，支持100+编程语言，与主流编辑器无缝集成，显著提升开发效率和代码质量。

AI写歌

Suno AI是一个革命性的AI音乐创作平台，能在短短30秒内帮助用户创作出一首完整的歌曲。无论是寻找创作灵感还是需要快速制作音乐，Suno AI都是音乐爱好者和专业人士的理想选择。

有言AI

有言平台提供一站式AIGC视频创作解决方案，通过智能技术简化视频制作流程。无论是企业宣传还是个人分享，有言都能帮助用户快速、轻松地制作出专业级别的视频内容。

Kimi

Kimi AI助手提供多语言对话支持，能够阅读和理解用户上传的文件内容，解析网页信息，并结合搜索结果为用户提供详尽的答案。无论是日常咨询还是专业问题，Kimi都能以友好、专业的方式提供帮助。

阿里绘蛙

绘蛙是阿里巴巴集团推出的革命性AI电商营销平台。利用尖端人工智能技术，为商家提供一键生成商品图和营销文案的服务，显著提升内容创作效率和营销效果。适用于淘宝、天猫等电商平台，让商品第一时间被种草。

吐司

探索Tensor.Art平台的独特AI模型，免费访问各种图像生成与AI训练工具，从Stable Diffusion等基础模型开始，轻松实现创新图像生成。体验前沿的AI技术，推动个人和企业的创新发展。

SubCat字幕猫

SubCat字幕猫APP是一款创新的视频播放器，它将改变您观看视频的方式！SubCat结合了先进的人工智能技术，为您提供即时视频字幕翻译，无论是本地视频还是网络流媒体，让您轻松享受各种语言的内容。

美间AI

美间AI创意设计平台，利用前沿AI技术，为设计师和营销人员提供一站式设计解决方案。从智能海报到3D效果图，再到文案生成，美间让创意设计更简单、更高效。

AIWritePaper论文写作

AIWritePaper论文写作是一站式AI论文写作辅助工具，简化了选题、文献检索至论文撰写的整个过程。通过简单设定，平台可快速生成高质量论文大纲和全文，配合图表、参考文献等一应俱全，同时提供开题报告和答辩PPT等增值服务，保障数据安全，有效提升写作效率和论文质量。

使用协议隐私政策广告服务

投诉举报邮箱: service@vectorlightyear.com