#语言模型评估

大型语言模型能否学习和遵循规则？探索LLM规则学习的新前沿

3 个月前

LLM 规则遵循 RuLES 语言模型评估基准测试 Github 开源项目

3 个月前

Flask: 轻量级的Python Web框架

3 个月前

FLASK 语言模型评估技能集细粒度分析对齐评估 Github 开源项目

3 个月前

BABILong: 突破长文本处理的新基准

3 个月前

BABILong 长文本处理语言模型评估推理能力数据集 Github 开源项目

3 个月前

Helm: 强大的Kubernetes包管理工具

3 个月前

语言模型评估文本生成图像模型 HELM HEIM Stanford CRFM Github 开源项目

3 个月前

OLMo-Eval: 一个开放性语言模型评估套件

3 个月前

OLMo-Eval 语言模型评估 AI2-Tango 任务集评估管道 Github 开源项目

3 个月前

相关项目

helm

HELM是一个开源的评估框架，用于全面分析语言模型和文本到图像模型的性能。该框架提供标准化数据集、统一模型接口和多维度评估指标。HELM不仅关注准确性，还评估效率、偏见和毒性等方面。对于文本到图像模型，HELM涵盖12个关键评估维度，包括图像质量、推理能力和多语言支持。研究人员可借助HELM深入了解模型的优势和潜在风险。

OLMo-Eval

OLMo-Eval是一个评估开放语言模型的框架，支持多个NLP任务的评估流程。通过task_sets和示例配置，可以评估多个模型在各种任务上的表现。项目基于ai2-tango和ai2-catwalk构建，提供快速入门指南、标准基准测试和PALOMA项目集成，是一个全面的语言模型评估工具。

babilong

BABILong是一个用于评估自然语言处理模型长文本处理能力的基准测试。它将bAbI数据集的任务句子隐藏在PG19背景文本中，生成长达数百万标记的测试样本。该基准包含20个推理任务，涉及事实链接、归纳、演绎和计数等多个方面。BABILong为评估和改进大语言模型的长文本处理能力提供了有效工具，同时也对现有长文本模型提出了挑战。

ZeroEval

ZeroEval是一个评估语言模型零样本推理能力的统一框架。它通过控制提示、采样和输出解析等因素，在MMLU、GSM等任务上测试指令微调模型的性能。该框架要求模型以JSON格式输出推理过程和答案，并持续扩展评估任务范围。

FLASK

FLASK是一个开源的语言模型评估框架，采用细粒度的实例级技能集作为评估指标。该框架提供任务无关的评估协议，包含模型推理、GPT-4评估和结果分析功能。FLASK还具备自动元数据标注能力，可标注领域、技能集和难度级别。项目包含详细使用说明和在线演示，为语言模型评估提供全面解决方案。

llm_rules

RuLES是一个评估语言模型遵循规则能力的基准测试项目。它提供多种测试场景，如身份验证和问答。项目包括评估脚本、红队测试工具和测试用例可视化工具。研究人员可以评估不同语言模型遵循简单规则的表现，并计算RuLES得分。项目还包含GCG攻击和模型微调的相关代码与指南。

Meta-Llama-3.1-70B-Instruct-quantized.w8a8

Meta-Llama-3.1-70B-Instruct模型通过INT8量化优化后，GPU内存占用减少50%，计算性能提升两倍。模型保持多语言处理能力，在Arena-Hard、OpenLLM、HumanEval等基准测试中性能恢复率达98%以上。支持vLLM后端部署及OpenAI兼容API。

使用协议隐私政策广告服务

投诉举报邮箱: service@vectorlightyear.com