#人工智能评估
AGIEval - 全面评估AI模型人类认知能力的基准测试
AGIEval基准测试基础模型人工智能评估自然语言处理Github开源项目
AGIEval是一个评估AI基础模型人类认知能力的综合基准。它包含20个源自高标准入学和资格考试的任务,涉及多个领域。AGIEval提供完整数据集、基线系统评估和详细评估方法,是衡量AI模型综合能力的权威工具。最新版本支持多语言评估,并设有完整排行榜,为研究人员提供了全面的AI模型能力评估平台。
prometheus-8x7b-v2.0 - 基于Mistral的开源评估型语言模型
Prometheus 2语言模型Github开源项目RLHF人工智能评估Huggingface机器学习模型
Prometheus-8x7b-v2.0是一个基于Mistral-Instruct构建的开源评估型语言模型,通过30万条标注数据训练而成。该模型支持绝对评分和相对排名两种方式,可对其他语言模型进行细粒度评估,是GPT-4评估功能的开源替代方案。模型提供完整的使用文档,适用于语言模型性能比较和评估研究。