MixEval
MixEval是一个动态更新的大语言模型评测基准,结合现有基准和真实用户查询构建而成。该基准在保持高准确度的同时,实现了快速、低成本和可重复的评测。MixEval提供更全面、公平的查询分布,并通过定期更新机制避免数据污染。作为一个高效可靠的评测工具,MixEval适用于各类大语言模型研究和应用场景。