#自动评估

phospho - 用于 LLM 应用程序的文本分析平台
phospho文本分析LLM应用数据可视化自动评估Github开源项目
Phospho 是为LLM应用设计的文本分析平台,提供灵活的日志记录、自动评估、洞察提取和数据可视化等功能,帮助开发者发现问题和提取用户反馈,从而评估应用的效果。借助phospho,开发者可以安心地在生产环境中部署LLM应用,并通过用户反馈不断优化对话体验。该平台支持Python和JavaScript客户端,方便快速集成和自动处理批量信息事件。用户还可以在注册托管版本后,在协作平台上管理phospho实验室的评估工作。
Artemis - 智能交互式学习平台 提供即时个性化反馈
Artemis在线学习平台编程练习自动评估互动教学Github开源项目
Artemis是一个开源的交互式学习平台,为编程、测验和建模等练习提供即时个性化反馈。该平台支持多种编程语言,集成版本控制和持续集成,提供在线代码编辑器和手动代码审查功能。Artemis还包括测验、建模练习、文本练习、考试模式、评分系统和反作弊检查等功能,为教师提供定制选项,为学生提供实时协作环境,有效结合创新教学与传统教育方法。
metricx-23-large-v2p0 - Google开源机器翻译评估模型实现自动化质量评估
模型MetricX-23机器翻译多语言模型开源项目Huggingface自动评估Github人工智能
MetricX-23是Google Research开发的开源机器翻译评估模型系列。模型在T5X上训练后转为PyTorch格式,提供参考型和无参考型两种版本,规模从Large到XXL不等。通过合成数据训练,MetricX-23能识别漏译、过度翻译等多种翻译问题。项目提供推理脚本和评估工具,适用于翻译质量研究和实际应用场景。
unieval-dialog - 多维度对话生成评估工具,提升模型性能
开源项目自动评估多维评估模型自然语言生成对话生成UniEvalHuggingfaceGithub
UniEval作为一款开源工具,通过多维度自动评估提升自然语言生成的精确性和细致性。