热门
导航
快讯
推荐文章
热门
导航
快讯
推荐文章
#LLM基准测试
yet-another-applied-llm-benchmark - 基于真实场景的大语言模型能力评估基准
LLM基准测试
模型评估
数据流DSL
Docker容器
API密钥
Github
开源项目
yet-another-applied-llm-benchmark是一个评估大语言模型在实际应用场景中表现的基准测试项目。该项目包含近100个源自真实使用情况的测试案例,涵盖代码转换、反编译、SQL生成等多种任务。通过简单的数据流DSL设计测试,项目提供了一个灵活的框架来评估大语言模型的实际能力。这个基准虽不是严格的学术标准,但为开发者提供了衡量大语言模型在日常编程任务中表现的实用方法。
1
1
相关文章
Yet Another Applied LLM Benchmark: 一个实用的大语言模型评测基准
3 个月前
使用协议
隐私政策
广告服务
投诉举报邮箱: service@vectorlightyear.com
@2024 懂AI
·
鲁ICP备2024100362号-6
·
鲁公网安备37021002001498号