热门
导航
快讯
推荐文章
热门
导航
快讯
推荐文章
#数据流DSL
Yet Another Applied LLM Benchmark: 一个实用的大语言模型评测基准
2 个月前
Yet Another Applied LLM Benchmark 是一个由 Nicholas Carlini 开发的实用型大语言模型评测基准,旨在测试语言模型在真实应用场景中的表现。该基准包含了近100个测试用例,涵盖了从代码转换到自然语言处理的多个任务领域,并采用了一种简单的数据流领域特定语言来实现测试用例的快速构建和评估。
LLM基准测试
模型评估
数据流DSL
Docker容器
API密钥
Github
开源项目
2 个月前
相关项目
yet-another-applied-llm-benchmark
yet-another-applied-llm-benchmark是一个评估大语言模型在实际应用场景中表现的基准测试项目。该项目包含近100个源自真实使用情况的测试案例,涵盖代码转换、反编译、SQL生成等多种任务。通过简单的数据流DSL设计测试,项目提供了一个灵活的框架来评估大语言模型的实际能力。这个基准虽不是严格的学术标准,但为开发者提供了衡量大语言模型在日常编程任务中表现的实用方法。
查看
使用协议
隐私政策
广告服务
投诉举报邮箱: service@vectorlightyear.com
@2024 懂AI
·
鲁ICP备2024100362号-6
·
鲁公网安备37021002001498号