#数据流DSL

Yet Another Applied LLM Benchmark: 一个实用的大语言模型评测基准

3 个月前

LLM基准测试模型评估数据流DSL Docker容器 API密钥 Github 开源项目

3 个月前

相关项目

yet-another-applied-llm-benchmark

yet-another-applied-llm-benchmark是一个评估大语言模型在实际应用场景中表现的基准测试项目。该项目包含近100个源自真实使用情况的测试案例，涵盖代码转换、反编译、SQL生成等多种任务。通过简单的数据流DSL设计测试，项目提供了一个灵活的框架来评估大语言模型的实际能力。这个基准虽不是严格的学术标准，但为开发者提供了衡量大语言模型在日常编程任务中表现的实用方法。

使用协议隐私政策广告服务

投诉举报邮箱: service@vectorlightyear.com