#SWE-bench

SWE-bench - 基于GitHub问题的语言模型评估

SWE-benchDockerGitHubICLR 2024Princeton NLPGithub开源项目

SWE-bench是一个基准测试平台，用于评估语言模型在解决GitHub问题中的表现。提供代码库和问题描述，模型生成修复补丁。项目支持Docker容器实现高效可重复测试。最新更新包括SWE-agent的引入，提升评估基准表现。支持x86_64和实验性arm64架构，提供多样数据集和模型下载选项。欢迎NLP、机器学习和软件工程领域的贡献和反馈。

SWE-Llama-7b - GitHub软件工程问题解决模型变体优化

SWE-LlamaHuggingface机器学习软件工程SWE-bench开源项目模型GitHubGithub

项目基于CodeLlama模型变体，优化针对GitHub问题和请求的处理。在SWE-bench基准测试中，SWE-Llama模型通过微调19,000个来自37个热门Python代码库的案例，专注生成问题解决补丁。训练过程中使用LoRA方法微调注意力矩阵，7b和13b版本在oracle情境检索下分别实现了3.0%和4.0%的解决率。这一模型可有效提升软件工程任务的解决效率。

使用协议隐私政策广告服务

投诉举报邮箱: service@vectorlightyear.com

@2024 懂AI·鲁ICP备2024100362号-6·鲁公网安备37021002001498号