bigcode-evaluation-harness

开源代码生成模型评估框架

代码生成评估框架模型评估多语言支持 BigCode Github 开源项目

bigcode-evaluation-harness是一个评估代码生成模型的开源框架。它支持多种编程语言和任务,如代码补全、插入和翻译。该框架兼容Hugging Face上的自回归模型,具备多GPU生成能力,并可在Docker容器中运行以保证安全性和可重复性。框架集成了HumanEval、APPS等多个代码生成基准,为研究人员和开发者提供了全面评估代码模型性能的工具。

Github

Huggingface

介绍相关项目

alpaca_eval - 精确且成本低的指令追随语言模型自动评估工具

AlpacaEvalGPT-4Githubinstruction-following开源项目自动评价评估

AlpacaEval是一款基于LLM的自动评估工具，针对指令追随模型（如ChatGPT）的评估，具备快速、低成本和高度人类相关性（0.98）的特点。主要功能包括模型排行榜、自动评估器、评估器构建工具包及20K人工偏好数据。AlpacaEval 2.0通过长度控制胜率，提高了与ChatBot Arena的对应性，适合模型开发阶段的快速评估。

graphcodebert-base - GraphCodeBERT结合数据流信息的代码预训练模型

GithubGraphCodeBERTHuggingface代码理解开源项目数据流分析模型深度学习自然语言处理

GraphCodeBERT是基于Transformer架构的代码预训练模型，结合代码序列和数据流信息。模型包含12层、768维隐藏状态和12个注意力头，最大序列长度512。在CodeSearchNet数据集上训练，涵盖6种编程语言的230万函数-文档对，旨在增强代码理解和处理能力。

opencompass - 开源大型语言模型评估平台

CompassHubCompassKitCompassRankGithubOpenCompass大模型评估开源项目

OpenCompass 2.0集成CompassKit、CompassHub和CompassRank三大关键组件，致力于实现大型语言模型评估的全面性、开放性和可复现性。平台特色包括全面的模型和数据集支持、高效的分布式评估系统、多样化的评估方法以及高度可扩展的模块化结构。

granite-8b-code-base-4k - 多语言代码处理和优化的开源模型

GithubGranite-8B-Code-Base-4KHuggingfaceIBM Research代码生成开源项目机器学习模型编程语言

Granite-8B-Code-Base-4K是IBM Research推出的开源代码生成模型，旨在跨多种编程语言执行代码生成、解释与修复任务。采用两阶段训练策略处理海量数据以提升模型的理解能力和任务执行效率，适用于软件开发中的多种应用场景。

FLASK - 细粒度语言模型评估框架

FLASKGithub对齐评估开源项目技能集细粒度分析语言模型评估

FLASK是一个开源的语言模型评估框架，采用细粒度的实例级技能集作为评估指标。该框架提供任务无关的评估协议，包含模型推理、GPT-4评估和结果分析功能。FLASK还具备自动元数据标注能力，可标注领域、技能集和难度级别。项目包含详细使用说明和在线演示，为语言模型评估提供全面解决方案。

Qwen2.5-Coder-7B-Instruct-GGUF - 基于5.5万亿数据训练的大规模代码生成模型

GithubHuggingfaceQwen2.5-Coder人工智能代码代码生成代码调试开源项目模型模型量化

Qwen2.5-Coder-7B-Instruct的量化版本模型，经过5.5万亿数据规模训练，具备代码生成、推理和bug修复等核心功能。模型支持128K长文本处理，可满足大规模代码开发需求。基于llama.cpp实现量化，在保持原有性能的同时优化了模型部署效率。

monitors4codegen - Monitor-Guided Decoding提升代码生成模型性能

GithubLanguage Server ProtocolMonitor-Guided Decoding代码生成多语言支持开源项目静态分析

Monitor-Guided Decoding (MGD)是一种创新的代码生成方法,利用静态分析指导语言模型解码。该方法无需额外训练即可提高350M至175B参数规模模型生成代码的编译成功率。项目提供多语言静态分析工具multilspy,支持Java、Rust、C#和Python代码分析,并包含数据集、评估脚本和推理结果,便于复现研究成果。

build-your-ai-coding-assistant - 构建AI编码助手全流程指南助力开发效率提升

AI辅助编码GithubIDE插件上下文工程代码补全开源项目生成式AI

该项目提供构建AI辅助编码助手的全面指南，包括IDE插件开发、模型评估微调和数据工程等核心内容。通过整合开源工具和技术，项目旨在帮助开发者创建高效AI编码助手。内容涵盖多种AI辅助场景实现方法，探讨上下文工程对AI性能的影响，为开发者提供实用经验。

sql-eval - 开源SQL生成质量评估框架

API集成GithubSQL评估开源项目性能优化数据库查询生成

sql-eval是一个开源项目，提供全面的SQL生成质量评估框架。它基于Spider数据集schema，包含精选问题和查询。支持PostgreSQL、Snowflake等多种数据库，可集成OpenAI、Anthropic API及本地Hugging Face模型。通过比较生成查询与标准查询结果评估性能，为SQL生成模型开发和优化提供支持。

can-ai-code - 通过人类撰写的面试题测试AI的编程能力

AI codingDockerGithubLLMquantizationtesting suite开源项目

该项目通过人类撰写的面试题测试AI的编程能力，提供多种主流API提供商和CUDA支持的推理脚本，并在基于Docker的沙盒环境中验证Python和NodeJS代码的安全性。用户可以评估提示技巧和采样参数对大语言模型（LLM）编码性能的影响，以及量化对LLM编码性能的衰减影响。项目包括多语言测试套件和来自OpenAI的Python-only测试套件，支持对比分析，并提供了详尽的结果数据和评估脚本。

相关项目

项目侧边栏1

项目侧边栏2

推荐项目

Project Cover

豆包MarsCode

豆包 MarsCode 是一款革命性的编程助手，通过AI技术提供代码补全、单测生成、代码解释和智能问答等功能，支持100+编程语言，与主流编辑器无缝集成，显著提升开发效率和代码质量。

Project Cover

AI写歌

Suno AI是一个革命性的AI音乐创作平台，能在短短30秒内帮助用户创作出一首完整的歌曲。无论是寻找创作灵感还是需要快速制作音乐，Suno AI都是音乐爱好者和专业人士的理想选择。

Project Cover

有言AI

有言平台提供一站式AIGC视频创作解决方案，通过智能技术简化视频制作流程。无论是企业宣传还是个人分享，有言都能帮助用户快速、轻松地制作出专业级别的视频内容。

Project Cover

Kimi

Kimi AI助手提供多语言对话支持，能够阅读和理解用户上传的文件内容，解析网页信息，并结合搜索结果为用户提供详尽的答案。无论是日常咨询还是专业问题，Kimi都能以友好、专业的方式提供帮助。

Project Cover

阿里绘蛙

绘蛙是阿里巴巴集团推出的革命性AI电商营销平台。利用尖端人工智能技术，为商家提供一键生成商品图和营销文案的服务，显著提升内容创作效率和营销效果。适用于淘宝、天猫等电商平台，让商品第一时间被种草。

Project Cover

吐司

探索Tensor.Art平台的独特AI模型，免费访问各种图像生成与AI训练工具，从Stable Diffusion等基础模型开始，轻松实现创新图像生成。体验前沿的AI技术，推动个人和企业的创新发展。

Project Cover

SubCat字幕猫

SubCat字幕猫APP是一款创新的视频播放器，它将改变您观看视频的方式！SubCat结合了先进的人工智能技术，为您提供即时视频字幕翻译，无论是本地视频还是网络流媒体，让您轻松享受各种语言的内容。

Project Cover

美间AI

美间AI创意设计平台，利用前沿AI技术，为设计师和营销人员提供一站式设计解决方案。从智能海报到3D效果图，再到文案生成，美间让创意设计更简单、更高效。

Project Cover

AIWritePaper论文写作

AIWritePaper论文写作是一站式AI论文写作辅助工具，简化了选题、文献检索至论文撰写的整个过程。通过简单设定，平台可快速生成高质量论文大纲和全文，配合图表、参考文献等一应俱全，同时提供开题报告和答辩PPT等增值服务，保障数据安全，有效提升写作效率和论文质量。

使用协议隐私政策广告服务

投诉举报邮箱: service@vectorlightyear.com

@2024 懂AI·鲁ICP备2024100362号-6·鲁公网安备37021002001498号