#性能评估
snake - 人工智能优化的贪吃蛇游戏
SnakeAIPython算法性能评估Github开源项目
该项目使用Python重写了经典贪吃蛇游戏,重点在于实现和优化人工智能算法。游戏中蛇的目标是不断吃食物并尽快填满地图。项目通过平均长度和平均步数两个指标评估了AI的表现,展示了Hamilton、Greedy和DQN三种算法的测试结果。该项目支持Python 3.6+及Tkinter,并提供了简单的安装和运行指南。
YiVal - 助力GenAI工具配置与优化的自动提示工程助手
YiVal自动化提示工程GenAI应用数据生成性能评估Github开源项目
YiVal致力于为生成型AI应用自动化提示和精确调校,通过先进的数据驱动方法,显著提升应用性能,减少延迟和算力成本。该工具有效应对提示开发和细粒度调节挑战,提供定制化的模型和数据漂移解决方案,保障GenAI应用的长期稳定性。
phasellm - 探索和评估大型语言模型的框架
PhaseLLM大语言模型性能评估API集成开源Github开源项目
PhaseLLM是一个创新的框架,旨在帮助用户管理和测试由大型语言模型(LLM)驱动的体验,如ChatGPT及其变种。该框架提供标准化API,兼容OpenAI、Cohere、Anthropic等多家服务提供商,构建评估体系,并新增自动化功能,使开发者和数据科学家能更容易地启动新的产品。适合各类品牌和产品经理,简化和加速大型语言模型的集成与评估过程。
TrustLLM - TrustLLM:全面大语言模型可信度研究工具
TrustLLM性能评估ICML 2024LLM工具包Github开源项目
TrustLLM是一款专注于评估大型语言模型(LLMs)可信度的工具包。涵盖八个维度的可信度原则,并在真相、安全、公平、鲁棒性、隐私和机器伦理等方面建立基准。TrustLLM提供便捷的评估工具,可以快速评估16种主流LLMs,帮助开发者提升模型可信度。项目已被ICML 2024接受,并持续更新以包括最新的模型和功能。详情请访问项目网站。
chatgpt - 一个基于GPT-4技术的高级文本生成和分析工具
ChatGPTOpenAIgpt-4gpt-3.5-turbo性能评估Github开源项目
ChatGPT是由OpenAI提供的一种基于文本的人工智能助手,采用了先进的GPT-4模型,能够高效处理和生成自然语言内容。其独特的词汇和标记方法使其具备卓越的计算与生成能力,同时在编程任务上的表现经过了多轮人类评估测试验证,表现优异。更多有关模型性能和应用场景的信息,请点击相关链接。
llmperf - 开源工具评估大语言模型API性能
LLMPerfLLM性能评估API测试RayGithub开源项目
LLMPerf是一个评估大语言模型API性能的开源工具。它通过负载测试和正确性测试来衡量模型的响应延迟、生成吞吐量和输出准确性。该工具支持OpenAI、Anthropic、TogetherAI等主流LLM API,并可扩展适配新API。LLMPerf采用Ray框架处理并发请求,能够模拟实际负载环境。开发者和研究人员可利用LLMPerf便捷地评估和对比不同LLM API的性能表现。
python_audio_loading_benchmark - Python音频库加载性能基准测试
Python音频加载性能评估机器学习音频处理库Github开源项目
该项目评估了多个Python音频库的加载性能,包括scipy、soundfile和pydub等。测试比较了各库将不同格式音频文件加载为numpy、PyTorch和TensorFlow张量的速度,以及音频元数据获取效率。这项基准测试为机器学习模型开发者提供了宝贵参考,特别是在处理原始音频数据时。项目展示了详细的测试结果,并提供了运行基准测试的指导。
DeepSeek-Coder - 支持多种编程语言的高性能开源代码模型
DeepSeek Coder代码生成AI编程助手性能评估模型训练Github开源项目
DeepSeek-Coder是一系列基于2T代码和自然语言数据训练的代码语言模型。提供1B至33B不同规模版本,支持项目级代码补全和插入。该模型在多种编程语言和基准测试中表现出色,支持87种编程语言,并在HumanEval、MBPP等评测中优于现有开源模型。
benchmarks - TensorFlow模型性能评估工具集
TensorFlow基准测试性能评估CNNPerfZeroGithub开源项目
TensorFlow benchmarks 是一个用于评估TensorFlow模型性能的开源工具集。它主要包含PerfZero基准测试框架,同时还保留了不再维护的CNN基准测试脚本。这些工具可用于测试各种神经网络模型的性能,进行跨平台比较,以及优化深度学习应用。对于研究TensorFlow模型性能的开发者,这是一个有价值的资源。
benchmark - 开源基准测试集评估PyTorch性能
PyTorch基准测试性能评估模型安装Github开源项目
PyTorch Benchmarks是评估PyTorch性能的开源基准测试集。它提供修改过的流行工作负载、标准化API和多后端支持。项目包含安装指南、多种基准测试方法和低噪声环境配置工具。支持自定义基准测试和库集成。通过夜间CI运行,持续评估PyTorch最新版本性能。
MAP-NEO - 开源大语言模型 性能卓越且训练过程透明
MAP-NEO大型语言模型开源训练数据性能评估Github开源项目
MAP-NEO是一个完全开源的大语言模型,其预训练数据、处理流程、脚本和代码均可获取。该模型在4.5T英中文数据上训练,性能与LLaMA2 7B相当。在推理、数学和编码等任务中,MAP-NEO表现优异。项目公开了训练全过程,包括检查点、分词器、语料库和优化代码,为大语言模型研究提供了宝贵资源。
param - 全面评估AI训练平台性能的综合基准测试套件
PARAM BenchmarksAI训练性能评估通信基准计算基准Github开源项目
PARAM (PyTorch based Arbitrary Range Micro-benchmarks) Benchmarks是一个评估AI训练和推理平台的综合基准测试库。它包括通信和计算微基准测试以及完整工作负载,弥补了独立C++基准测试和应用级基准测试之间的空白。PARAM能够深入分析系统架构和框架级开销,涵盖通信、计算和端到端工作负载评估。该开源项目采用MIT许可证,欢迎社区贡献。
Auto-GPT-Benchmarks - 自动化智能代理基准测试框架评估代码检索记忆和安全性能
Auto-GPT基准测试性能评估AI代理排名Github开源项目
Auto-GPT-Benchmarks 是一个自动化智能代理基准测试框架,用于客观评估代理在代码、检索、记忆和安全性方面的性能。框架提供详细评分和排名,有助于开发者优化代理性能。尽管该项目已被弃用,其功能已转移至 AutoGPT 主仓库的 benchmark 文件夹。最新测试结果显示 Beebot、mini-agi 和 Auto-GPT 表现最佳。
TabularBenchmarks - 机器学习算法在表格数据上的性能评估基准
表格数据机器学习性能评估数据集算法Github开源项目
TabularBenchmarks是一个开源项目,提供多种数据集和评估脚本,用于测试机器学习算法在表格数据上的性能。项目将数据集存放在input文件夹,算法实现则位于scripts文件夹。这些资源使研究人员能够客观比较不同算法处理表格数据的效果,有助于为特定任务选择合适的算法。
BotLab - 游戏AI机器人测试与评估模拟环境
AI工具BotLabAI游戏游戏测试机器人模拟性能评估
BotLab作为游戏AI机器人测试平台,模拟多样化游戏环境。用户可在各种挑战场景中观察机器人行为,无需代码分析即可评估性能。平台提供快速、安全的方法测试机器人可靠性、性能和安全性,促进游戏AI技术的理解与优化。
AceGPT - 优化阿拉伯语大型语言模型的文化适应性
AceGPT阿拉伯语言模型大型语言模型文化对齐性能评估Github开源项目
AceGPT是一个针对阿拉伯语优化的开源大型语言模型。该项目不仅关注语言处理,还注重文化适应性和本地价值观融合。通过创新的训练方法,AceGPT在多项阿拉伯语基准测试中展现出优异性能。项目开放了训练代码、模型和评估数据,为阿拉伯语自然语言处理研究提供了宝贵资源。
Evaluation-of-ChatGPT-on-Information-Extraction - 将ChatGPT应用于信息抽取任务的全面评估研究
ChatGPT信息抽取性能评估鲁棒性分析错误分析Github开源项目
本研究评估了ChatGPT在信息抽取领域的性能,包括命名实体识别、关系抽取、事件抽取和基于方面的情感分析等任务。结果显示ChatGPT与当前最优模型存在显著差距。研究提出软匹配评估策略,并深入分析了ChatGPT的鲁棒性和错误类型。这些发现为信息抽取领域的未来研究提供了宝贵参考。项目相关代码和数据集已在GitHub公开。
RouteLLM - LLM查询智能路由框架 优化资源分配与响应质量
RouteLLMLLM路由成本优化性能评估OpenAI兼容Github开源项目
RouteLLM是一个用于服务和评估大语言模型路由器的开源框架。它根据查询复杂度将请求智能分配至不同语言模型,在保持响应质量的同时降低成本。框架提供预训练路由器,可将成本降低85%,同时保持95%的GPT-4性能。RouteLLM支持新路由器添加和跨基准性能比较,为LLM应用提供灵活高效的解决方案。
KANbeFair - KAN与MLP神经网络性能对比研究
KANbeFair神经网络比较机器学习模型网络架构性能评估Github开源项目
本项目对KAN和MLP神经网络进行了全面比较。研究表明,KAN在符号公式表示方面更优,MLP则在计算机视觉、机器学习、文本和音频处理任务中表现更佳。通过网络架构消融实验,发现KAN的主要优势源于B样条函数的应用。项目提供了安装指南、运行说明及参数量和FLOPs计算方法,为神经网络研究提供了有价值的实验资源。
VectorDBBench - 开源向量数据库基准测试工具
VectorDBBench向量数据库基准测试性能评估数据分析Github开源项目
VectorDBBench是一个开源的向量数据库基准测试工具。它提供15个测试用例,评估容量、搜索性能和过滤搜索性能。支持多种数据库客户端,具有可视化界面,方便复现测试和评估新系统。工具还包含性能分析报告和排行榜功能,有助于比较不同向量数据库的性能。
py-motmetrics - 多目标跟踪性能评估Python库
多目标跟踪性能评估Python库MOT指标数据分析Github开源项目
py-motmetrics是一个评估多目标跟踪(MOT)性能的Python库。它实现了CLEAR-MOT和ID等评估指标,支持多种距离度量,可跟踪每帧事件,并提供灵活的求解器后端。该库兼容MOTChallenge基准,使用pandas进行数据分析,易于扩展。py-motmetrics为研究人员和开发者提供了全面评估和比较多目标跟踪算法性能的工具。
PnPInversion - 先进的扩散模型逆向技术,仅需3行代码即可提升图像编辑效果
PnPInversion扩散模型图像编辑图像反演性能评估Github开源项目
PnPInversion是一种新型扩散模型逆向方法,通过在源扩散分支纠正逆向偏差,仅需3行代码即可提升图像编辑效果。该技术在保持原图内容的同时提高编辑保真度。研究还提出PIE-Bench基准测试集,包含700张多样化场景和编辑类型的图像。评估显示PnPInversion在编辑性能和推理速度上均优于现有方法。
BARS - 推荐系统开放基准测试项目
BARS推荐系统基准测试开源项目性能评估Github
BARS项目致力于解决推荐系统领域缺乏统一基准测试的问题。它通过开放式基准测试提高研究可重复性和结果一致性。目前涵盖CTR预测和候选项匹配任务,未来将扩展到列表重排序和多任务推荐领域。该项目鼓励学术界和业界参与,共同推动推荐系统研究的进步。
LongQLoRA - 大语言模型上下文长度高效扩展的创新方法
LongQLoRA大语言模型上下文长度扩展低资源训练性能评估Github开源项目
LongQLoRA是一种扩展大语言模型上下文长度的方法,可在单个32GB V100 GPU上将LLaMA2模型的上下文长度从4096扩展到8192。该方法在PG19和Proof-pile数据集上表现优异,仅需1000步微调即可达到接近MPT-7B-8K的性能。项目还提供了预训练数据集、指令微调数据集以及扩展上下文长度的模型。
torch-scan - PyTorch模型分析和性能评估工具
PyTorch模型分析神经网络性能评估深度学习Github开源项目
torch-scan是一个专门用于PyTorch模型分析的开源工具。它提供详细的模型结构信息,包括参数数量、FLOPs、MACs和内存使用等指标。支持分析嵌套复杂架构,可估算卷积网络感受野。该工具帮助开发者深入了解和优化PyTorch模型,适用于模型分析和性能评估。
codet5p-220m - CodeT5+:多语言代码理解与生成的开放源代码模型
CodeT5+代码理解性能评估预训练代码生成Github模型开源项目Huggingface
CodeT5+是一种开源的多语言模型,支持多种编码器-解码器模式操作,适用于多种代码理解和生成任务。相比原始CodeT5系列,CodeT5+通过多样化的预训练任务和高效的计算方法显著提升性能,支持九种编程语言,并在多个任务中优于现有基线,特别是在HumanEval基准的零样本任务中表现突出。
Qwen2.5-Coder-1.5B-Instruct-GGUF - Qwen2.5-Coder致力于提升代码生成及修复
Qwen2.5-Coder长上下文支持transformers性能评估代码生成Github模型开源项目Huggingface
Qwen2.5-Coder通过5.5万亿训练标记和128K长上下文支持,提升代码生成、推理和修复的能力,适用于代码代理等实际应用。模型采用先进的transformers架构,实现对数学及一般能力的增强,满足广泛应用需求。
stablelm-2-1_6b-chat - 1.6亿参数的对话模型
语言模型训练数据集Github开源项目StableLM 2 Chat 1.6B使用限制Huggingface性能评估模型
StableLM 2 Chat 1.6B由Stability AI创建,是基于transformer解码器架构的自然语言模型,专为对话场景设计。模型使用多种公开和合成数据集训练,并运用直接偏好优化算法。OpenLLM排行榜上的出色表现使其适用于对话应用,建议配置输入输出分类器以提升安全性和降低偏误,适合非商业用途。
distilbart-cnn-12-6 - BART模型压缩版本实现快速高效的文本摘要
模型Github开源项目Huggingface模型压缩文本摘要BART性能评估自然语言处理
distilbart-cnn-12-6是BART模型的压缩版本,专注于文本摘要任务。该模型通过减少参数量和优化推理时间,在保持高性能的同时提高了效率。与原始BART模型相比,distilbart-cnn-12-6在Rouge-2和Rouge-L评估指标上表现相当,且推理速度提升了1.24倍。这使得该模型特别适合需要快速生成高质量摘要的应用场景。
wmt19-de-en - 德英翻译新突破,基于WMT19模型的精准与高效
FSMTHuggingfaceFacebook性能评估翻译模型Github开源项目机器学习
wmt19-de-en项目是基于FairSeq的WMT19模型的德英翻译工具,旨在提高翻译的准确性和效率。项目提供预训练模型,可快速部署于多种翻译场景。尽管在处理重复短语时存在一定限制,但整体表现出色,获得了高BLEU评分。未来的改进方向包括加强模型集成和重新排序功能,以增强对复杂输入的翻译能力。
EXAONE-3.0-7.8B-Instruct - 高性能双语指令微调大语言模型
EXAONE-3.0-7.8B-Instruct语言模型Huggingface模型指令微调Github开源项目开源许可性能评估
EXAONE-3.0-7.8B-Instruct是LG AI Research开发的英韩双语生成模型,拥有78亿参数。经过8万亿token的预训练和指令微调后,该模型在多项基准测试中表现出色,与同等规模的顶级开源模型相媲美。它不仅支持英语和韩语的对话生成,还可应用于广泛的自然语言处理任务,为推动人工智能研究生态系统的发展做出了贡献。
TinyLlama-1.1B-intermediate-step-1431k-3T - 快速训练的轻量级1.1B参数Llama模型
语言模型模型性能评估TinyLlama预训练GithubHuggingface开源项目
TinyLlama-1.1B是一个在3万亿个token上预训练的小型Llama模型。采用Llama 2架构,该模型用16个A100 GPU在90天内完成训练,展现高效性。紧凑设计适合资源受限场景,在多项基准测试中表现不俗,可轻松集成到基于Llama的开源项目中。
distilbart-cnn-6-6 - 经过蒸馏的BART模型实现快速高质量文本摘要
模型压缩Huggingface模型BART摘要生成Github开源项目自然语言处理性能评估
distilbart-cnn-6-6是一个经过知识蒸馏的BART模型,专注于文本摘要任务。该模型在CNN/DailyMail和XSum数据集上训练,相较原始BART模型,推理速度提升2.09倍,同时保持了较高的Rouge-2和Rouge-L评分。distilbart-cnn-6-6在模型大小、处理速度和摘要质量之间达到平衡,适用于要求快速且高质量文本摘要的应用场景。
Qwen2-1.5B - 优秀性能和多语言能力的开源大语言模型
模型GithubQwen2开源项目Huggingface性能评估多语言能力自然语言处理大语言模型
Qwen2-1.5B是一款开源大语言模型,具有1.3B非嵌入参数。它在自然语言理解、生成、多语言处理、编程、数学和推理等领域表现优异。该模型在MMLU、GSM8K等多项基准测试中取得了优秀成绩,展现了较强的多语言能力。Qwen2-1.5B采用改进的Transformer架构,为进一步微调和应用奠定了基础。
open_llama_3b_v2 - 高性能开源大型语言模型复现LLaMA
模型模型权重OpenLLaMA大语言模型开源项目Huggingface性能评估Github开源复现
OpenLLaMA是一个复现Meta AI的LLaMA大型语言模型的开源项目。它提供3B、7B和13B三种规模的模型,使用开源数据集训练了1万亿个标记。该项目采用与原始LLaMA相同的预处理和训练参数,在多项评估中表现出色。OpenLLaMA提供PyTorch和JAX格式的预训练权重,遵循Apache 2.0许可证发布。
Abel-7B-002 - 数学推理能力卓越的7B参数大语言模型
数学能力性能评估模型模型对比Abel-7B-002Github大语言模型Huggingface开源项目
Abel-7B-002是一款在数学和推理能力方面表现突出的7B参数大语言模型。相较于前代模型,它在GSM8K和MATH等数学基准测试中分别提升了35%和126%的性能。在7B规模模型中,Abel-7B-002在多项任务上展现出领先优势,尤其在GSM8K和MATH测试中分别达到80.44和29.46的最高分。除数学领域外,该模型在语言理解和常识推理等方面也有出色表现,展示了良好的泛化能力。
相关文章
YiVal:您的自动化提示工程助手,为GenAI应用赋能
2024年08月30日
PhaseLLM:大型语言模型评估与工作流框架
2024年08月30日
TrustLLM:大型语言模型的可信度评估框架
2024年08月31日
LLMPerf:开源的LLM性能基准测试工具
2024年09月04日
深入解析TensorFlow基准测试框架
2024年09月04日
Python音频加载基准测试:评估不同音频I/O库的性能
2024年09月05日
PyTorch Benchmark: 性能评估的强大工具
2024年09月05日
MAP-NEO:探索近地天体的多模态艺术投影系统
2024年09月05日
贪吃蛇游戏的人工智能实现:探索算法与策略
2024年08月30日