#基准测试
VectorDBBench - 开源向量数据库基准测试工具
VectorDBBench向量数据库基准测试性能评估数据分析Github开源项目
VectorDBBench是一个开源的向量数据库基准测试工具。它提供15个测试用例,评估容量、搜索性能和过滤搜索性能。支持多种数据库客户端,具有可视化界面,方便复现测试和评估新系统。工具还包含性能分析报告和排行榜功能,有助于比较不同向量数据库的性能。
siege - 强大的开源网站压力测试和基准测试工具
压力测试网络性能基准测试开源工具HTTP协议Github开源项目
Siege是一款开源的网站压力测试和基准测试工具,可模拟多用户并发访问单个或多个URL。它支持HTTP/1.0和1.1协议、GET和POST方法、cookies和基本认证,并提供详细的性能报告。Siege帮助开发者和系统管理员评估网站在高负载下的表现,其特点包括高度可配置、易用性和全面的数据分析。这使Siege成为网站性能评估和优化的有力工具。
yet-another-bench-script - 全面自动化Linux服务器性能基准测试脚本
服务器性能测试基准测试Yet-Another-Bench-ScriptYABSLinuxGithub开源项目
Yet-Another-Bench-Script是一款无需安装依赖的Linux服务器基准测试脚本。它自动执行多项性能测试,包括fio磁盘测试、iperf3网络测试和Geekbench系统性能测试。该脚本支持多种测试选项,可生成JSON格式结果并上传。适用于全面评估服务器性能指标。
phoronix-test-suite - 开源跨平台自动化性能测试框架
Phoronix Test Suite基准测试性能测试开源软件跨平台Github开源项目
Phoronix Test Suite是一款开源跨平台自动化性能测试框架,兼容Linux、Solaris、macOS、Windows和BSD等多种操作系统。它内置600多个测试配置文件和200多个测试套件,支持性能基准测试和单元测试等。该框架可扩展,能自动执行测试并生成报告,还可与OpenBenchmarking.org集成实现结果共享和比较。其Phoromatic平台适合企业级大规模测试管理,为开发者和IT专业人士提供全面的性能评估解决方案。
sysbench - 灵活可扩展的多线程基准测试工具 支持多种系统性能评估
sysbench基准测试性能测试数据库多线程Github开源项目
sysbench是一款基于LuaJIT的多线程基准测试工具,具有高度可扩展性。它不仅适用于数据库性能测试,还能模拟各种复杂工作负载。sysbench内置了OLTP、文件I/O、CPU、内存等多种基准测试,支持高并发场景,并提供详细的性能统计。用户可通过Lua脚本轻松创建自定义测试。该工具支持Linux、macOS和Windows Subsystem for Linux等主流平台。
tsbs - 开源时间序列数据库性能测试工具集
TSBS时间序列基准测试数据库性能测试Github开源项目
TSBS是一个开源的时间序列数据库基准测试工具集,支持多种主流数据库如TimescaleDB和InfluxDB。它可模拟DevOps和IoT场景,生成测试数据并评估数据写入和查询性能。TSBS提供了完整的测试流程,包括数据生成、加载和查询执行,有助于用户全面评估和选择最适合需求的时间序列数据库。
BasicTS - 公平且标准的时间序列预测基准和工具包
时间序列预测基准测试工具包深度学习BasicTSGithub开源项目
BasicTS是一个开源的时间序列预测基准和工具包,支持空间-时间预测和长时间序列预测等任务。它提供统一标准的评估流程,实现对主流深度学习模型的公平对比。BasicTS还提供易用的接口,便于设计和评估新模型。该项目内置多个数据集和基线模型,支持多种计算设备,并有完善的日志系统。BasicTS致力于推动时间序列预测研究的发展。
TFB - 时间序列预测评估框架
TFB时序预测基准测试开源库评估框架Github开源项目
TFB是一个为时间序列预测研究设计的开源库。它提供清晰的代码库,支持对预测模型进行端到端评估,并通过多种策略和指标比较模型性能。TFB特点包括多样化数据集、全面基线模型、灵活评估策略和丰富评估指标。研究人员可利用TFB开发新方法或评估自有时间序列数据。
Leaderboard - 多语言语音识别基准测试平台 促进ASR系统评估
语音识别基准测试数据集模型评估Github开源项目
SpeechColab ASR leaderboard是一个开源的语音识别基准平台,集成测试集、模型集和标准化评估流程。平台提供多样化测试数据,涵盖广泛ASR场景,支持商业API和开源模型评估。它简化了ASR系统的基准测试、复现和验证过程,方便研究人员和开发者比较不同系统性能。通过统一的评估标准,该平台有助于推动语音识别技术的持续进步。
TextClassificationBenchmark - 基于PyTorch的文本分类基准测试平台
文本分类深度学习模型数据集PyTorch基准测试Github开源项目
TextClassificationBenchmark是一个开源的文本分类基准测试平台。该项目基于PyTorch实现,集成了IMDB、SST和Trec等多个主流数据集,支持情感分析和主题分类任务。平台内置FastText、CNN、LSTM和Transformer等多种深度学习模型,并提供自动数据配置、模型训练和评估功能。研究人员和开发者可以利用此平台方便地进行文本分类实验和性能对比。
benchmarks - 主流机器学习库全面性能基准测试
CatBoost基准测试机器学习性能比较GPU加速Github开源项目
Benchmarks是GitHub上的开源项目,致力于多个主流机器学习库的性能对比。该项目涵盖CatBoost、XGBoost、LightGBM和H2O等库,对比范围包括二元分类、训练速度、模型评估、排序任务和SHAP值计算。此外还提供CPU与GPU性能对比和Kaggle竞赛数据集上的质量评估。这些全面的基准测试为机器学习从业者提供了客观的性能参考数据。
Safe-Reinforcement-Learning-Baselines - 综合安全强化学习研究资源库
Safe Reinforcement Learning安全强化学习基准测试算法环境Github开源项目
Safe-Reinforcement-Learning-Baselines项目汇集了安全强化学习领域的多种基线算法和基准环境,涵盖单智能体和多智能体场景。该资源库提供环境支持、算法实现、相关调查、学术论文和教程等全面内容,为研究人员提供系统性的安全强化学习工具和参考资料,促进该领域的持续发展和创新。
daisyRec - 开源推荐系统评估和基准测试框架
推荐系统Python工具包基准测试深度学习协同过滤Github开源项目
daisyRec是一个支持多维度公平比较的Top-N推荐任务基准测试框架。该开源工具整合了传统和深度学习推荐算法,支持CUDA加速和多个公开数据集。通过提供GUI命令生成器和严格的评估标准,daisyRec致力于推动推荐系统研究的可复现性和公平比较。
BARS - 推荐系统开放基准测试项目
BARS推荐系统基准测试开源项目性能评估Github
BARS项目致力于解决推荐系统领域缺乏统一基准测试的问题。它通过开放式基准测试提高研究可重复性和结果一致性。目前涵盖CTR预测和候选项匹配任务,未来将扩展到列表重排序和多任务推荐领域。该项目鼓励学术界和业界参与,共同推动推荐系统研究的进步。
carla-roach - 端到端城市自动驾驶仿真框架
CARLA-Roach自动驾驶强化学习模仿学习基准测试Github开源项目
CARLA-Roach是一个端到端城市自动驾驶仿真框架,通过模仿强化学习教练实现驾驶。它提供基准测试、数据收集、强化学习训练和基于DAGGER的模仿学习功能。该项目还包含预训练模型,支持在NoCrash和CARLA Leaderboard等基准上评估。CARLA-Roach为自动驾驶研究提供了实用的仿真平台。
robosuite - 基于MuJoCo的机器人学习仿真框架
robosuite机器人学习模拟框架基准测试MuJoCoGithub开源项目
robosuite是基于MuJoCo物理引擎的机器人学习仿真框架,提供标准化基准环境和模块化设计。框架包含多种机器人模型、抓手模型、控制器模式和标准化任务,支持程序化生成新环境、多模态传感和逼真渲染。robosuite为机器人智能研究提供了可靠、灵活的仿真平台,降低了前沿研究的门槛。
bark - 自动驾驶语义仿真与行为模型开发框架
BARK自动驾驶行为模型仿真框架基准测试Github开源项目
BARK是一个开源的自动驾驶语义仿真框架,专注于行为模型的开发和评估。它支持快速构建、训练和基准测试决策算法,尤其适合强化学习等计算密集型任务。BARK提供行为基准测试、Python和C++模型开发等功能,并可与机器学习工具和CARLA仿真器集成。其生态系统包含BARK-ML、BARK-MCTS等多个组件,为自动驾驶行为模型的研究提供全面支持。
speech-to-text-benchmark - 开源语音识别基准测试框架对比多家主流引擎
语音转文本基准测试识别准确率计算效率模型大小Github开源项目
该项目提供了一个开源的语音识别基准测试框架,对比了Amazon、Azure、Google等主流云服务以及OpenAI Whisper、Picovoice等引擎的性能。框架使用LibriSpeech、TED-LIUM和Common Voice数据集,评估词错率、计算效率和模型大小等指标。测试结果客观展示了各引擎在准确度和资源消耗方面的表现,为选择语音识别解决方案提供了参考依据。
continual-learning-baselines - 综合持续学习策略基准与评估平台
Continual LearningAvalanche实验基准测试模型性能Github开源项目
该项目提供了一套持续学习策略和基线示例,基于Avalanche库实现多种算法,如Less-Forgetful Learning和Elastic Weight Consolidation。项目在Permuted MNIST、Split CIFAR-100等数据集上进行了评估,可重现原始论文结果或自定义参数。这为持续学习研究提供了可靠的基准平台,便于比较不同策略的性能。
TravelPlanner - 真实世界规划的语言代理基准测试
TravelPlanner语言代理规划工具使用基准测试Github开源项目
TravelPlanner是一个评估语言代理在真实世界规划能力的基准测试。该项目模拟旅行规划场景,要求语言代理根据查询制定包含交通、餐饮、景点和住宿的完整计划。通过设置环境、常识和硬性约束,TravelPlanner全面测试语言模型的规划能力。项目提供两阶段和单一规划两种模式,支持多种语言模型,并配备详细的评估方法和工具。
Q-Bench - 评测多模态大语言模型的低层视觉能力
Q-Bench低层视觉多模态大语言模型基准测试ICLR2024Github开源项目
Q-Bench是一个评估多模态大语言模型低层视觉能力的基准测试。它通过感知、描述和评估三个领域,使用LLVisionQA和LLDescribe数据集测试模型性能。该项目采用开放式评估框架,支持研究者提交结果或模型。Q-Bench对比了开源和闭源模型的表现,并与人类专家水平进行对照,为深入理解和提升多模态AI的基础视觉处理能力提供了关键洞察。
LLMs-Planning - 大型语言模型规划与推理能力评估与分析工具
LLM规划评估基准测试人工智能Github开源项目
LLMs-Planning项目包含PlanBench和大型语言模型规划能力分析两个子项目。PlanBench提供可扩展的基准测试,用于评估大型语言模型在规划和推理变化方面的表现。项目还对大型语言模型的规划能力进行了批判性调查,为自然语言处理和人工智能规划领域的研究者提供了重要参考。
miracl - 跨18语言的多语言信息检索数据集
MIRACL多语言信息检索维基百科语料库基准测试跨语言搜索Github开源项目
MIRACL项目提供了一个跨18种语言的多语言信息检索数据集,涵盖全球超过30亿母语使用者。该数据集包含16种已知语言的Wikipedia语料库,并提供相应的训练和开发数据。项目还包括基于BM25和mDPR的基线系统,以及使用Pyserini复现结果的指南。这一资源为多语言信息检索研究提供了有价值的支持。
Primes - 跨语言素数筛选算法效率比较平台
Primes软件性能测试社区贡献基准测试编程语言比较Github开源项目
Primes是一个开源的跨语言素数筛选算法性能比较平台。该项目源于Dave's Garage的视频实验,涵盖了Python、C#和C++等多种编程语言。Primes提供统一的基准测试方法,并通过PrimeView网页应用展示结果。作为一个社区驱动的项目,Primes为研究不同编程语言在素数计算方面的效率提供了客观的数据支持。
llm_rules - RuLES基准测试评估语言模型遵循规则能力
LLM规则遵循RuLES语言模型评估基准测试Github开源项目
RuLES是一个评估语言模型遵循规则能力的基准测试项目。它提供多种测试场景,如身份验证和问答。项目包括评估脚本、红队测试工具和测试用例可视化工具。研究人员可以评估不同语言模型遵循简单规则的表现,并计算RuLES得分。项目还包含GCG攻击和模型微调的相关代码与指南。
Phi-3-medium-128k-instruct - 14B参数轻量级开源大语言模型支持128K上下文
语言模型Huggingface模型Phi-3基准测试人工智能Github开源项目推理能力
Phi-3-medium-128k-instruct是微软开发的14B参数轻量级开源大语言模型,支持128K上下文长度。该模型在常识、语言理解、数学、编程、长文本处理和逻辑推理等方面表现优异,与同等规模及更大模型相比表现出色。经过指令微调和偏好优化,适用于多种商业和研究场景,尤其适合资源受限环境、低延迟场景和需要强大推理能力的应用。
bert-base-spanish-wwm-cased - 基于大规模语料库训练的西班牙语BERT模型
模型西班牙语BETOGithub预训练模型基准测试Huggingface开源项目自然语言处理
BETO是一个基于大规模西班牙语语料库训练的BERT模型,采用全词遮蔽技术,提供uncased和cased两个版本。在词性标注、命名实体识别和文本分类等多项西班牙语基准测试中,BETO表现优于多语言BERT。研究者可通过Hugging Face Transformers库轻松使用该模型,为西班牙语自然语言处理研究和应用提供有力支持。
flan-t5-base-VG-factual-sg - FACTUAL数据集驱动的flan-t5场景图解析模型
Huggingface模型场景图解析基准测试Github深度学习模型开源项目自然语言处理FACTUAL
flan-t5-base-VG-factual-sg模型采用flan-t5架构,通过VG数据集预训练和FACTUAL数据集微调,实现高效的场景图解析。该模型在文本场景图解析方面展现出准确性和一致性,为计算机视觉和自然语言处理领域的研究与应用提供重要工具。使用此模型时,建议研究者引用相关学术文献以支持原创工作。
Yi-1.5-6B-Chat - 提升代码、数学、推理能力的开源AI模型
基准测试语料库语言理解Yi-1.5HuggingfaceGithub数学推理开源项目模型
Yi-1.5在编码、数学、推理和指令执行方面表现卓越,其通过训练5000亿高质量语料和300万多样化样本的微调实现了更强的表现。同时,Yi-1.5-6B-Chat等多个模型版本提供了不同的上下文长度以适应各种应用场景需求。这些模型在基准测试中表现优异,并且在同尺寸开源模型中领先。用户可通过Hugging Face、ModelScope等平台获取模型资源,快速应用于项目中。
openchat-3.5-0106 - 基于Mistral的7B开源语言模型在多项测试中超越大型模型
语言模型开源项目基准测试模型人工智能GithubOpenChat开源Huggingface
OpenChat-3.5-0106是基于Mistral-7B架构开发的开源语言模型,具备编程、数学推理和对话等功能。模型支持8192上下文长度,提供编程专用和通用两种模式。在HumanEval、GSM8K等基准测试中,该模型展现出超越部分大型商业模型的性能。此外,模型还集成了实验性的评估器功能
opus-mt-es-ca - 西班牙语到加泰罗尼亚语的开源机器翻译项目
开源项目翻译模型GithubHuggingfacespa-cat基准测试句子片段语言对
该开源项目实现西班牙语到加泰罗尼亚语翻译,使用transformer-align模型,并通过标准化和SentencePiece (spm32k)方法预处理数据。在Tatoeba测试集上,系统取得了BLEU 68.9和chr-F 0.832的高分,展现出良好翻译性能。可下载原始模型权重和测试集翻译文件,通过OPUS页面获取更多信息。
molmo-7B-D-bnb-4bit - 量化技术优化,模型尺寸有效缩减
深度学习基准测试Huggingface机器学习模型量化开源项目模型transformersGithub
采用4bit量化技术的Molmo-7B-D模型,从30GB压缩至7GB,运行需求缩减至约12GB VRAM。项目致力于在保持低资源消耗的基础上提升模型性能。进一步的信息及示例代码可在GitHub和Hugging Face上获取,性能指标及基准测试结果预定于下周发布。
opus-mt-ca-es - 加泰罗尼亚语至西班牙语的开源翻译工具
opus-mt-ca-esGithub模型开源项目预处理Huggingface基准测试翻译
这是一个开放源代码的加泰罗尼亚语到西班牙语翻译模型,采用transformer-align架构,具备良好性能。通过OPUS数据集和SentencePiece进行预处理,提供高质量且一致的翻译结果。支持下载模型权重和测试集,方便评估应用于语言转换需求。
Synatra-7B-v0.3-dpo - 优化中文语言处理的开源模型,基于Mistral-7B-Instruct构建
Synatra-7B-v0.3-dpo基准测试实现代码测评结果模型详情模型Github开源项目Huggingface
Synatra-7B-v0.3-dpo是一个为中文语言处理优化的开源模型,基于Mistral-7B-Instruct和ChatML格式训练,在多项基准测试中表现良好,特别是在BoolQ和SentiNeg测试中。其设计旨在提供高效的计算性能,适合多种语言任务。该项目的开源代码易于调用,为研究和开发人员提供了强大的语言处理工具。
cogvlm2-llama3-chat-19B-int4 - 不同场景应用的高性能多语言文本生成模型
图像分辨率开源项目模型Github中英文支持GPU内存需求Huggingface基准测试CogVLM2
CogVLM2是一种先进的多语言文本生成模型,在多项基准测试中表现优异,如TextVQA和DocVQA。支持高达8K的文本长度和1344x1344的图像分辨率,并能在ZhipuAI开放平台上进行体验。该模型拥有高效的设计,占用较低的GPU内存,需在Linux系统下的Nvidia显卡上运行,适用于多语言环境中的各种场景。
T-lite-instruct-0.1 - 优化指令模型,提升生成质量与安全性
开源项目模型Github指令数据集T-lite-instruct-0.1偏好调整Huggingface基准测试奖励建模
T-lite-instruct-0.1是一种经过bf16格式训练的AI模型,专注于安全性和生成的高质量。它使用多样化的数据集,包括翻译后的英语开源数据集,避免低质量翻译。通过强模型生成的上下文进行训练,在MT-Bench和Arena基准测试中表现优秀,适合高标准工业应用。
相关文章
promptfoo:全面的LLM应用测试与评估工具
3 个月前
MMMU: 推动人工智能迈向专家级多模态理解与推理的里程碑
3 个月前
LangChain Benchmarks: 为LLM相关任务提供基准测试的开源工具包
3 个月前
GenRL: 强化学习算法实现的开源库
3 个月前
SEED-Bench: 一个用于评估多模态大语言模型的综合基准
3 个月前
MixEval: 革新大语言模型评估的动态基准
3 个月前
MeViS: 一个基于运动表达的大规模视频分割基准数据集
3 个月前
RoleLLM: 一个突破性的大型语言模型角色扮演框架
3 个月前
Nous-Yarn-Mistral-7b-128k:处理长篇文本的先进语言模型,支持128k令牌的语境窗口
2024年08月03日