Project Icon

foundation-model-benchmarking-tool

AWS基础模型基准测试工具

FMBench是一个用于基准测试AWS生成式AI服务上基础模型性能的Python工具。它支持在SageMaker、Bedrock、EKS和EC2等平台上评估开源、第三方和专有模型。FMBench可帮助用户比较不同模型和部署选项的性能和准确性,从而优化生成式AI工作负载。

amazon-bedrock-samples - 全面掌握Amazon Bedrock服务的使用和管理
AI权限管理AI解决方案Amazon BedrockGithub开源项目模型微调生成式AI
该资源库提供了全面的示例帮助客户快速上手Amazon Bedrock服务,包括基础教程、模型微调、AI解决方案探索等。同时,项目还强调了如何安全和道德地使用这些高级AI技术。
speech-to-text-benchmark - 开源语音识别基准测试框架对比多家主流引擎
Github基准测试开源项目模型大小计算效率识别准确率语音转文本
该项目提供了一个开源的语音识别基准测试框架,对比了Amazon、Azure、Google等主流云服务以及OpenAI Whisper、Picovoice等引擎的性能。框架使用LibriSpeech、TED-LIUM和Common Voice数据集,评估词错率、计算效率和模型大小等指标。测试结果客观展示了各引擎在准确度和资源消耗方面的表现,为选择语音识别解决方案提供了参考依据。
AgentBench - 全面评估大型语言模型在多环境下的自主代理能力
AgentBenchGithubLLM-as-Agent任务设置开源项目测试结果评估框架
AgentBench是首个评估大型语言模型(LLM)作为自主代理的基准,涵盖操作系统、数据库、知识图谱等8个不同环境。该项目通过多任务设置和完整的数据集,深入分析LLM的实际应用能力。新版AgentBench v0.2优化了框架结构,并增加了更多模型的测试结果,方便开发者扩展和使用。
langchain-benchmarks - LLM任务基准测试工具
GithubLLM任务LangChain BenchmarksLangSmith基准测试工具使用开源项目
提供多种LLM任务基准测试工具,涵盖数据集收集、任务评估等全流程。依赖LangSmith平台,附有详细文档和实例,鼓励用户优化和测试解决方案。
BentoML - 简化AI模型推理API的构建与部署
AI模型BentoMLDocker容器Github开源项目模型服务框架生产环境
BentoML是一个开源模型服务框架,简化了AI和ML模型的生产部署。可以将任何模型推理脚本轻松转化为REST API服务器,并通过简单配置文件管理环境、依赖和模型版本。BentoML支持高性能推理API的构建,利用动态批处理、模型并行化和多阶段流水线等优化功能,最大化CPU/GPU利用率。此外,还支持自定义AI应用、异步推理任务和定制化前后处理逻辑。通过Docker容器或BentoCloud可轻松部署至生产环境,适用于各种机器学习框架和推理运行时。
aws - 专业监控环境稳定性的统计日志工具
GithubHuggingface开源项目故障检测日志模型环境监控统计
这是一个用于记录云环境统计数据的专业工具。它主要用于监控环境状态,帮助识别可能导致系统不稳定的问题。通过记录和分析日志数据,开发人员可以更好地了解系统运行情况,及时发现潜在风险。该工具简单易用,适用于需要持续监控云环境稳定性的场景。它有助于预防潜在的系统故障,提高环境的稳定性和可靠性,对于维护复杂系统和快速定位问题源头至关重要。
bigcodebench - 高难度代码生成基准测试评估LLM编程能力
BigCodeBenchGithub代码生成大语言模型开源项目编程能力评估基准
BigCodeBench是一个具有挑战性的代码生成基准测试,用于评估大型语言模型的实际编程能力。它提供复杂指令和多样函数调用,包括数据集、生成和评估脚本。基于EvalPlus框架,BigCodeBench实现精确评估和排名,提供预生成样本以加速研究。支持多种评估环境,采用unittest进行代码测试,为研究人员提供全面工具。
ToolBench - 大规模工具使用指令数据集与开源语言模型
AI工具APIGithubToolBench大规模语言模型工具使用能力开源项目
ToolBench项目构建了大规模的指令微调数据集,旨在提升语言模型的工具使用能力。该项目收集了16464个真实API,覆盖单工具和多工具场景,采用深度优先搜索决策树方法生成注释。项目提供训练脚本和微调后的ToolLLaMA模型,其工具使用能力达到了与ChatGPT相当的水平。
CMB - 中文医学基准测试,全面评估医疗AI模型的知识与临床能力
CMBGithub人工智能医学基准测试开源项目数据集评估模型
Chinese Medical Benchmark (CMB)是一个全面的中文医学基准测试项目,由CMB-Exam和CMB-Clin两部分组成。CMB-Exam包含11200道测试题,覆盖6大类28个子类的医学知识。CMB-Clin提供74个复杂医疗咨询案例。该项目致力于评估医疗AI模型的知识储备和临床推理能力,为中文医疗AI发展提供参考标准。
TabularBenchmarks - 机器学习算法在表格数据上的性能评估基准
Github开源项目性能评估数据集机器学习算法表格数据
TabularBenchmarks是一个开源项目,提供多种数据集和评估脚本,用于测试机器学习算法在表格数据上的性能。项目将数据集存放在input文件夹,算法实现则位于scripts文件夹。这些资源使研究人员能够客观比较不同算法处理表格数据的效果,有助于为特定任务选择合适的算法。
项目侧边栏1项目侧边栏2
推荐项目
Project Cover

豆包MarsCode

豆包 MarsCode 是一款革命性的编程助手,通过AI技术提供代码补全、单测生成、代码解释和智能问答等功能,支持100+编程语言,与主流编辑器无缝集成,显著提升开发效率和代码质量。

Project Cover

AI写歌

Suno AI是一个革命性的AI音乐创作平台,能在短短30秒内帮助用户创作出一首完整的歌曲。无论是寻找创作灵感还是需要快速制作音乐,Suno AI都是音乐爱好者和专业人士的理想选择。

Project Cover

白日梦AI

白日梦AI提供专注于AI视频生成的多样化功能,包括文生视频、动态画面和形象生成等,帮助用户快速上手,创造专业级内容。

Project Cover

有言AI

有言平台提供一站式AIGC视频创作解决方案,通过智能技术简化视频制作流程。无论是企业宣传还是个人分享,有言都能帮助用户快速、轻松地制作出专业级别的视频内容。

Project Cover

Kimi

Kimi AI助手提供多语言对话支持,能够阅读和理解用户上传的文件内容,解析网页信息,并结合搜索结果为用户提供详尽的答案。无论是日常咨询还是专业问题,Kimi都能以友好、专业的方式提供帮助。

Project Cover

讯飞绘镜

讯飞绘镜是一个支持从创意到完整视频创作的智能平台,用户可以快速生成视频素材并创作独特的音乐视频和故事。平台提供多样化的主题和精选作品,帮助用户探索创意灵感。

Project Cover

讯飞文书

讯飞文书依托讯飞星火大模型,为文书写作者提供从素材筹备到稿件撰写及审稿的全程支持。通过录音智记和以稿写稿等功能,满足事务性工作的高频需求,帮助撰稿人节省精力,提高效率,优化工作与生活。

Project Cover

阿里绘蛙

绘蛙是阿里巴巴集团推出的革命性AI电商营销平台。利用尖端人工智能技术,为商家提供一键生成商品图和营销文案的服务,显著提升内容创作效率和营销效果。适用于淘宝、天猫等电商平台,让商品第一时间被种草。

Project Cover

AIWritePaper论文写作

AIWritePaper论文写作是一站式AI论文写作辅助工具,简化了选题、文献检索至论文撰写的整个过程。通过简单设定,平台可快速生成高质量论文大纲和全文,配合图表、参考文献等一应俱全,同时提供开题报告和答辩PPT等增值服务,保障数据安全,有效提升写作效率和论文质量。

投诉举报邮箱: service@vectorlightyear.com
@2024 懂AI·鲁ICP备2024100362号-6·鲁公网安备37021002001498号