#性能评估

TrustLLM学习资料汇总 - 全面评估大语言模型可信度的开源框架

2024年09月10日
Cover of TrustLLM学习资料汇总 - 全面评估大语言模型可信度的开源框架

PhaseLLM学习资料汇总-大型语言模型评估和工作流框架

2024年09月10日
Cover of PhaseLLM学习资料汇总-大型语言模型评估和工作流框架

YiVal学习资料汇总 - 自动化提示工程助手

2024年09月10日
Cover of YiVal学习资料汇总 - 自动化提示工程助手

Snake AI学习资源汇总 - 贪吃蛇游戏的人工智能实现

2024年09月10日
Cover of Snake AI学习资源汇总 - 贪吃蛇游戏的人工智能实现

TorchScan:轻松分析PyTorch模型的强大工具

2024年09月05日
Cover of TorchScan:轻松分析PyTorch模型的强大工具

LongQLoRA: 高效扩展大型语言模型上下文长度的创新方法

2024年09月05日
Cover of LongQLoRA: 高效扩展大型语言模型上下文长度的创新方法

PnP Inversion: 用3行代码提升基于扩散模型的图像编辑

2024年09月05日
Cover of PnP Inversion: 用3行代码提升基于扩散模型的图像编辑

py-motmetrics: Python库实现多目标跟踪评估指标

2024年09月05日
Cover of py-motmetrics: Python库实现多目标跟踪评估指标

VectorDBBench:开源矢量数据库基准测试工具

2024年09月05日
Cover of VectorDBBench:开源矢量数据库基准测试工具

KANbeFair: 一个更公平全面的KAN与MLP比较研究

2024年09月05日
Cover of KANbeFair: 一个更公平全面的KAN与MLP比较研究
相关项目
Project Cover

YiVal

YiVal致力于为生成型AI应用自动化提示和精确调校,通过先进的数据驱动方法,显著提升应用性能,减少延迟和算力成本。该工具有效应对提示开发和细粒度调节挑战,提供定制化的模型和数据漂移解决方案,保障GenAI应用的长期稳定性。

Project Cover

phasellm

PhaseLLM是一个创新的框架,旨在帮助用户管理和测试由大型语言模型(LLM)驱动的体验,如ChatGPT及其变种。该框架提供标准化API,兼容OpenAI、Cohere、Anthropic等多家服务提供商,构建评估体系,并新增自动化功能,使开发者和数据科学家能更容易地启动新的产品。适合各类品牌和产品经理,简化和加速大型语言模型的集成与评估过程。

Project Cover

TrustLLM

TrustLLM是一款专注于评估大型语言模型(LLMs)可信度的工具包。涵盖八个维度的可信度原则,并在真相、安全、公平、鲁棒性、隐私和机器伦理等方面建立基准。TrustLLM提供便捷的评估工具,可以快速评估16种主流LLMs,帮助开发者提升模型可信度。项目已被ICML 2024接受,并持续更新以包括最新的模型和功能。详情请访问项目网站。

Project Cover

chatgpt

ChatGPT是由OpenAI提供的一种基于文本的人工智能助手,采用了先进的GPT-4模型,能够高效处理和生成自然语言内容。其独特的词汇和标记方法使其具备卓越的计算与生成能力,同时在编程任务上的表现经过了多轮人类评估测试验证,表现优异。更多有关模型性能和应用场景的信息,请点击相关链接。

Project Cover

llmperf

LLMPerf是一个评估大语言模型API性能的开源工具。它通过负载测试和正确性测试来衡量模型的响应延迟、生成吞吐量和输出准确性。该工具支持OpenAI、Anthropic、TogetherAI等主流LLM API,并可扩展适配新API。LLMPerf采用Ray框架处理并发请求,能够模拟实际负载环境。开发者和研究人员可利用LLMPerf便捷地评估和对比不同LLM API的性能表现。

Project Cover

python_audio_loading_benchmark

该项目评估了多个Python音频库的加载性能,包括scipy、soundfile和pydub等。测试比较了各库将不同格式音频文件加载为numpy、PyTorch和TensorFlow张量的速度,以及音频元数据获取效率。这项基准测试为机器学习模型开发者提供了宝贵参考,特别是在处理原始音频数据时。项目展示了详细的测试结果,并提供了运行基准测试的指导。

Project Cover

DeepSeek-Coder

DeepSeek-Coder是一系列基于2T代码和自然语言数据训练的代码语言模型。提供1B至33B不同规模版本,支持项目级代码补全和插入。该模型在多种编程语言和基准测试中表现出色,支持87种编程语言,并在HumanEval、MBPP等评测中优于现有开源模型。

Project Cover

benchmarks

TensorFlow benchmarks 是一个用于评估TensorFlow模型性能的开源工具集。它主要包含PerfZero基准测试框架,同时还保留了不再维护的CNN基准测试脚本。这些工具可用于测试各种神经网络模型的性能,进行跨平台比较,以及优化深度学习应用。对于研究TensorFlow模型性能的开发者,这是一个有价值的资源。

Project Cover

snake

该项目使用Python重写了经典贪吃蛇游戏,重点在于实现和优化人工智能算法。游戏中蛇的目标是不断吃食物并尽快填满地图。项目通过平均长度和平均步数两个指标评估了AI的表现,展示了Hamilton、Greedy和DQN三种算法的测试结果。该项目支持Python 3.6+及Tkinter,并提供了简单的安装和运行指南。

投诉举报邮箱: service@vectorlightyear.com
@2024 懂AI·鲁ICP备2024100362号-6·鲁公网安备37021002001498号