lighteval

轻量级LLM评估框架，支持多任务处理与复杂模型配置

LightEval LLM 评估 Hugging Face 安装 Github 开源项目

lighteval是一款轻量级LLM评估套件，兼容datatrove和nanotron库，支持CPU和多GPU环境，能处理超大模型。多任务配置允许自定义和社区任务，具备数据并行、管道并行及Hugging Face Hub集成功能。适用于复杂模型配置和推理端点。

UHGEval - 中文大语言模型无约束生成幻觉评估基准

Eval SuiteGithubUHGEval中文评估基准大语言模型幻觉评估开源项目

UHGEval是一个评估中文大语言模型在无约束生成任务中幻觉现象的基准。该项目基于文本生成和幻觉收集，融合自动标注与人工审核。UHGEval提供判别式、生成式和选择式等多种评估方法。项目还包含Eval Suite评估框架，支持多个幻觉评估基准，可全面评估单个大语言模型的表现。

bench - LLM性能评估与工作流标准化工具

BenchGitHubGithubLLMpython开源项目评估

Bench是一款适用于生产环境的LLM评估工具，支持比较不同的LLM、提示词和生成超参数（如温度和令牌数量）。它提供统一接口，实现LLM评估流程标准化，可测试开源LLM在特定数据上的表现，并将排行的排名转化为实际用例评分。用户可以安装Bench、创建并运行测试套件，通过本地UI查看结果。

lightning-flash - 跨数据领域和任务的AI模型训练与处理解决方案

AIGithubPyTorchlightning-flash开源项目模型训练深度学习

Lightning Flash提供多任务和多数据领域的AI解决方案，用户只需三步即可完成数据加载、模型配置和微调。项目支持多种预训练模型和优化策略，简化深度学习工作流程，适用于各种数据域和任务类型。其功能包括模型预测、训练策略、优化器和调度器选择，以及自定义数据变换。Flash旨在让用户无需自行开发复杂的研究框架，即可在生产环境中应用AI模型。

llm-toys - 微调小型语言模型实现多任务处理

Githubllm-toys任务微调低资源模型对话摘要开源项目语气变化

llm-toys 项目提供适用于释义、语气转换、对话总结和主题生成等任务的小型量化3B和7B语言模型。这些经过微调的模型能在普通消费级硬件上高效运行，并通过简单的安装步骤提升文本处理和生成能力。

llm-comparator - 交互式可视化工具对比分析大语言模型性能

GithubJSON格式LLM ComparatorPython库可视化工具开源项目模型评估

LLM Comparator是一个开源的交互式可视化工具,用于分析和比较大语言模型的评估结果。用户可上传自定义JSON文件或使用示例数据,通过多种可视化方式展示不同模型在各类任务中的表现差异。工具配套Python库可生成兼容JSON文件,支持自动模型评估和原理聚类。研究人员和开发者可借助此工具深入洞察不同模型的优劣,为大语言模型研究提供直观分析支持。

benchllm - 简化大语言模型和AI应用的连续集成与测试

BenchLLMGithubLLMPython开源开源项目测试

BenchLLM是一个开源Python库，用于简化大语言模型和AI应用的测试。它提供多种测试和评估方法，包括语义相似度和字符串匹配，并具有缓存功能。BenchLLM支持链、代理和各种LLM模型的测试，有助于消除不稳定因素，确保代码的可靠性。便捷的安装和使用方式使其适用于开发者进行自动化集成和模型评估。

mlflow - 机器学习生命周期管理的轻量级平台

GithubMLflow实验跟踪开源项目机器学习模型管理项目打包

MLflow 是一个轻量级平台，帮助简化机器学习的开发和部署过程。它支持实验跟踪、代码打包和模型部署，并且可以集成 TensorFlow、PyTorch 和 XGBoost 等库。主要组件包括 MLflow Tracking、MLflow Projects、MLflow Models 和 MLflow Model Registry，助力全面管理机器学习生命周期。

multilingual-MiniLMv2-L6-mnli-xnli - 轻量级多语言自然语言推理与分类模型

GithubHuggingfaceMiniLMv2多语言翻译开源项目机器学习模型自然语言推理零样本分类

MiniLMv2是一款支持100多种语言的自然语言推理模型，采用知识蒸馏技术从XLM-RoBERTa-large模型优化而来。经过XNLI和MNLI数据集的微调训练，该模型在XNLI测试集达到71.3%的平均准确率。相比原始模型，具备更低的资源消耗和更快的运行速度，适合跨语言迁移学习应用。

litgpt - 基于最新技术的多功能大型语言模型库

AI模型GithubLitGPT大规模部署开源项目微调热门预训练

LitGPT为开发者提供超过20种高性能的大型语言模型（LLMs），具备从头开始的实现、无抽象层和企业级的性能优化。适合于训练、微调和部署大规模应用，支持新手入门，简化企业级部署流程。提供全面的Python API文档和优化教程，使得部署AI模型更快速、更经济、更有效率。

lite-transformer - 现代高效的长短期注意力Transformer模型

GithubLite Transformer分布式训练开源项目数据预处理模型训练测试模型

Lite Transformer是一种结合长短期注意力机制的高效Transformer模型。它基于PyTorch开发，支持多种数据集的下载和预处理，能够在NVIDIA GPU上高效运行。模型在多个大型数据集上表现优异，并支持分布式训练和预训练模型下载。

相关项目

推荐项目

豆包MarsCode

豆包 MarsCode 是一款革命性的编程助手，通过AI技术提供代码补全、单测生成、代码解释和智能问答等功能，支持100+编程语言，与主流编辑器无缝集成，显著提升开发效率和代码质量。

AI写歌

Suno AI是一个革命性的AI音乐创作平台，能在短短30秒内帮助用户创作出一首完整的歌曲。无论是寻找创作灵感还是需要快速制作音乐，Suno AI都是音乐爱好者和专业人士的理想选择。

有言AI

有言平台提供一站式AIGC视频创作解决方案，通过智能技术简化视频制作流程。无论是企业宣传还是个人分享，有言都能帮助用户快速、轻松地制作出专业级别的视频内容。

Kimi

Kimi AI助手提供多语言对话支持，能够阅读和理解用户上传的文件内容，解析网页信息，并结合搜索结果为用户提供详尽的答案。无论是日常咨询还是专业问题，Kimi都能以友好、专业的方式提供帮助。

阿里绘蛙

绘蛙是阿里巴巴集团推出的革命性AI电商营销平台。利用尖端人工智能技术，为商家提供一键生成商品图和营销文案的服务，显著提升内容创作效率和营销效果。适用于淘宝、天猫等电商平台，让商品第一时间被种草。

吐司

探索Tensor.Art平台的独特AI模型，免费访问各种图像生成与AI训练工具，从Stable Diffusion等基础模型开始，轻松实现创新图像生成。体验前沿的AI技术，推动个人和企业的创新发展。

SubCat字幕猫

SubCat字幕猫APP是一款创新的视频播放器，它将改变您观看视频的方式！SubCat结合了先进的人工智能技术，为您提供即时视频字幕翻译，无论是本地视频还是网络流媒体，让您轻松享受各种语言的内容。

美间AI

美间AI创意设计平台，利用前沿AI技术，为设计师和营销人员提供一站式设计解决方案。从智能海报到3D效果图，再到文案生成，美间让创意设计更简单、更高效。

AIWritePaper论文写作

AIWritePaper论文写作是一站式AI论文写作辅助工具，简化了选题、文献检索至论文撰写的整个过程。通过简单设定，平台可快速生成高质量论文大纲和全文，配合图表、参考文献等一应俱全，同时提供开题报告和答辩PPT等增值服务，保障数据安全，有效提升写作效率和论文质量。

使用协议隐私政策广告服务

投诉举报邮箱: service@vectorlightyear.com