#评估方法

FreshLLMs: 利用搜索引擎增强刷新大型语言模型

2024年09月05日

FreshLLMs 大语言模型搜索引擎增强数据集评估方法 Github 开源项目

2024年09月05日

OmniEvent: 全面、统一和模块化的事件抽取工具包

2024年09月05日

OmniEvent 事件抽取模型训练评估方法数据处理 Github 开源项目

2024年09月05日

rliable：提高强化学习和机器学习基准评估的可靠性

2024年09月05日

rliable 强化学习评估方法置信区间性能分析 Github 开源项目

2024年09月05日

TransferAttackEval：重新审视可迁移对抗性图像的研究

2024年09月05日

对抗样本迁移攻击模型安全评估方法 ImageNet Github 开源项目

2024年09月05日

相关项目

nlg-eval

提供全面的自然语言生成（NLG）评估工具，包含BLEU、METEOR、ROUGE、CIDEr等多种无监督指标。文档涵盖安装、设置、验证及使用方法，并支持Python API和命令行使用方式，适用于多种操作系统。

n-levels-of-rag

本项目是一个全面的RAG应用开发指南,涵盖基础到高级的多个层次。内容包括核心概念讲解、高级技术介绍、可观察性实践、评估方法和性能优化策略等。适合各层次开发者学习,提供实用知识助力RAG应用开发。

TransferAttackEval

TransferAttackEval项目对转移攻击进行系统性评估，揭示现有评估方法的问题。项目引入完整攻击分类方法，公平分析攻击可转移性和隐蔽性，获得多项新发现。研究表明部分早期攻击方法优于后续方法，同时指出某些流行防御方法存在安全缺陷。该研究为转移攻击领域提供重要参考，推动相关研究进展。

OmniEvent

OmniEvent是一个开源事件抽取工具包，支持事件检测和事件论元抽取。它覆盖多种范式，如令牌分类、序列标注、机器阅读理解和序列到序列等，在英文和中文数据集上提供统一评估。采用模块化实现，具有可扩展性，支持大型模型训练和推理，易用性高，兼容Transformers库。

rliable

rliable是一个开源Python库，旨在提高强化学习和机器学习基准测试的评估可靠性。该库支持分层自举置信区间、性能曲线和聚合指标等功能，即使在数据有限的情况下也能得出可靠结论。rliable提供交互式Colab演示和多个主流基准测试数据，致力于克服现有评估方法的局限性，增强结果的可重复性和统计稳健性。

freshqa

FreshLLMs项目开发搜索引擎增强方法,提升大型语言模型性能。核心组件包括FreshQA问答数据集、FreshPrompt回答生成工具和FreshEval自动评估指标。FreshQA每周更新,保持数据时效性。FreshPrompt整合搜索结果生成回答。FreshEval提供客观评估标准。该项目为研究人员提供开放资源,助力提高语言模型的时效性和准确性,推动AI技术创新。

codegemma-7b-it

CodeGemma项目集合了7B和2B参数的开源代码模型，专注代码补全、生成及对话功能，尤其突出自然语言转代码的能力。codegemma-7b-it变体特别在指令生成方面展示了优异表现。借助FIM技术和依赖关系图打包技术，模型增强了与真实应用的契合度。此外，该项目注重伦理与安全，符合Google政策标准，适用于代码生成、学习和技术交流，兼容多种编程语言。

使用协议隐私政策广告服务

投诉举报邮箱: service@vectorlightyear.com