#评估方法

FreshLLMs: 利用搜索引擎增强刷新大型语言模型

2024年09月05日
Cover of FreshLLMs: 利用搜索引擎增强刷新大型语言模型

OmniEvent: 全面、统一和模块化的事件抽取工具包

2024年09月05日
Cover of OmniEvent: 全面、统一和模块化的事件抽取工具包

rliable:提高强化学习和机器学习基准评估的可靠性

2024年09月05日
Cover of rliable:提高强化学习和机器学习基准评估的可靠性

TransferAttackEval:重新审视可迁移对抗性图像的研究

2024年09月05日
Cover of TransferAttackEval:重新审视可迁移对抗性图像的研究
相关项目
Project Cover

nlg-eval

提供全面的自然语言生成(NLG)评估工具,包含BLEU、METEOR、ROUGE、CIDEr等多种无监督指标。文档涵盖安装、设置、验证及使用方法,并支持Python API和命令行使用方式,适用于多种操作系统。

Project Cover

n-levels-of-rag

本项目是一个全面的RAG应用开发指南,涵盖基础到高级的多个层次。内容包括核心概念讲解、高级技术介绍、可观察性实践、评估方法和性能优化策略等。适合各层次开发者学习,提供实用知识助力RAG应用开发。

Project Cover

TransferAttackEval

TransferAttackEval项目对转移攻击进行系统性评估,揭示现有评估方法的问题。项目引入完整攻击分类方法,公平分析攻击可转移性和隐蔽性,获得多项新发现。研究表明部分早期攻击方法优于后续方法,同时指出某些流行防御方法存在安全缺陷。该研究为转移攻击领域提供重要参考,推动相关研究进展。

Project Cover

OmniEvent

OmniEvent是一个开源事件抽取工具包,支持事件检测和事件论元抽取。它覆盖多种范式,如令牌分类、序列标注、机器阅读理解和序列到序列等,在英文和中文数据集上提供统一评估。采用模块化实现,具有可扩展性,支持大型模型训练和推理,易用性高,兼容Transformers库。

Project Cover

rliable

rliable是一个开源Python库,旨在提高强化学习和机器学习基准测试的评估可靠性。该库支持分层自举置信区间、性能曲线和聚合指标等功能,即使在数据有限的情况下也能得出可靠结论。rliable提供交互式Colab演示和多个主流基准测试数据,致力于克服现有评估方法的局限性,增强结果的可重复性和统计稳健性。

Project Cover

freshqa

FreshLLMs项目开发搜索引擎增强方法,提升大型语言模型性能。核心组件包括FreshQA问答数据集、FreshPrompt回答生成工具和FreshEval自动评估指标。FreshQA每周更新,保持数据时效性。FreshPrompt整合搜索结果生成回答。FreshEval提供客观评估标准。该项目为研究人员提供开放资源,助力提高语言模型的时效性和准确性,推动AI技术创新。

Project Cover

codegemma-7b-it

CodeGemma项目集合了7B和2B参数的开源代码模型,专注代码补全、生成及对话功能,尤其突出自然语言转代码的能力。codegemma-7b-it变体特别在指令生成方面展示了优异表现。借助FIM技术和依赖关系图打包技术,模型增强了与真实应用的契合度。此外,该项目注重伦理与安全,符合Google政策标准,适用于代码生成、学习和技术交流,兼容多种编程语言。

投诉举报邮箱: service@vectorlightyear.com
@2024 懂AI·鲁ICP备2024100362号-6·鲁公网安备37021002001498号