#大规模

STaRK学习资料汇总 - 大规模半结构化检索基准

2024年09月10日

STaRK 知识基查询数据集检索系统大规模 Github 开源项目

2024年09月10日

DataTrove: 大规模文本数据处理利器

2024年09月05日

DataTrove 数据处理大规模管道文本去重 Github 开源项目

2024年09月05日

STaRK: 在文本和关系型知识库上评估大语言模型检索能力的基准

2024年08月31日

STaRK 知识基查询数据集检索系统大规模 Github 开源项目

2024年08月31日

相关项目

stark

STaRK提供一个大规模的半结构化检索基准，涵盖产品搜索、学术论文检索和生物医学查询，旨在评估和提升LLM在文本与关系型知识库中的检索效果。该基准含有多样化和现实的查询，要求上下文相关推理，为未来研究提供有力支持。STaRK已在Hugging Face平台发布，并可以通过pip包直接加载，支持用户互动查询的探索性界面。更多详情请访问官方网站。

datatrove

DataTrove是一个开源Python库，专门用于处理、过滤和去重大规模文本数据。它提供预构建的常用处理模块和自定义功能支持。该库的处理流程可在本地或Slurm集群上运行，具有低内存消耗和多步骤设计，适合处理大型语言模型训练数据等大规模工作负载。DataTrove支持多种文件系统，为数据处理提供灵活解决方案。

MedTrinity-25M

MedTrinity-25M是一个大规模医学多模态数据集，包含2500万条多粒度标注。该数据集整合了医学图像和文本信息，采用创新处理流程和先进语言模型生成精细描述。它显著提升了医学视觉问答性能，为医疗AI发展提供重要资源。项目还开源了相关模型和代码，推动医学AI领域的开放协作。

bloom-560m

Bloom-560m是BigScience开发的多语言开源语言模型,支持45种自然语言和12种编程语言。该模型拥有5.6亿参数,采用改进的Megatron-LM GPT2架构,可用于文本生成、信息提取、问答等任务。Bloom-560m使用Jean Zay超级计算机训练,旨在推动语言模型研究。项目遵循RAIL许可证,限制高风险使用,强调负责任AI开发。

使用协议隐私政策广告服务

投诉举报邮箱: service@vectorlightyear.com