#大规模

STaRK学习资料汇总 - 大规模半结构化检索基准

2024年09月10日
Cover of STaRK学习资料汇总 - 大规模半结构化检索基准

DataTrove: 大规模文本数据处理利器

2024年09月05日
Cover of DataTrove: 大规模文本数据处理利器

STaRK: 在文本和关系型知识库上评估大语言模型检索能力的基准

2024年08月31日
Cover of STaRK: 在文本和关系型知识库上评估大语言模型检索能力的基准
相关项目
Project Cover

stark

STaRK提供一个大规模的半结构化检索基准,涵盖产品搜索、学术论文检索和生物医学查询,旨在评估和提升LLM在文本与关系型知识库中的检索效果。该基准含有多样化和现实的查询,要求上下文相关推理,为未来研究提供有力支持。STaRK已在Hugging Face平台发布,并可以通过pip包直接加载,支持用户互动查询的探索性界面。更多详情请访问官方网站。

Project Cover

datatrove

DataTrove是一个开源Python库,专门用于处理、过滤和去重大规模文本数据。它提供预构建的常用处理模块和自定义功能支持。该库的处理流程可在本地或Slurm集群上运行,具有低内存消耗和多步骤设计,适合处理大型语言模型训练数据等大规模工作负载。DataTrove支持多种文件系统,为数据处理提供灵活解决方案。

Project Cover

MedTrinity-25M

MedTrinity-25M是一个大规模医学多模态数据集,包含2500万条多粒度标注。该数据集整合了医学图像和文本信息,采用创新处理流程和先进语言模型生成精细描述。它显著提升了医学视觉问答性能,为医疗AI发展提供重要资源。项目还开源了相关模型和代码,推动医学AI领域的开放协作。

Project Cover

bloom-560m

Bloom-560m是BigScience开发的多语言开源语言模型,支持45种自然语言和12种编程语言。该模型拥有5.6亿参数,采用改进的Megatron-LM GPT2架构,可用于文本生成、信息提取、问答等任务。Bloom-560m使用Jean Zay超级计算机训练,旨在推动语言模型研究。项目遵循RAIL许可证,限制高风险使用,强调负责任AI开发。

投诉举报邮箱: service@vectorlightyear.com
@2024 懂AI·鲁ICP备2024100362号-6·鲁公网安备37021002001498号