Logo

#数据质量

Logo of argilla
argilla
Argilla是一款为AI工程师和领域专家设计的数据集管理工具,旨在通过高效的数据管理和标注流程提升AI项目的数据质量和模型效果。Argilla支持文本分类、命名实体识别和多模态模型等多种AI项目的数据收集和反馈,帮助用户快速迭代和优化数据与模型。该工具提供开源社区支持,用户可以参与并共享开源数据集和模型。通过与Hugging Face Spaces的集成,用户可以轻松部署和使用Argilla,提高AI项目的整体效率和质量。
Logo of RedPajama-Data
RedPajama-Data
RedPajama-Data-v2是一个包含30万亿tokens的开放数据集,用于训练大型语言模型。该数据集涵盖了超过100B的文本文档,来源于84个CommonCrawl快照。它包含英语、德语、法语、意大利语和西班牙语5种语言的内容,并提供多种质量信号和去重处理。项目提供完整的数据处理流程,包括准备工件、计算质量信号和去重等步骤,为语言模型研究提供高质量的大规模语料资源。
Logo of Prolific
Prolific
Prolific作为专业的在线研究参与者招募平台,为学术研究、人工智能开发和市场调查等领域提供高质量数据。平台拥有超过20万名经过严格审核的活跃参与者,保证数据真实性和可靠性。支持灵活的项目设计,提供300多种筛选条件,通常在2小时内即可完成数据收集。Prolific凭借严谨和道德的方法,为全球研究人员和组织提供多样化的优质数据资源,赢得众多知名机构的信赖。
Logo of cleanvision
cleanvision
CleanVision是一个开源的图像数据集审核工具,能自动检测模糊、曝光不当和重复等常见问题。它为计算机视觉项目提供了数据预处理解决方案,支持多种图像格式,适用于分类、分割和对象检测等任务。开发者只需几行Python代码即可快速审核数据集,有助于提高机器学习模型的训练质量。
Logo of Evidently AI
Evidently AI
Evidently AI是一个开源的AI质量协作平台,旨在评估、测试和监控机器学习、LLM及通用AI应用。此平台帮助用户管理AI产品质量,维护模型性能,及时识别及应对数据偏移和异常。它支持文本、表格数据和嵌入式数据的监控,适用于各种规模的公司,提供直观的界面与丰富的可视化功能。
Logo of Prolific
Prolific
Prolific平台为研究项目提供可靠的在线参与者。20万多经过严格审核的用户保证数据质量和真实性。支持文本、图像、语音等多种研究形式,适用于学术、AI、产品开发和市场调查等领域。自助式操作简便,平均2小时内完成数据收集,并提供API支持自动化和扩展。Prolific致力于为全球研究提供高效、多样化的数据解决方案。
Logo of People For AI
People For AI
People For AI提供专业数据标注服务,专注于机器学习项目的训练数据集制作。公司擅长复杂图像和文本标注,采用内部长期雇佣的专业人员确保质量和安全。透明的项目管理和专家团队支持是其特色。通过高质量数据标注,People For AI旨在加速客户的AI项目部署进程。
Logo of applied-ml
applied-ml
通过精选的论文、文章和博客,学习企业如何实施数据科学与机器学习项目。了解不同公司对问题的定义、所采用的机器学习技术、背后的科学原理,以及所取得的商业成果,以便更好地评估投资回报。同时还包括最新的机器学习研究进展和实用指南。
Logo of Branded Research
Branded Research
这是一个利用AI技术确保数据质量的市场调研平台,提供独特的受众抽样和深入的消费者洞察。通过先进算法和多元化受众群体,平台支持产品开发、概念测试等研究,并提供API接口实现自动化访问。该平台致力于捕捉消费者态度和情感,为企业决策提供全面、智能的见解支持。平台拥有超过20万名研究参与者,覆盖100多个消费者细分市场和行业。其AI验证技术可以95%以上的准确率识别无效回复,确保数据质量。
Logo of data_management_LLM
data_management_LLM
该项目汇总了大型语言模型训练数据管理的相关资源。内容涵盖预训练和监督微调阶段,探讨领域组成、数据数量和质量等关键方面。项目还收录了数据去重、毒性过滤等技术,以及不同因素间的关系研究。这些资源为优化LLM训练数据管理提供了全面参考。
Logo of OpenMetadata
OpenMetadata
OpenMetadata是一个开源元数据管理平台,集成数据发现、观察和治理功能。它拥有中央元数据存储库、列级血缘分析和团队协作工具,支持75种以上数据源连接器。该平台致力于帮助组织充分利用数据资产,实现全面的元数据管理。
Logo of Innovatiana
Innovatiana
Innovatiana是一家位于马达加斯加的数据标注外包服务商,为人工智能项目提供高质量数据标注。公司注重员工福利,提供公平薪酬和良好工作环境。服务涵盖计算机视觉、自然语言处理、数据收集等领域,采用灵活定价和严格质量控制。Innovatiana通过创造就业机会和道德外包,在提供优质服务的同时实现积极社会影响。
Logo of data-centric-AI
data-centric-AI
Data-centric AI是一个新兴领域,注重通过改善数据质量和数量来提升AI系统性能。这个项目整理了Data-centric AI的全面资源,包含论文、代码和教程等。内容涵盖训练数据开发、推理数据开发和数据维护三大方面,为研究人员和开发者提供了深入了解和应用Data-centric AI概念与技术的宝贵参考。