#数据质量

argilla - AI数据集管理与优化工具
Argilla数据质量模型优化AI工程师数据集Github开源项目
Argilla是一款为AI工程师和领域专家设计的数据集管理工具,旨在通过高效的数据管理和标注流程提升AI项目的数据质量和模型效果。Argilla支持文本分类、命名实体识别和多模态模型等多种AI项目的数据收集和反馈,帮助用户快速迭代和优化数据与模型。该工具提供开源社区支持,用户可以参与并共享开源数据集和模型。通过与Hugging Face Spaces的集成,用户可以轻松部署和使用Argilla,提高AI项目的整体效率和质量。
Evidently AI - 开源AI监控与机器学习观测平台
热门AI开发模型训练AI工具Evidently AI模型监控数据质量机器学习数据偏移
Evidently AI是一个开源的AI质量协作平台,旨在评估、测试和监控机器学习、LLM及通用AI应用。此平台帮助用户管理AI产品质量,维护模型性能,及时识别及应对数据偏移和异常。它支持文本、表格数据和嵌入式数据的监控,适用于各种规模的公司,提供直观的界面与丰富的可视化功能。
applied-ml - 精选数据科学与机器学习应用案例研究和博客
机器学习数据工程特征存储推荐系统数据质量Github开源项目
通过精选的论文、文章和博客,学习企业如何实施数据科学与机器学习项目。了解不同公司对问题的定义、所采用的机器学习技术、背后的科学原理,以及所取得的商业成果,以便更好地评估投资回报。同时还包括最新的机器学习研究进展和实用指南。
OpenMetadata - 开源统一元数据平台 促进数据发现观察与治理
OpenMetadata元数据管理数据治理数据发现数据质量Github开源项目
OpenMetadata是一个开源元数据管理平台,集成数据发现、观察和治理功能。它拥有中央元数据存储库、列级血缘分析和团队协作工具,支持75种以上数据源连接器。该平台致力于帮助组织充分利用数据资产,实现全面的元数据管理。
RedPajama-Data - 开放大规模多语言数据集助力大型语言模型训练
RedPajama-Data-v2大语言模型开放数据集自然语言处理数据质量Github开源项目
RedPajama-Data-v2是一个包含30万亿tokens的开放数据集,用于训练大型语言模型。该数据集涵盖了超过100B的文本文档,来源于84个CommonCrawl快照。它包含英语、德语、法语、意大利语和西班牙语5种语言的内容,并提供多种质量信号和去重处理。项目提供完整的数据处理流程,包括准备工件、计算质量信号和去重等步骤,为语言模型研究提供高质量的大规模语料资源。
Prolific - 高效获取优质研究数据的在线参与者平台
AI工具人工智能数据质量研究参与者在线调查学术研究
Prolific平台为研究项目提供可靠的在线参与者。20万多经过严格审核的用户保证数据质量和真实性。支持文本、图像、语音等多种研究形式,适用于学术、AI、产品开发和市场调查等领域。自助式操作简便,平均2小时内完成数据收集,并提供API支持自动化和扩展。Prolific致力于为全球研究提供高效、多样化的数据解决方案。
Branded Research - 智能市场调研平台提供精准消费者洞察
AI工具市场研究数据质量受众洞察API访问AI技术
这是一个利用AI技术确保数据质量的市场调研平台,提供独特的受众抽样和深入的消费者洞察。通过先进算法和多元化受众群体,平台支持产品开发、概念测试等研究,并提供API接口实现自动化访问。该平台致力于捕捉消费者态度和情感,为企业决策提供全面、智能的见解支持。平台拥有超过20万名研究参与者,覆盖100多个消费者细分市场和行业。其AI验证技术可以95%以上的准确率识别无效回复,确保数据质量。
Innovatiana - 马达加斯加数据标注外包服务商致力于社会影响力
AI工具数据标注人工智能外包服务道德外包数据质量
Innovatiana是一家位于马达加斯加的数据标注外包服务商,为人工智能项目提供高质量数据标注。公司注重员工福利,提供公平薪酬和良好工作环境。服务涵盖计算机视觉、自然语言处理、数据收集等领域,采用灵活定价和严格质量控制。Innovatiana通过创造就业机会和道德外包,在提供优质服务的同时实现积极社会影响。
Prolific - 专业的在线研究参与者招募和数据采集平台
AI工具人群数据研究参与者数据质量学术研究AI训练
Prolific作为专业的在线研究参与者招募平台,为学术研究、人工智能开发和市场调查等领域提供高质量数据。平台拥有超过20万名经过严格审核的活跃参与者,保证数据真实性和可靠性。支持灵活的项目设计,提供300多种筛选条件,通常在2小时内即可完成数据收集。Prolific凭借严谨和道德的方法,为全球研究人员和组织提供多样化的优质数据资源,赢得众多知名机构的信赖。
People For AI - 专业数据标注服务 为机器学习项目提供训练数据集
AI工具数据标注AI项目机器学习图像标注数据质量
People For AI提供专业数据标注服务,专注于机器学习项目的训练数据集制作。公司擅长复杂图像和文本标注,采用内部长期雇佣的专业人员确保质量和安全。透明的项目管理和专家团队支持是其特色。通过高质量数据标注,People For AI旨在加速客户的AI项目部署进程。
data_management_LLM - 大型语言模型训练数据管理资源汇总
大语言模型训练数据管理预训练监督微调数据质量Github开源项目
该项目汇总了大型语言模型训练数据管理的相关资源。内容涵盖预训练和监督微调阶段,探讨领域组成、数据数量和质量等关键方面。项目还收录了数据去重、毒性过滤等技术,以及不同因素间的关系研究。这些资源为优化LLM训练数据管理提供了全面参考。
data-centric-AI - 数据工程革新人工智能的新兴领域
Data-centric AI机器学习数据工程AI系统数据质量Github开源项目
Data-centric AI是一个新兴领域,注重通过改善数据质量和数量来提升AI系统性能。这个项目整理了Data-centric AI的全面资源,包含论文、代码和教程等。内容涵盖训练数据开发、推理数据开发和数据维护三大方面,为研究人员和开发者提供了深入了解和应用Data-centric AI概念与技术的宝贵参考。
cleanvision - 图像数据集问题自动检测工具,提升计算机视觉项目质量
CleanVision图像数据集数据问题检测计算机视觉数据质量Github开源项目
CleanVision是一个开源的图像数据集审核工具,能自动检测模糊、曝光不当和重复等常见问题。它为计算机视觉项目提供了数据预处理解决方案,支持多种图像格式,适用于分类、分割和对象检测等任务。开发者只需几行Python代码即可快速审核数据集,有助于提高机器学习模型的训练质量。
elementary - 基于dbt的数据可观测性工具 提供实时洞察和问题检测
Elementary数据可观察性dbt数据质量数据监控Github开源项目
Elementary是一个基于dbt的数据可观测性工具,专注于数据和分析工程领域。该工具能快速部署,实现数据问题的即时检测和警报。它提供开源版和托管版两种选择,具备异常检测、自动监控和数据谱系等核心功能,有助于全面管理数据质量和理解数据问题的根源。