#数据质量

argilla - AI数据集管理与优化工具

Argilla数据质量模型优化AI工程师数据集Github开源项目

Argilla是一款为AI工程师和领域专家设计的数据集管理工具，旨在通过高效的数据管理和标注流程提升AI项目的数据质量和模型效果。Argilla支持文本分类、命名实体识别和多模态模型等多种AI项目的数据收集和反馈，帮助用户快速迭代和优化数据与模型。该工具提供开源社区支持，用户可以参与并共享开源数据集和模型。通过与Hugging Face Spaces的集成，用户可以轻松部署和使用Argilla，提高AI项目的整体效率和质量。

Evidently AI - 开源AI监控与机器学习观测平台

热门AI开发模型训练AI工具Evidently AI模型监控数据质量机器学习数据偏移

Evidently AI是一个开源的AI质量协作平台，旨在评估、测试和监控机器学习、LLM及通用AI应用。此平台帮助用户管理AI产品质量，维护模型性能，及时识别及应对数据偏移和异常。它支持文本、表格数据和嵌入式数据的监控，适用于各种规模的公司，提供直观的界面与丰富的可视化功能。

applied-ml - 精选数据科学与机器学习应用案例研究和博客

机器学习数据工程特征存储推荐系统数据质量Github开源项目

通过精选的论文、文章和博客，学习企业如何实施数据科学与机器学习项目。了解不同公司对问题的定义、所采用的机器学习技术、背后的科学原理，以及所取得的商业成果，以便更好地评估投资回报。同时还包括最新的机器学习研究进展和实用指南。

OpenMetadata - 开源统一元数据平台促进数据发现观察与治理

OpenMetadata元数据管理数据治理数据发现数据质量Github开源项目

OpenMetadata是一个开源元数据管理平台，集成数据发现、观察和治理功能。它拥有中央元数据存储库、列级血缘分析和团队协作工具，支持75种以上数据源连接器。该平台致力于帮助组织充分利用数据资产，实现全面的元数据管理。

RedPajama-Data - 开放大规模多语言数据集助力大型语言模型训练

RedPajama-Data-v2大语言模型开放数据集自然语言处理数据质量Github开源项目

RedPajama-Data-v2是一个包含30万亿tokens的开放数据集，用于训练大型语言模型。该数据集涵盖了超过100B的文本文档，来源于84个CommonCrawl快照。它包含英语、德语、法语、意大利语和西班牙语5种语言的内容，并提供多种质量信号和去重处理。项目提供完整的数据处理流程，包括准备工件、计算质量信号和去重等步骤，为语言模型研究提供高质量的大规模语料资源。

Prolific - 高效获取优质研究数据的在线参与者平台

AI工具人工智能数据质量研究参与者在线调查学术研究

Prolific平台为研究项目提供可靠的在线参与者。20万多经过严格审核的用户保证数据质量和真实性。支持文本、图像、语音等多种研究形式，适用于学术、AI、产品开发和市场调查等领域。自助式操作简便，平均2小时内完成数据收集，并提供API支持自动化和扩展。Prolific致力于为全球研究提供高效、多样化的数据解决方案。

Branded Research - 智能市场调研平台提供精准消费者洞察

AI工具市场研究数据质量受众洞察API访问AI技术

这是一个利用AI技术确保数据质量的市场调研平台，提供独特的受众抽样和深入的消费者洞察。通过先进算法和多元化受众群体，平台支持产品开发、概念测试等研究，并提供API接口实现自动化访问。该平台致力于捕捉消费者态度和情感，为企业决策提供全面、智能的见解支持。平台拥有超过20万名研究参与者，覆盖100多个消费者细分市场和行业。其AI验证技术可以95%以上的准确率识别无效回复，确保数据质量。

Innovatiana - 马达加斯加数据标注外包服务商致力于社会影响力

AI工具数据标注人工智能外包服务道德外包数据质量

Innovatiana是一家位于马达加斯加的数据标注外包服务商,为人工智能项目提供高质量数据标注。公司注重员工福利,提供公平薪酬和良好工作环境。服务涵盖计算机视觉、自然语言处理、数据收集等领域,采用灵活定价和严格质量控制。Innovatiana通过创造就业机会和道德外包,在提供优质服务的同时实现积极社会影响。

Prolific - 专业的在线研究参与者招募和数据采集平台

AI工具人群数据研究参与者数据质量学术研究AI训练

Prolific作为专业的在线研究参与者招募平台，为学术研究、人工智能开发和市场调查等领域提供高质量数据。平台拥有超过20万名经过严格审核的活跃参与者，保证数据真实性和可靠性。支持灵活的项目设计，提供300多种筛选条件，通常在2小时内即可完成数据收集。Prolific凭借严谨和道德的方法，为全球研究人员和组织提供多样化的优质数据资源，赢得众多知名机构的信赖。

People For AI - 专业数据标注服务为机器学习项目提供训练数据集

AI工具数据标注AI项目机器学习图像标注数据质量

People For AI提供专业数据标注服务，专注于机器学习项目的训练数据集制作。公司擅长复杂图像和文本标注，采用内部长期雇佣的专业人员确保质量和安全。透明的项目管理和专家团队支持是其特色。通过高质量数据标注，People For AI旨在加速客户的AI项目部署进程。

data_management_LLM - 大型语言模型训练数据管理资源汇总

大语言模型训练数据管理预训练监督微调数据质量Github开源项目

该项目汇总了大型语言模型训练数据管理的相关资源。内容涵盖预训练和监督微调阶段，探讨领域组成、数据数量和质量等关键方面。项目还收录了数据去重、毒性过滤等技术，以及不同因素间的关系研究。这些资源为优化LLM训练数据管理提供了全面参考。

data-centric-AI - 数据工程革新人工智能的新兴领域

Data-centric AI机器学习数据工程AI系统数据质量Github开源项目

Data-centric AI是一个新兴领域，注重通过改善数据质量和数量来提升AI系统性能。这个项目整理了Data-centric AI的全面资源，包含论文、代码和教程等。内容涵盖训练数据开发、推理数据开发和数据维护三大方面，为研究人员和开发者提供了深入了解和应用Data-centric AI概念与技术的宝贵参考。

cleanvision - 图像数据集问题自动检测工具，提升计算机视觉项目质量

CleanVision图像数据集数据问题检测计算机视觉数据质量Github开源项目

CleanVision是一个开源的图像数据集审核工具，能自动检测模糊、曝光不当和重复等常见问题。它为计算机视觉项目提供了数据预处理解决方案，支持多种图像格式，适用于分类、分割和对象检测等任务。开发者只需几行Python代码即可快速审核数据集，有助于提高机器学习模型的训练质量。

elementary - 基于dbt的数据可观测性工具提供实时洞察和问题检测

Elementary数据可观察性dbt数据质量数据监控Github开源项目

Elementary是一个基于dbt的数据可观测性工具，专注于数据和分析工程领域。该工具能快速部署，实现数据问题的即时检测和警报。它提供开源版和托管版两种选择，具备异常检测、自动监控和数据谱系等核心功能，有助于全面管理数据质量和理解数据问题的根源。

相关文章

Article Cover

Argilla: 打造高质量AI数据集的协作工具

Article Cover

Argilla: 人工智能工程师和领域专家的数据集协作工具

Article Cover

应用机器学习:从理论到实践的探索之旅

Article Cover

RedPajama-Data-v2: 一个包含30万亿个令牌的开放数据集,用于训练大型语言模型

Article Cover

大型语言模型的数据管理:提升AI性能的关键

Article Cover

数据中心AI:新兴的人工智能范式

Article Cover

CleanVision: 开源图像数据集审核工具助力数据中心化计算机视觉

Article Cover

applied-ml学习资源汇总 - 大型科技公司机器学习实践分享

使用协议隐私政策广告服务

投诉举报邮箱: service@vectorlightyear.com

@2024 懂AI·鲁ICP备2024100362号-6·鲁公网安备37021002001498号