#数据集
panoptic-toolbox - PanopticStudio多视角动作捕捉数据处理工具箱
PanopticStudio3D关键点数据集骨骼提取多视角系统Github开源项目
PanopticStudio Toolbox是一款用于处理多视角人体动作捕捉数据的开源工具箱。它提供了下载、提取和可视化Panoptic Studio数据的功能,包括高清视频和3D关键点数据。该工具箱支持Python和Matlab,可实现3D关键点可视化和图像重投影。此外,它还包含KinopticStudio子系统工具和haggling数据集处理功能。
Calliar - 阿拉伯书法在线手写数据集助力数字化研究
Calliar阿拉伯书法数据集在线手写机器学习Github开源项目
Calliar是一个阿拉伯书法在线手写数据集,包含2500个JSON文件的手动注释笔划数据。数据集分为2000个训练样本、250个验证样本和250个测试样本,支持多层级预测。Calliar提供可视化工具和注释服务器,为阿拉伯书法的数字化研究提供了重要资源。
kitti360LabelTool - KITTI-360数据集标注工具
KITTI-360标注工具数据集计算机视觉WebGLGithub开源项目
KITTI-360 Annotation Tool是一个开源的Web应用框架,用于标注KITTI-360数据集。该工具基于Python和JavaScript开发,结合cherrypy和WebGL技术,提供了直观的用户界面。它支持多用户协作、任务分配和权限管理,有助于提高标注效率和准确性。研究人员可以使用此工具查看、编辑和提交标注结果,为城市场景理解研究提供数据支持。
OCR_DataSet - 综合OCR数据集资源库及工具集
文字识别数据集图像标注深度学习计算机视觉Github开源项目
OCR_DataSet项目整合了13个知名的多语言OCR数据集,涵盖ICDAR2015、MLT2019和COCO-Text_v2等。项目特色包括数据格式统一化、便捷的百度网盘下载、详尽的数据集信息表和简化的读取脚本。此外,项目还提供了数据生成工具链接,为OCR领域的研究和开发工作提供了全面的资源支持。
babilong - BABILong基准测试长文本处理能力 评估大语言模型极限
BABILong长文本处理语言模型评估推理能力数据集Github开源项目
BABILong是一个用于评估自然语言处理模型长文本处理能力的基准测试。它将bAbI数据集的任务句子隐藏在PG19背景文本中,生成长达数百万标记的测试样本。该基准包含20个推理任务,涉及事实链接、归纳、演绎和计数等多个方面。BABILong为评估和改进大语言模型的长文本处理能力提供了有效工具,同时也对现有长文本模型提出了挑战。
datacomp - 多模态预训练数据集构建的创新竞赛
DataCompCLIP模型数据集图像文本对机器学习Github开源项目
DataComp是一项聚焦于多模态预训练数据集设计的竞赛。参赛者需从海量未筛选的图像-文本对中构建高质量数据集,以提升CLIP模型在下游任务的表现。竞赛设有两个赛道和四个规模,适应不同计算资源需求。项目提供完整工具包,涵盖数据获取、模型训练和评估等环节,支持参与者进行数据集创新。
hh-rlhf - AI助手有用性和安全性的人类偏好数据以及人工生成的红队测试数据
人工智能数据集红队测试AI助手人类反馈Github开源项目
hh-rlhf项目开源两类数据集:AI助手有用性和安全性的人类偏好数据,以及人工生成的红队测试数据。这些数据集旨在改进AI助手的性能和安全性。数据包含敏感话题,仅供研究使用。项目提供数据格式说明和使用指南,支持AI安全研究。
Awesome-Talking-Head-Synthesis - 最新音频驱动和神经辐射场技术在数字人头像生成中的应用
Talking Head Synthesis3DNeRF音频驱动数据集Github开源项目
这个项目收集了生成对抗网络(GANs)和神经辐射场(NeRF)在说话头合成领域的相关研究。内容包括图像和音频驱动的说话头生成技术、数据集、研究综述和代表性工作。从2D到3D、单模态到多模态,项目全面展示了说话头生成的技术发展,为相关研究提供参考资料。
awesome-test-time-adaptation - 测试时适应技术资源汇总与研究概览
Test-Time Adaptation分布偏移数据集域适应机器学习Github开源项目
项目汇总了测试时适应技术的研究资源,包括域适应、批次适应、实例适应、在线适应和先验适应。内容涵盖问题概述、分类整理、数据集信息和文献引用。这些资料有助于研究人员和开发者了解该领域的最新进展。
Mind2Web - AI通用网页交互代理
Mind2Web网页代理数据集AI模型网页交互Github开源项目
Mind2Web是一个开创性的AI项目,旨在开发能在任何网站上执行复杂任务的通用网页交互代理。该项目构建了包含2,000多个开放式任务的数据集,覆盖137个网站和31个领域。Mind2Web的特点是任务多样性、真实网站环境和广泛的用户交互模式,为AI在网络环境中的应用提供了坚实基础。
arco-era5 - 云优化和分析就绪的气象再分析数据
ERA5气候数据云优化分析就绪数据集Github开源项目
ARCO-ERA5项目对ERA5气象再分析数据进行云端优化和分析就绪处理。项目将GRIB格式转换为Zarr格式,并生成规则经纬度网格的版本,便于研究和机器学习应用。数据集涵盖地表和大气层关键气象变量,每月更新,提供全球高分辨率数据。用户可选择原始、云优化或分析就绪版本,满足不同需求。
LogicKor - 韩语语言模型多领域推理能力评估工具
LogicKor韩语语言模型思考力基准测试推理评估数据集Github开源项目
LogicKor是一个开源的韩语语言模型多领域推理能力评估基准。它提供推理和评估代码以及数据集,支持使用OpenAI或Azure模型进行评估。研究人员可以利用LogicKor生成推理结果并查看评分。该项目鼓励社区贡献,接受自我报告的基准测试结果,为韩语自然语言处理研究提供重要参考。
awesome-ml-for-cybersecurity - 网络安全机器学习资源综合指南
机器学习网络安全数据集恶意软件检测入侵检测Github开源项目
该项目汇集了机器学习在网络安全领域应用的关键资源,包括数据集、论文、书籍、演讲等。内容全面涵盖理论与实践,为研究人员和从业者提供了解和应用机器学习解决网络安全问题的参考指南。
sfm-disambiguation-colmap - 改进结构运动恢复算法 应对场景对称性和重复结构
SfMCOLMAP图像匹配3D重建数据集Github开源项目
该项目实现并集成了多种先进算法到COLMAP中,以解决结构运动恢复中场景对称性和重复结构的问题。它重新实现了Yan、Cui和Kataria等人提出的方法。通过广泛实验分析发现,没有一种方法能在所有数据集上表现一致,大规模场景的参数调整仍具挑战性。该研究为进一步探索这一问题奠定了基础。
chat-dataset-baseline - 中文对话模型训练资源整合平台
中文对话模型AI训练数据集LLaMA-Factory模型优化Github开源项目
chat-dataset-baseline项目整合Hugging Face平台优质数据集,为中文对话模型训练提供全面资源。采用PDCA循环迭代,涵盖数据选择、模型训练、测试和优化。项目提供详细指南,适合数据科学家和AI爱好者快速上手,用于训练高质量中文基础模型,为特定行业应用打下基础。
llm-datasets - LLM微调优质数据集与工具资源库
LLM数据集微调指令跟随对话Github开源项目
LLM Datasets项目汇集了大语言模型微调所需的优质数据集、实用工具和核心概念。涵盖通用、数学逻辑、编程和对话等多个领域,项目详细阐述了高质量数据集的特征。为研究人员和开发者提供多样化的LLM微调数据资源,旨在促进模型性能提升。
TabularBenchmarks - 机器学习算法在表格数据上的性能评估基准
表格数据机器学习性能评估数据集算法Github开源项目
TabularBenchmarks是一个开源项目,提供多种数据集和评估脚本,用于测试机器学习算法在表格数据上的性能。项目将数据集存放在input文件夹,算法实现则位于scripts文件夹。这些资源使研究人员能够客观比较不同算法处理表格数据的效果,有助于为特定任务选择合适的算法。
Panda-70M - 开创性大规模视频描述数据集融合多重跨模态技术
Panda-70M视频描述数据集计算机视觉深度学习Github开源项目
Panda-70M是一个包含7000万个高质量视频-描述对的大规模数据集,采用多重跨模态技术构建。项目提供数据集加载下载工具、长视频语义分割和视频描述模型。该数据集为计算机视觉和自然语言处理研究提供丰富资源,有助于推进视频理解和描述技术的发展。
HD-VG-130M - 大规模文本-视频对数据集助力AI视频生成研究
HD-VG-130M数据集文本到视频生成学术研究高清无水印Github开源项目
HD-VG-130M是一个包含1.3亿对高清、宽屏、无水印的开放域文本-视频对的大规模数据集。专为AI视频生成研究设计,即将推出经过文本、动作和美学筛选的4000万高质量子集。目前已被50多家学术机构使用,仅限学术研究用途。研究者可通过Google Drive获取数据,并须遵守相关许可协议。
ARC-AGI - 抽象推理基准测试 评估通用人工智能
ARC-AGI人工智能数据集测试界面任务解决Github开源项目
ARC-AGI是一个评估人工通用智能抽象推理能力的基准测试项目。它提供800个任务,分为训练和评估两部分,每个任务包含输入/输出网格对。测试者需分析示例并推断正确的输出网格。项目配备浏览器界面,方便人类尝试解决任务。ARC-AGI不仅衡量AI系统,也适用于评估人类的通用流体智力,为AGI研究提供了重要参考。
bagel - 综合数据源与多样化技术的大语言模型训练框架
Bagel数据集微调关键词选择DPOGithub开源项目
Bagel是一个综合性大语言模型训练框架,融合多种数据源和先进技术。该项目利用多样化数据集进行监督微调(SFT)和直接偏好优化(DPO),包括指令、对话和纯文本数据。Bagel采用vicuna、llama-2、alpaca和chat-ml等多种提示格式,旨在提升模型泛化能力。通过SFT和DPO两阶段训练,Bagel致力于打造功能完善、性能优异的语言模型。
GPTeacher - GPT-4生成的多模块AI训练数据集
GPTeacher数据集AI模型指令生成微调Github开源项目
GPTeacher项目提供由GPT-4生成的多模块数据集,包含通用指令、角色扮演、代码生成和工具使用等内容。数据集涵盖思维链推理、逻辑谜题和文字游戏等多样化任务,采用Alpaca格式便于模型微调。最新的角色扮演V2数据集规模更大,内容更丰富,包含模拟对话历史。这些数据集为AI模型训练提供了丰富的资源。
open_x_embodiment - 统一格式机器人数据集和RT-X模型
Open X-Embodiment机器人学习数据集RT-X模型深度学习Github开源项目
Open X-Embodiment项目整合多个开源机器人数据集,采用统一RLDS格式。它提供RT-1-X模型检查点,支持RGB图像输入和7维机械臂动作输出。项目包含数据集可视化和模型推理Colab示例,以及详细使用指南。这一开放资源促进机器人学习研究,简化数据处理和模型应用流程。
Defined.ai - 专业AI训练数据市场平台 提供多领域高质量数据集
AI工具AI数据Defined.ai人工智能数据集道德AI
Defined.ai作为专业AI训练数据市场平台,提供涵盖语音、自然语言处理、医疗图像等多领域的高质量数据集。平台支持数据定制服务,并由专家团队把控质量。Defined.ai注重数据伦理,在收集和处理过程中保持透明度,保护客户和贡献者隐私,致力推动负责任的AI发展。
Grably - 多样化特定数据集助力AI训练
AI工具AI数据数据集机器学习数据多样性Grably
Grably专注提供多样化特定数据集,满足AI和机器学习需求。平台直接从数据所有者处获取图像、对话文本、电子邮件和视频剪辑等资源,解决AI开发者和研究人员的数据不足问题。Grably提供即时访问、透明使用权限和独特数据优势,推动AI技术进步。此外,平台为数据所有者创造了内容变现机会。
TLM Playground - 可信赖语言模型的在线交互式体验平台
AI工具Cleanlab语言模型数据集APITLM
TLM Playground是一个在线交互式平台,展示了Cleanlab的可信赖语言模型(Trustworthy Language Model, TLM)技术。平台提供简洁界面,支持单次提示响应和整个数据集的模型运行。网站集成了学习资源、即时体验和API文档链接,便于用户深入了解TLM技术。这个开放的实验环境让开发者和研究者能够探索TLM的潜力和应用场景。
ChattyDocs - AI驱动的文档对话工具 提升信息处理效率
AI工具AI助手文档对话数据集聊天模型多平台
ChattyDocs是一款AI驱动的文档对话工具,支持PDF、文本和网页数据处理。用户可创建自定义数据集,选择AI模型,并调整对话参数。多平台访问功能包括桌面、移动端和Telegram。该工具旨在帮助用户高效探索、分析和理解大量文档信息,适用于研究、分析等多种场景,提高信息处理效率。
Image In Words - 先进AI技术生成超详细图像文本描述
AI工具Image In Words图像描述视觉语言模型AI识别数据集
Image In Words是一款专业的图像识别工具,能够生成超详细的图像文本描述。这个在线工具采用先进的AI技术,为各种复杂场景提供准确、全面的图像解析。它不仅适用于大型语言模型的识别任务,还在提高视障用户可访问性和改进图像搜索等实际应用中表现出色。Image In Words的主要特点包括生成超详细描述、提升模型性能、减少虚构内容、增强可读性和视觉语言推理能力。该工具目前支持英语,并在多项测试中展现出优秀的质量和自然度。
multiwoz - 大规模多领域任务型对话数据集
MultiWOZ任务型对话数据集对话状态追踪对话生成Github开源项目
MultiWOZ是一个包含10,000多个人类对话的全标注多领域任务型对话数据集。它涵盖多个领域和主题,规模超过以往任务型语料库。该数据集为对话状态追踪、响应生成等任务提供基准测试,并通过版本更新持续提高数据质量。MultiWOZ为对话系统研究提供了重要资源,促进了该领域的发展。
tweetnlp - 社交媒体文本分析的全能NLP工具集
TweetNLP自然语言处理社交媒体模型数据集Github开源项目
TweetNLP是一个专注于社交媒体分析的Python库,为Twitter等平台提供全面的文本分析功能。该库集成了多项先进的自然语言处理技术,包括情感分析、表情预测、命名实体识别等。TweetNLP还支持主题分类、讽刺检测、仇恨言论识别和情感识别等多种任务,为社交媒体研究和应用开发提供了强大而灵活的工具集。
awesome-persian-nlp-ir - 波斯语NLP和IR资源汇总
波斯语NLP数据集模型工具资源Github开源项目
这是一个awesome系列的波斯语NLP和IR资源汇总项目。该项目汇集了波斯语自然语言处理和信息检索领域的工具、数据集、模型、代码库以及相关论文和书籍。这些资源为研究人员和开发者提供了丰富的参考,推动了波斯语NLP和IR技术的发展。项目采用CC0许可证,欢迎社区贡献。
Automated-Fact-Checking-Resources - 自动事实核查资源库 数据集、模型与研究进展
自动事实核查数据集多模态虚假信息检测社交媒体Github开源项目
该项目整理了自动事实核查领域的全面资源,包括最新数据集、模型和研究进展。涵盖从声明检测到结果预测的完整流程,并包含多模态事实核查内容。项目持续更新,为研究人员提供便捷的参考资料库。
ua-gec - 乌克兰语语法纠错与流畅性语料库
UA-GEC语法纠错乌克兰语语料库数据集Github开源项目
UA-GEC是一个经专业注释的乌克兰语语法错误纠正和流畅性编辑语料库。该语料库提供GEC+Fluency和GEC-only两个版本,适用于不同研究场景。语料库包含33,735个句子,涵盖从日常聊天到正式写作的多个领域。专业校对人员对语料进行了全面注释,包括流畅性、语法、标点和拼写等方面的错误。UA-GEC可用于乌克兰语GEC系统的开发和评估,同时也支持多语言和低资源NLP、形态丰富语言、文档级GEC以及流畅性纠正等研究领域。
awesome-chatgpt-dataset - 综合性AI对话数据集资源助力自定义语言模型训练
ChatGPT数据集语言模型训练指令调优Github开源项目
awesome-chatgpt-dataset项目汇集了多样化的人工智能对话数据集资源。该项目囊括了不同规模、语言和领域的高质量指令数据,范围从数千到数百万条不等,涵盖多语言、代码生成、视觉对话等多个方面。这些数据集为研究人员和开发者提供了训练和优化大型语言模型的重要素材,有助于推动更智能、更多元化的AI对话系统的发展。
NLP-progress - 追踪自然语言处理领域进展的开源项目
自然语言处理NLP任务数据集多语言SOTAGithub开源项目
这是一个开源项目,旨在追踪自然语言处理领域的最新进展。该项目涵盖了从词性标注到阅读理解等多种NLP任务,提供基准数据集和顶尖模型性能对比。它包含多语言NLP任务进展,为研究人员提供了解行业现状的重要参考。项目持续更新,反映了NLP技术的快速发展。
google-research - 多项目代码和数据集共享平台
Google Research代码库数据集许可证GitHubGithub开源项目
Google Research提供多种项目的代码和数据集,数据集在CC BY 4.0国际许可下发布,源码文件在Apache 2.0许可下发布。用户可通过GitHub编辑器下载所需子目录,并进行浅克隆以提交拉取请求。库内容持续更新,最新更新时间为2023年。
相关文章
Google Research: 探索科学与人工智能的前沿
2024年08月30日
Argilla: 打造高质量AI数据集的协作工具
2024年08月30日
Google Research:引领人工智能和计算机科学的前沿探索
2024年08月30日
Argilla: 人工智能工程师和领域专家的数据集协作工具
2024年08月30日
FiftyOne: 构建高质量数据集和计算机视觉模型的开源工具
2024年08月30日
SSD: PyTorch中的单发多框目标检测器实现
2024年08月30日
深度学习与计算机视觉的完整学习指南
2024年08月30日
深入探讨大语言模型的越狱攻击:挑战、影响与防御策略
2024年08月30日
Google Research: 探索科学与人工智能的前沿
2024年08月30日