#数据集
speech_dataset - 多语言语音识别与合成数据集详细介绍及应用
语音识别语音合成数据集开源多人语音识别Github开源项目
此页面总结了多语言语音数据集,包括中文、英文、日语、韩语、俄语等。涵盖了语音识别、语音合成、说话人识别和分离等应用领域,详细描述了每个数据集的时长、下载地址及其具体用途,帮助用户快速找到符合科研或项目需求的语音数据。
DialogStudio - 提供丰富多样的对话数据集和任务意识模型
DialogStudio数据集对话模型HuggingfaceGithub开源项目
DialogStudio 是一个全面的对话数据集项目,包含大量统一的对话数据集和任务意识模型,支持对单个数据集和大型语言模型的训练。用户可以通过 HuggingFace 轻松下载和使用这些数据集,涵盖从知识驱动到任务导向多个领域。同时,项目进行了高质量的数据集评估,提供了详细的评价标准和评分。DialogStudio 既促进会话 AI 研究,也为模型开发者和数据科学家提供了重要资源,推动该领域的创新与进步。
awesome-instruction-dataset - 开源的多任务多语言指令微调数据集
LLMsChatGPTRLHF数据集AlpacaGithub开源项目
该项目收录了一系列开源指令微调数据集,用以训练基于聊天的LLM(如GPT-4、ChatGPT、LLaMA、Alpaca)。数据集包括视觉指令微调、文本指令微调和人类反馈增强学习(RLHF)数据集。项目提供了详尽的数据集列表,方便研究人员和开发人员使用这些资源。支持多任务和多语言,覆盖英语、中文等多种语言数据,数据集来源多样,包括人类生成、自我指令生成以及混合数据集,适合多种LLM训练需要。
dl-for-emo-tts - 通过深度学习实现情感语音合成
Tacotron深度学习情感语音合成数据集优化器Github开源项目
项目通过深度学习实现情感语音合成,包括Tacotron和DCTTS模型的应用。详细介绍了使用的数据集、相关文献和多种模型微调策略,如调整学习率和冻结网络层。尽管面临情感数据集有限的问题,但实验验证了改进方案对低资源情感TTS传递学习的有效性。
ChatGLM-Efficient-Tuning - 微调ChatGLM-6B模型,支持多种训练和量化方法
ChatGLM高效微调机器学习RLHF数据集Github开源项目
ChatGLM-Efficient-Tuning项目提供高效微调ChatGLM-6B模型的工具和方法,支持LoRA、P-Tuning V2等多种微调方式,适用于单GPU和多GPU训练。项目还提供Web UI和CLI操作,支持4-bit和8-bit量化训练。通过丰富的数据集和功能,如强化学习和模型评估,满足不同场景的微调需求。详情请参见项目Wiki。
MultiBench - 多模态学习的多尺度标准基准
MultiBenchMultimodal学习Benchmark深度学习数据集Github开源项目
MultiBench是一个系统化、统一的大规模基准,用于多模态表征学习,覆盖15个数据集、10种模态、20个预测任务和6个研究领域。它提供自动化的端到端机器学习管道,简化数据加载、实验设置和模型评估,确保在真实世界中的适用性和鲁棒性。
lvis-api - 大规模词汇实例分割API的便捷安装与功能
LVIS大词汇实例分割数据集图像标注APIGithub开源项目
LVIS API 提供读取和交互注释文件、可视化注释和评估结果的功能。该项目包含超过16.4万张图像和200万高质量实例分割掩码,并涵盖1200多个基础对象类别。支持在虚拟环境中通过pip安装。该API已在第2届联合COCO和LVIS工作坊的ECCV 2020大会上发布,适用于大规模词汇实例分割的研究和应用。
Exclusively-Dark-Image-Dataset - 低光环境中的目标检测与图像增强数据集
Exclusively Dark低光图像数据集图像增强目标检测Github开源项目
Exclusively Dark (ExDark) 数据集包含7,363张低光环境图像,适用于低光条件下的目标检测和图像增强研究。该数据集涵盖了10种不同的低光环境,注释了12类目标对象。提供了用于低光图像增强的源代码,研究人员可利用此数据集和源代码优化计算机视觉技术。
diffusiondb - 大规模文本生成图像数据集,促进多领域研究
DiffusionDBStable Diffusion文本生成图像数据集生成模型Github开源项目
DiffusionDB 是一个大规模文本生成图像数据集,包含1400万张由Stable Diffusion生成的图像,以真实用户的提示和超参数为基础。该数据集为研究生成模型与提示词的关系、检测深度伪造和设计人机交互工具提供了丰富资源,分为 DiffusionDB 2M 和 DiffusionDB Large 两个子集,满足不同需求。模块化的数据集结构使得用户可以高效加载所需部分。
reward-bench - 用于评估使用如Starling、PairRM、OpenAssistant和DPO等算法的奖励模型的能力和安全性的基准工具
RewardBench评价标准数据集文献anymodelGithub开源项目
RewardBench是一款基准工具,用于评估使用如Starling、PairRM、OpenAssistant和DPO等算法的奖励模型的能力和安全性。该工具提供通用的推理代码、统一的数据集格式和测试,以确保公平评估,并拥有强大的分析与可视化功能。用户可以通过pip快速安装并运行评估脚本,测试各种奖励模型的性能和偏好集。
CVPR2023-DMVFN - 动态多尺度体素流网络在视频预测领域的应用
CVPR2023视频预测动态多尺度体素流网络SOTA模型数据集Github开源项目
本项目介绍了一种在视频预测领域的新模型——动态多尺度体素流网络。该模型由CVPR2023收录并成为亮点,通过对Cityscapes、KITTI及DAVIS等多个数据集的训练和测试,展示了其在视频预测中的表现。项目页面包括详细的安装、数据准备、训练和测试步骤,并提供丰富的可视化结果和资源链接,支持预训练模型的下载以便实际应用。
rPPG-Toolbox - 相机生理传感的开源远程光学容积成像平台
rPPG-Toolbox摄像头生理信号检测开源平台算法数据集Github开源项目
rPPG-Toolbox 是一个用于相机生理传感的开源平台,支持神经网络和无监督方法的基准测试,并允许自定义算法的快速开发。该平台支持七个关键数据集,包括 SCAMPS、PURE 等,并提供算法性能基准和丰富的数据可视化工具。
superpixel-benchmark - 超像素算法的全面评估与性能比较
Superpixels计算机视觉图像处理算法比较数据集Github开源项目
该项目是一款全面的超像素算法评估平台,评估28种算法在5个数据集上的性能。通过参数优化和使用边界召回率、分割错误率、解释方差等指标,实现了客观和公平的比较。项目包含Docker实现、平均指标计算工具和详细文档,适用于研究人员和开发者进行深入研究与应用。
uncertainty-baselines - 提供高质量的不确定性和鲁棒性标准模板
Uncertainty BaselinesTensorFlowTPU模型数据集Github开源项目
Uncertainty Baselines提供高质量的不确定性和鲁棒性标准模板,作为研究人员新想法和应用的起点,促进技术交流。项目高效实施关键任务,减少对代码库其他文件的依赖,便于独立使用。建议不确定性和鲁棒性评估的最佳实践,帮助研究人员快速原型化和基准比较。支持TensorFlow开发,可在TPUs和GPUs上运行,提升实验灵活性和重复性。
PFLlib - 个性化联邦学习算法库和评估平台
PFLlib联邦学习个性化算法库数据集Github开源项目
提供36种传统和个性化联邦学习算法,涵盖3种场景和20个数据集。专注于统计异质性数据,支持高效GPU内存使用及新增的隐私保护功能。新手用户通过简单的示范指南即可快速上手,参与贡献算法、数据集和评估指标。支持非独立同分布和不均衡数据,并可在多达500个客户端上进行训练模拟。
fastMRI - 原始 MRI 测量值和临床 MRI 图像的大规模数据集
fastMRI磁共振成像人工智能PyTorch数据集Github开源项目
fastMRI项目通过减少测量数据,加速MRI扫描,降低医疗成本,减轻患者压力。该项目由Facebook AI Research和NYU Langone Health合作,利用AI技术提升MRI速度,发布了包含膝盖和大脑MRI数据的开源数据集。项目提供数据加载、模型训练等相关工具和实现方法。
tfrecord - 允许在 python 中有效地读取和写入 tfrecord 文件
TFRecordReaderTFRecordWriterPyTorchtfrecord数据集Github开源项目
该库在Python中提供了高效读取和写入TFRecord文件的方法,并为PyTorch提供了可迭代的数据集读取器。支持无压缩和gzip压缩的TFRecord文件,通过创建索引文件可以避免多线程重复记录。用户还能使用transform函数进行特征后处理,如解码图像和归一化颜色范围。该库简化了多文件读取和顺序数据处理流程。
UltraChat - 大规模、多样化的多轮对话数据和模型
UltraLMUltraFeedbackUltraChat模型数据集Github开源项目
UltraChat项目专注于构建开源、大规模、多轮对话数据,目标是打造具有广泛会话能力的强大语言模型。最新发布的模型和数据集包括UltraLM-13B-v2.0、UltraRM和UltraCM,在AlpacaEval基准测试上表现优异。UltraChat数据集分为三大部分:世界问题、写作与创作、现有材料辅助,对话涵盖了技术、艺术和创业等领域。项目数据仅供研究和教育用途,基于MIT许可证发布。
VLM_survey - 用于视觉任务的 AWESOME 视觉语言模型集合
Vision-Language Models视觉识别任务预训练方法知识蒸馏数据集Github开源项目
本页面详尽介绍了视觉语言模型(VLM)在视觉识别任务中的应用和发展。内容涵盖VLM的起源、常用架构、预训练目标、主流数据集及不同的预训练方式、迁移学习和知识蒸馏方法,并针对这些方法进行了详细的基准测试和分析。页面还讨论了未来研究的挑战和方向,让用户掌握VLM技术在图像分类、对象检测和语义分割等任务中的最新应用进展。
RGBD-semantic-segmentation - RGB-D语义分割技术发展综述及性能评估
RGBD语义分割深度学习数据集评估指标性能对比Github开源项目
本项目汇总了RGB-D语义分割领域的最新研究成果,提供详尽的论文列表和性能对比。涵盖NYUDv2等主流数据集的基准结果,包括像素精度、平均精度、mIoU等关键指标。通过定期更新反映该领域最新进展,为计算机视觉研究人员提供全面的参考资源。项目内容还包括数据集介绍、评估指标说明和详细的性能对比表格,全面呈现RGB-D语义分割技术的发展脉络。对于想深入了解该领域的研究人员和工程师而言,这是一个高价值的信息聚合平台。
imageinwords - 致力于生成超详细图像描述的研究项目
ImageInWords图像描述数据集机器学习计算机视觉Github开源项目
ImageInWords 是一个致力于生成超详细图像描述的研究项目。该项目提供基准评估数据集,可通过 Hugging Face 访问。它集成了计算机视觉和自然语言处理技术,为研究人员和开发者提供数据集、可视化工具和探索接口。这项研究旨在推进图像理解和描述生成领域的发展。
roapi - 无代码自动生成数据集的只读API服务
ROAPIAPI数据集查询接口数据格式Github开源项目
ROAPI为静态数据集自动生成只读API,无需编写代码。它支持SQL、GraphQL和REST API查询接口,可从文件系统、HTTP、S3等多种来源加载CSV、JSON、Parquet等格式的数据。ROAPI自动推断数据模式,并支持多种结果序列化格式,为数据访问和查询提供了灵活高效的解决方案。
Awesome-Knowledge-Graph-Reasoning - 全面的知识图谱推理研究资源集合
知识图谱推理数据集AKGR静态知识图谱关系抽取Github开源项目
Awesome-Knowledge-Graph-Reasoning项目汇集了知识图谱推理领域的最新研究成果,包括论文、代码和数据集。该资源库涵盖静态、动态和多模态知识图谱推理,并提供详细分类和说明,方便研究人员和开发者快速检索所需信息。项目整理了大量高质量学术成果,为知识图谱推理研究和应用提供了全面的参考资料。
libriheavy - 大规模语音识别数据集,50,000小时带标点和上下文
Libriheavy语音识别数据集标点符号上下文Github开源项目
Libriheavy是基于Librilight的大规模标注语音数据集,总时长达50,000小时。该数据集包含标点、大小写和上下文信息,适用于多种语音任务研究。Libriheavy提供完整版和ASR训练专用版本,支持多种数据格式。此外,项目还提供基线模型和性能排行榜,展示了在不同规模子集上的识别效果。研究人员可以通过简单步骤获取并使用这一丰富的语音识别资源。
TACO - 推动算法代码生成模型发展的新基准数据集
TACO代码生成算法数据集模型评估Github开源项目
TACO是一个大规模算法代码生成数据集,包含25,443个训练问题和1,000个测试问题。它提供具挑战性的编程竞赛题目,旨在提升代码生成模型的实际应用能力。TACO的特点包括规模大、质量高的问题-解答对,以及细粒度的任务主题、算法、技能和难度标签。这些特性为代码生成模型的训练和评估提供了精确参考,有助于推动相关研究和应用的进展。
GigaSpeech - 多领域英语语音识别数据集提供10,000小时转录音频
GigaSpeech语音识别数据集深度学习音频处理Github开源项目
GigaSpeech是一个开源的多领域英语语音识别数据集,包含33,000多小时音频数据,其中10,000小时有高质量人工转录。数据来源包括有声书、播客和YouTube等,并提供多个规模的训练和评估子集。项目提供多种语音识别工具包的数据准备脚本,由志愿者维护并欢迎社区贡献,旨在促进语音技术的研究和应用。
SAM-Med2D - 医学图像分割新突破 SAM-Med2D模型
SAM-Med2D医学图像分割数据集模型训练模型评估Github开源项目
SAM-Med2D是基于Segment Anything Model的医学图像分割模型,在包含4.6M图像和19.7M掩码的大规模数据集上进行微调。该项目涵盖10种医学数据模态、4种解剖结构和病变,以及31个主要人体器官。SAM-Med2D在多个测试集上表现优秀,尤其在点提示和边界框提示方面效果显著,为医学图像分割领域提供了新的解决方案。
trustworthyAI - 因果结构学习工具链与研究资源
可信AI因果结构学习gCastle因果发现数据集Github开源项目
该项目提供了全面的因果学习和评估工具链。它包含gCastle工具箱、真实世界数据集、竞赛基线和最新研究成果。该项目涵盖基于梯度的因果发现算法、CausalVAE等实现,为研究人员和开发者提供了可信AI领域的学习和实践资源。
MeViS - 基于运动表达的大规模视频目标分割数据集
MeViS视频分割运动表达数据集基准测试Github开源项目
MeViS是一个专注于运动表达引导目标分割的大规模视频数据集。它包含2,006个视频和28,570个描述性句子,为开发利用运动表达进行复杂视频场景分割的算法提供了平台。该数据集突出了运动在语言引导视频目标分割中的重要性,为相关研究提供了新的基准。
Anti-UAV - 无人机目标检测与追踪开源项目
Anti-UAV无人机跟踪计算机视觉目标检测数据集Github开源项目
Anti-UAV是一个开源项目,致力于在复杂环境中检测和追踪无人机目标。该项目提供新的数据集、评估指标和基线方法,支持RGB和红外视频输入。数据集包含多尺度无人机的高质量视频序列和密集标注。Anti-UAV旨在推动无人机检测追踪技术发展,可应用于区域安全防护等领域。
PickScore - 优化文本到图像生成的用户偏好数据集和模型
PickScore数据集文本生成图像用户偏好开源项目Github
PickScore是一个开源项目,提供数据集和模型用于优化文本到图像生成的用户偏好预测。项目包含Pick-a-Pic v1和v2数据集,以及基于v1训练的PickScore模型。此外,还提供演示、安装指南、推理示例和训练脚本,方便研究人员和开发者进行实验和改进。PickScore致力于提升AI生成图像的质量和用户体验。
Awesome-Video-Diffusion-Models - 视频扩散模型研究进展与开源资源综述
视频生成模型开源工具箱数据集评估指标文本到视频生成Github开源项目
本文综述了视频扩散模型领域的研究进展和开源资源。内容包括最新工具箱、基础模型、数据集和评估指标,涵盖文本到视频生成、视频编辑和理解等多个方向。文章系统梳理了该领域的关键技术和资源,为研究人员和开发者提供全面参考,有助于推动视频生成和处理技术的发展。
assets - 视觉资产和AI模型资源库
Ultralytics计算机视觉预训练模型数据集YOLOGithub开源项目
Ultralytics Assets 仓库集成了视觉资产、预训练模型和数据集,为 Ultralytics YOLO 生态系统提供支持。该仓库涵盖对象检测、实例分割、图像分类等计算机视觉任务,为研究人员和开发者提供便捷的资源访问,加速机器学习项目的开发和优化。此仓库提供了完整的资源套件,包括视觉素材、预训练模型和注释数据集,适用于多种计算机视觉任务。它简化了资源获取过程,使开发者能够专注于项目开发而非资源收集,从而提高工作效率。
AcmeTrace - 大规模语言模型工作负载数据集
Acme TraceAI实验室工作负载数据集资源利用Github开源项目
AcmeTrace是一个来自上海人工智能实验室的大规模语言模型工作负载数据集,涵盖2023年3月至8月期间的数据。该数据集包含880,740个作业记录,其中470,497个为GPU作业,来自两个独立的GPU集群。这些数据为研究人员提供了分析大规模语言模型在数据中心开发特征的宝贵资源,支持相关学术研究。
automated-interpretability - 语言模型神经元行为的自动化解释工具
自动解释性神经元行为GPT-2数据集模型权重Github开源项目
automated-interpretability项目开发了一套自动化工具,用于生成、模拟和评分语言模型中神经元行为的解释。该项目提供了代码库、神经元激活查看器和GPT-2 XL神经元的公开数据集。这些资源旨在帮助研究人员和开发者深入理解大型语言模型的内部机制。
google-research - 多项目代码和数据集共享平台
Google Research代码库数据集许可证GitHubGithub开源项目
Google Research提供多种项目的代码和数据集,数据集在CC BY 4.0国际许可下发布,源码文件在Apache 2.0许可下发布。用户可通过GitHub编辑器下载所需子目录,并进行浅克隆以提交拉取请求。库内容持续更新,最新更新时间为2023年。
相关文章
Google Research: 探索科学与人工智能的前沿
2024年08月30日
Argilla: 打造高质量AI数据集的协作工具
2024年08月30日
Google Research:引领人工智能和计算机科学的前沿探索
2024年08月30日
Argilla: 人工智能工程师和领域专家的数据集协作工具
2024年08月30日
FiftyOne: 构建高质量数据集和计算机视觉模型的开源工具
2024年08月30日
SSD: PyTorch中的单发多框目标检测器实现
2024年08月30日
深度学习与计算机视觉的完整学习指南
2024年08月30日
深入探讨大语言模型的越狱攻击:挑战、影响与防御策略
2024年08月30日
Google Research: 探索科学与人工智能的前沿
2024年08月30日