#大规模数据

MMDialog: 一个大规模多模态开放域对话数据集

2 个月前

Cover of MMDialog: 一个大规模多模态开放域对话数据集

MMDialog是一个包含108万真实对话和153万独特图像的大规模多模态对话数据集,旨在促进多模态开放域对话系统的研究与开发。本文将详细介绍这个数据集的特点、构建过程、使用方法以及相关研究进展。

MMDialog 多模态对话数据集开放域对话大规模数据自然语言处理 Github 开源项目

2 个月前

Cover of MMDialog: 一个大规模多模态开放域对话数据集

SRe2L: 大规模数据集蒸馏的新视角

2 个月前

Cover of SRe2L: 大规模数据集蒸馏的新视角

SRe2L是一种新型的数据集蒸馏框架,通过解耦模型和合成数据的双层优化,可以处理不同规模的数据集、模型架构和图像分辨率,在ImageNet-1K等大规模数据集上实现了最先进的性能。

数据集蒸馏大规模数据自监督压缩 ImageNet NeurIPS Github 开源项目

2 个月前

Cover of SRe2L: 大规模数据集蒸馏的新视角

plotly-resampler: 高效可视化大规模时间序列数据的强大工具

2 个月前

Cover of plotly-resampler: 高效可视化大规模时间序列数据的强大工具

plotly-resampler是一个基于Plotly的Python库,旨在提高大规模时间序列数据的可视化效率和交互性。它通过动态聚合数据,使得用户可以流畅地可视化和探索包含数百万个数据点的时间序列。

Plotly 数据可视化时间序列动态聚合大规模数据 Github 开源项目

2 个月前

Cover of plotly-resampler: 高效可视化大规模时间序列数据的强大工具

WizMap：探索和可视化大规模嵌入向量的强大工具

2 个月前

Cover of WizMap：探索和可视化大规模嵌入向量的强大工具

WizMap是一款开源的交互式可视化工具,可以帮助用户在浏览器中轻松探索、分析和理解大规模的嵌入向量数据。它提供了直观的界面和丰富的功能,使得数据科学家和研究人员能够更好地洞察复杂的高维数据。

WizMap 嵌入可视化多分辨率大规模数据交互式探索 Github 开源项目

2 个月前

Cover of WizMap：探索和可视化大规模嵌入向量的强大工具

相关项目

Project Cover

WizMap是一款用于探索大规模机器学习嵌入的交互式可视化工具。它采用多分辨率嵌入摘要方法和地图式交互设计，便于导航和理解复杂嵌入空间。支持百万级嵌入点可视化，具备快速搜索和多模态数据处理能力。WizMap还提供嵌入演化动画展示，兼容多种计算笔记本，并支持URL共享功能。这一工具为研究人员和开发者提供了分析嵌入的有效方案。

Project Cover

SRe2L项目提出了一种新颖的大规模数据集压缩方法，通过'挤压'、'恢复'和'重新标记'三个步骤实现ImageNet规模数据的高效压缩。该方法在NeurIPS 2023会议上获得spotlight展示，为数据集蒸馏领域带来新的研究视角。项目还包括SCDD和CDA等相关工作，共同推动数据集蒸馏技术在大数据时代的应用和发展。

Project Cover

OmniCorpus是一个大规模多模态数据集，包含86亿张图像和1,696亿个文本标记。该数据集提供中英双语内容，涵盖从网站和视频平台提取的文本和视觉文档，具有高度的数据多样性和灵活性。与之前最大的数据集LAION-5B相比，OmniCorpus在图像和文本规模上分别大1.7倍和12.5倍，同时保持了优秀的数据质量。研究表明，基于此数据集训练的模型在图像描述和视觉问答等任务中表现出色。OmniCorpus采用流式数据格式，可适应多种数据结构，包括纯文本语料库、图文对和交错数据格式。这一特性使其在自然语言处理、计算机视觉和多模态AI等领域的研究和应用中具有广泛潜力。

Project Cover

plotly-resampler

plotly-resampler为Plotly图表增加动态重采样功能,实现大规模时序数据的高效可视化。该库根据当前视图动态聚合数据,在用户交互时保持高效响应。它采用tsdownsample的优化实现,默认使用MinMaxLTTB方法选取1000个绘图点。plotly-resampler支持多种环境和聚合算法,保留了Plotly的灵活性。这个库能显著提升处理和展示大型时序数据集的能力,适用于需要可视化海量顺序数据的场景。

Project Cover

MMDialog是一个包含丰富文本和图像信息的大规模多轮对话数据集。它提供详细的数据统计、格式说明和评估方法，适用于多模态开放域对话研究。学术研究人员可通过申请流程获取该数据集，用于非商业性研究。MMDialog为自然语言处理领域的多样化对话任务研究提供了重要资源。

使用协议隐私政策广告服务

投诉举报邮箱: service@vectorlightyear.com

@2024 懂AI·鲁ICP备2024100362号-6·鲁公网安备37021002001498号