Logo

#大规模数据

MMDialog: 一个大规模多模态开放域对话数据集

2 个月前
Cover of MMDialog: 一个大规模多模态开放域对话数据集

SRe2L: 大规模数据集蒸馏的新视角

2 个月前
Cover of SRe2L: 大规模数据集蒸馏的新视角

plotly-resampler: 高效可视化大规模时间序列数据的强大工具

2 个月前
Cover of plotly-resampler: 高效可视化大规模时间序列数据的强大工具

WizMap:探索和可视化大规模嵌入向量的强大工具

2 个月前
Cover of WizMap:探索和可视化大规模嵌入向量的强大工具

相关项目

Project Cover
wizmap
WizMap是一款用于探索大规模机器学习嵌入的交互式可视化工具。它采用多分辨率嵌入摘要方法和地图式交互设计,便于导航和理解复杂嵌入空间。支持百万级嵌入点可视化,具备快速搜索和多模态数据处理能力。WizMap还提供嵌入演化动画展示,兼容多种计算笔记本,并支持URL共享功能。这一工具为研究人员和开发者提供了分析嵌入的有效方案。
Project Cover
SRe2L
SRe2L项目提出了一种新颖的大规模数据集压缩方法,通过'挤压'、'恢复'和'重新标记'三个步骤实现ImageNet规模数据的高效压缩。该方法在NeurIPS 2023会议上获得spotlight展示,为数据集蒸馏领域带来新的研究视角。项目还包括SCDD和CDA等相关工作,共同推动数据集蒸馏技术在大数据时代的应用和发展。
Project Cover
OmniCorpus
OmniCorpus是一个大规模多模态数据集,包含86亿张图像和1,696亿个文本标记。该数据集提供中英双语内容,涵盖从网站和视频平台提取的文本和视觉文档,具有高度的数据多样性和灵活性。与之前最大的数据集LAION-5B相比,OmniCorpus在图像和文本规模上分别大1.7倍和12.5倍,同时保持了优秀的数据质量。研究表明,基于此数据集训练的模型在图像描述和视觉问答等任务中表现出色。OmniCorpus采用流式数据格式,可适应多种数据结构,包括纯文本语料库、图文对和交错数据格式。这一特性使其在自然语言处理、计算机视觉和多模态AI等领域的研究和应用中具有广泛潜力。
Project Cover
plotly-resampler
plotly-resampler为Plotly图表增加动态重采样功能,实现大规模时序数据的高效可视化。该库根据当前视图动态聚合数据,在用户交互时保持高效响应。它采用tsdownsample的优化实现,默认使用MinMaxLTTB方法选取1000个绘图点。plotly-resampler支持多种环境和聚合算法,保留了Plotly的灵活性。这个库能显著提升处理和展示大型时序数据集的能力,适用于需要可视化海量顺序数据的场景。
Project Cover
MMDialog
MMDialog是一个包含丰富文本和图像信息的大规模多轮对话数据集。它提供详细的数据统计、格式说明和评估方法,适用于多模态开放域对话研究。学术研究人员可通过申请流程获取该数据集,用于非商业性研究。MMDialog为自然语言处理领域的多样化对话任务研究提供了重要资源。
投诉举报邮箱: service@vectorlightyear.com
@2024 懂AI·鲁ICP备2024100362号-6·鲁公网安备37021002001498号