#大规模数据

MMDialog: 一个大规模多模态开放域对话数据集

2024年09月05日
Cover of MMDialog: 一个大规模多模态开放域对话数据集

plotly-resampler: 高效可视化大规模时间序列数据的强大工具

2024年09月05日
Cover of plotly-resampler: 高效可视化大规模时间序列数据的强大工具

SRe2L: 大规模数据集蒸馏的新视角

2024年09月05日
Cover of SRe2L: 大规模数据集蒸馏的新视角

WizMap:探索和可视化大规模嵌入向量的强大工具

2024年09月05日
Cover of WizMap:探索和可视化大规模嵌入向量的强大工具
相关项目
Project Cover

wizmap

WizMap是一款用于探索大规模机器学习嵌入的交互式可视化工具。它采用多分辨率嵌入摘要方法和地图式交互设计,便于导航和理解复杂嵌入空间。支持百万级嵌入点可视化,具备快速搜索和多模态数据处理能力。WizMap还提供嵌入演化动画展示,兼容多种计算笔记本,并支持URL共享功能。这一工具为研究人员和开发者提供了分析嵌入的有效方案。

Project Cover

SRe2L

SRe2L项目提出了一种新颖的大规模数据集压缩方法,通过'挤压'、'恢复'和'重新标记'三个步骤实现ImageNet规模数据的高效压缩。该方法在NeurIPS 2023会议上获得spotlight展示,为数据集蒸馏领域带来新的研究视角。项目还包括SCDD和CDA等相关工作,共同推动数据集蒸馏技术在大数据时代的应用和发展。

Project Cover

OmniCorpus

OmniCorpus是一个大规模多模态数据集,包含86亿张图像和1,696亿个文本标记。该数据集提供中英双语内容,涵盖从网站和视频平台提取的文本和视觉文档,具有高度的数据多样性和灵活性。与之前最大的数据集LAION-5B相比,OmniCorpus在图像和文本规模上分别大1.7倍和12.5倍,同时保持了优秀的数据质量。研究表明,基于此数据集训练的模型在图像描述和视觉问答等任务中表现出色。OmniCorpus采用流式数据格式,可适应多种数据结构,包括纯文本语料库、图文对和交错数据格式。这一特性使其在自然语言处理、计算机视觉和多模态AI等领域的研究和应用中具有广泛潜力。

Project Cover

plotly-resampler

plotly-resampler为Plotly图表增加动态重采样功能,实现大规模时序数据的高效可视化。该库根据当前视图动态聚合数据,在用户交互时保持高效响应。它采用tsdownsample的优化实现,默认使用MinMaxLTTB方法选取1000个绘图点。plotly-resampler支持多种环境和聚合算法,保留了Plotly的灵活性。这个库能显著提升处理和展示大型时序数据集的能力,适用于需要可视化海量顺序数据的场景。

Project Cover

oio-sds

OpenIO SDS是一款开源的软件定义存储解决方案,专注于处理大规模非结构化数据。该项目支持源代码编译和包管理器安装,提供简单的部署流程和快速启动脚本。无需root权限即可运行,便于用户快速搭建和体验SDS实例。OpenIO SDS为企业级数据存储提供了高性能和灵活的解决方案。

Project Cover

glide-data-grid

glide-data-grid是一个基于Canvas的React数据网格组件,支持百万级数据行和实时更新。该组件提供原生滚动、多种单元格类型、内置编辑、可调整列宽等功能,适用于大规模数据展示和处理。作为开源项目,它具有高性能和灵活的定制特性,可满足复杂的数据网格需求。

Project Cover

MMDialog

MMDialog是一个包含丰富文本和图像信息的大规模多轮对话数据集。它提供详细的数据统计、格式说明和评估方法,适用于多模态开放域对话研究。学术研究人员可通过申请流程获取该数据集,用于非商业性研究。MMDialog为自然语言处理领域的多样化对话任务研究提供了重要资源。

投诉举报邮箱: service@vectorlightyear.com
@2024 懂AI·鲁ICP备2024100362号-6·鲁公网安备37021002001498号