#开源数据
MINT-1T - 万亿级开源多模态数据集推动AI研究
MINT-1T多模态数据集开源数据海量数据图文数据Github开源项目
MINT-1T是一个大规模开源多模态数据集,包含1万亿文本标记和34亿张图像,比现有开源数据集规模扩大约10倍。该数据集首次纳入PDF和ArXiv论文等新数据源,提供HTML、PDF和ArXiv等多个子集。MINT-1T旨在为大规模多模态AI模型研究提供丰富的训练资源,其规模和多样性有望促进多模态AI技术的发展。
innovationgraph - GitHub开源数据洞察全球软件开发趋势
GitHub Innovation Graph开源数据软件开发活动全球经济数据分析Github开源项目
GitHub Innovation Graph项目提供了一个结构化数据集,汇总了GitHub平台上的公开开发活动。该数据集按季度和经济体展示了Git推送、开发者、组织、仓库、编程语言、许可证和主题等多个维度的信息。这个开源项目旨在为研究人员、政策制定者等提供软件开发领域的数据洞察。数据涵盖2020年以来的全球活动,有助于分析软件开发趋势和创新动态。
FinMind - 开源金融数据分析平台
FinMind金融数据开源数据股票分析APIGithub开源项目
FinMind是一个开源金融数据分析平台,提供超过50种金融数据集。涵盖台股、美股、期货、期权等市场的技术面、基本面、筹码面和消息面数据。平台每日自动更新,用户可直接进行深入分析。FinMind提供API接口、数据可视化和回测工具,适合研究者、投资者和数据科学家使用。该项目旨在简化金融数据获取和分析流程,提供全面及时的市场信息。
datasets - Unsplash开放数据集 海量图片与搜索数据资源
Unsplash Dataset图片数据集开源数据数据研究图像库Github开源项目
Unsplash Dataset是一个开放的图片和数据资源库,汇集了全球35万多名摄影师的贡献。它包括Lite和Full两个版本,分别提供2.5万张自然主题图片和540万张高质量图片。这些数据集还包含大量关键词和搜索数据,为图像研究和机器学习提供了丰富素材。研究人员可免费用于非商业性项目,探索图像、关键词和搜索行为之间的关联。