#开源数据
相关项目
MINT-1T
MINT-1T是一个大规模开源多模态数据集,包含1万亿文本标记和34亿张图像,比现有开源数据集规模扩大约10倍。该数据集首次纳入PDF和ArXiv论文等新数据源,提供HTML、PDF和ArXiv等多个子集。MINT-1T旨在为大规模多模态AI模型研究提供丰富的训练资源,其规模和多样性有望促进多模态AI技术的发展。
innovationgraph
GitHub Innovation Graph项目提供了一个结构化数据集,汇总了GitHub平台上的公开开发活动。该数据集按季度和经济体展示了Git推送、开发者、组织、仓库、编程语言、许可证和主题等多个维度的信息。这个开源项目旨在为研究人员、政策制定者等提供软件开发领域的数据洞察。数据涵盖2020年以来的全球活动,有助于分析软件开发趋势和创新动态。
FinMind
FinMind是一个开源金融数据分析平台,提供超过50种金融数据集。涵盖台股、美股、期货、期权等市场的技术面、基本面、筹码面和消息面数据。平台每日自动更新,用户可直接进行深入分析。FinMind提供API接口、数据可视化和回测工具,适合研究者、投资者和数据科学家使用。该项目旨在简化金融数据获取和分析流程,提供全面及时的市场信息。