Project Icon

MathPile

数学预训练数据集

本页面介绍了MathPile,这是一个专注于数学领域的高质量大规模预训练数据集,包含约95亿个标记。MathPile整合了来自教科书、arXiv、Wikipedia等多种来源的数据,确保了内容的多样性和覆盖面。项目注重数据质量,采用严格的预处理和过滤,并提供详细的数据文档和质量注释。MathPile旨在提升语言模型在数学推理方面的能力,同时页面也提供了项目的最新动态、技术报告、使用限制和许可证信息。

Compendium-of-free-ML-reading-resources - 机器学习免费学习资源集合 书籍论文和在线教程
Github开源项目数据科学机器学习深度学习线性代数统计学
该项目是一个综合性机器学习免费资源集合,涵盖数据分析、数学、统计、机器学习和深度学习等领域。收录内容包括经典教材、最新论文、PDF电子书和在线教程,以英文原版为主。项目提供系统的机器学习知识体系和高质量学习材料,适合入门和进阶学习。资源全面、内容权威、持续更新,定期收录最新开放获取资源,为自学者和研究人员提供最新知识和便利。
llm-datasets - LLM微调优质数据集与工具资源库
GithubLLM对话开源项目微调指令跟随数据集
LLM Datasets项目汇集了大语言模型微调所需的优质数据集、实用工具和核心概念。涵盖通用、数学逻辑、编程和对话等多个领域,项目详细阐述了高质量数据集的特征。为研究人员和开发者提供多样化的LLM微调数据资源,旨在促进模型性能提升。
WizardMath-7B-V1.1 - 新一代数学推理模型优化Mistral-7B架构实现卓越性能提升
AI训练GithubHuggingfaceWizardMath大语言模型开源项目数学推理机器学习模型
WizardMath-7B-V1.1基于Mistral-7B架构开发,通过强化进化指令训练方法提升数学推理能力。在GSM8k和MATH基准测试中分别达到83.2和33.0的评分,达到7B规模模型中的最佳水平。这一开源数学推理模型展现出与商业大模型相当的解题表现,为数学问题求解提供了新的解决方案。
pythia-160m-deduped - 基于Pile数据集训练的160M参数语言模型
GithubHuggingfacePythia可解释性研究大语言模型开源项目模型模型训练自然语言处理
Pythia-160M-deduped是一个经过去重Pile数据集训练的语言模型,总参数量为1.62亿。模型提供154个训练检查点,性能可与同规模的OPT和GPT-Neo相媲美。该项目主要面向语言模型可解释性研究,采用Apache 2.0协议开源,适合学术研究使用。
Qwen2.5-Math-7B-Instruct - 强大的数学问题求解模型 支持中英双语CoT和TIR推理
CoTGithubHuggingfaceQwen2.5-MathTIR开源项目数学语言模型模型自然语言处理
Qwen2.5-Math-7B-Instruct是一个专注于数学问题求解的大型语言模型。该模型支持链式思考(CoT)和工具集成推理(TIR)方法,可解决中英文数学问题。相较于前代模型,它在多项数学基准测试中表现出色。模型擅长精确计算、符号操作和算法推理,在MATH基准测试中使用TIR方法获得85.3分。作为Qwen2.5-Math系列的指令微调版本,该模型适用于数学问题解答场景。
arithmetic - Abacus Embeddings助力Transformer模型实现算术运算
GithubTransformers嵌入方法开源项目机器学习神经网络算术运算
该研究项目探索Transformer模型的算术能力。研究团队开发的Abacus Embeddings技术使Transformer模型能执行加法、乘法、排序和按位OR等运算。项目提供复现所需的代码、数据集和评估方法,并详述模型训练、测试和分析流程。这一研究为提升AI模型数学运算能力提供新思路。
MINT-1T - 万亿级开源多模态数据集推动AI研究
GithubMINT-1T图文数据多模态数据集开源数据开源项目海量数据
MINT-1T是一个大规模开源多模态数据集,包含1万亿文本标记和34亿张图像,比现有开源数据集规模扩大约10倍。该数据集首次纳入PDF和ArXiv论文等新数据源,提供HTML、PDF和ArXiv等多个子集。MINT-1T旨在为大规模多模态AI模型研究提供丰富的训练资源,其规模和多样性有望促进多模态AI技术的发展。
llemma_7b - 数学推理与计算结合的开源数学语言模型
GithubHuggingfaceLlemma定理证明开源项目数学模型计算工具链式思维
Llemma 7B 是一款以数学推理为核心的语言模型,整合了使用Python和定理证明等工具的计算能力。在数学链式思维任务中,该模型的表现优于同类产品,如Llama-2和Code Llama以及同规格的Minerva版本。其34B参数版本在多个数学数据集测试中表现尤为突出。
mathjs - 全面的JavaScript数学计算库 支持多种数据类型与符号运算
GithubJavaScriptMath.jsNode.js开源项目数学库表达式解析
mathjs是一个功能丰富的JavaScript和Node.js数学库。它具备灵活的表达式解析器,支持符号计算,并内置大量函数和常量。该库可处理普通数字、大数、复数、分数、单位和矩阵等多种数据类型,适用于浏览器和服务器端环境。mathjs易于使用和扩展,是进行各类数学运算的有力工具。
magpie - 利用提示对齐的语言模型从零生成高质量对齐数据
GithubHuggingfaceLLMMagpie对齐数据开源项目数据生成
Magpie 项目通过提示对齐的大型语言模型生成高质量的对齐数据,无需提示工程或种子问题。该方法通过对齐模型的预查询模板生成用户查询和响应,已在Llama-3、Qwen2、Phi 3 和 Gemma-2系列模型上测试。最新更新包括多款增强中文问答能力和推理能力的数据集。项目开放这些高质量数据,推动AI民主化,提升模型对齐过程的透明度。
项目侧边栏1项目侧边栏2
推荐项目
Project Cover

豆包MarsCode

豆包 MarsCode 是一款革命性的编程助手,通过AI技术提供代码补全、单测生成、代码解释和智能问答等功能,支持100+编程语言,与主流编辑器无缝集成,显著提升开发效率和代码质量。

Project Cover

AI写歌

Suno AI是一个革命性的AI音乐创作平台,能在短短30秒内帮助用户创作出一首完整的歌曲。无论是寻找创作灵感还是需要快速制作音乐,Suno AI都是音乐爱好者和专业人士的理想选择。

Project Cover

白日梦AI

白日梦AI提供专注于AI视频生成的多样化功能,包括文生视频、动态画面和形象生成等,帮助用户快速上手,创造专业级内容。

Project Cover

有言AI

有言平台提供一站式AIGC视频创作解决方案,通过智能技术简化视频制作流程。无论是企业宣传还是个人分享,有言都能帮助用户快速、轻松地制作出专业级别的视频内容。

Project Cover

Kimi

Kimi AI助手提供多语言对话支持,能够阅读和理解用户上传的文件内容,解析网页信息,并结合搜索结果为用户提供详尽的答案。无论是日常咨询还是专业问题,Kimi都能以友好、专业的方式提供帮助。

Project Cover

讯飞绘镜

讯飞绘镜是一个支持从创意到完整视频创作的智能平台,用户可以快速生成视频素材并创作独特的音乐视频和故事。平台提供多样化的主题和精选作品,帮助用户探索创意灵感。

Project Cover

讯飞文书

讯飞文书依托讯飞星火大模型,为文书写作者提供从素材筹备到稿件撰写及审稿的全程支持。通过录音智记和以稿写稿等功能,满足事务性工作的高频需求,帮助撰稿人节省精力,提高效率,优化工作与生活。

Project Cover

阿里绘蛙

绘蛙是阿里巴巴集团推出的革命性AI电商营销平台。利用尖端人工智能技术,为商家提供一键生成商品图和营销文案的服务,显著提升内容创作效率和营销效果。适用于淘宝、天猫等电商平台,让商品第一时间被种草。

Project Cover

AIWritePaper论文写作

AIWritePaper论文写作是一站式AI论文写作辅助工具,简化了选题、文献检索至论文撰写的整个过程。通过简单设定,平台可快速生成高质量论文大纲和全文,配合图表、参考文献等一应俱全,同时提供开题报告和答辩PPT等增值服务,保障数据安全,有效提升写作效率和论文质量。

投诉举报邮箱: service@vectorlightyear.com
@2024 懂AI·鲁ICP备2024100362号-6·鲁公网安备37021002001498号