Project Icon

RedPajama-Data

开放大规模多语言数据集助力大型语言模型训练

RedPajama-Data-v2是一个包含30万亿tokens的开放数据集,用于训练大型语言模型。该数据集涵盖了超过100B的文本文档,来源于84个CommonCrawl快照。它包含英语、德语、法语、意大利语和西班牙语5种语言的内容,并提供多种质量信号和去重处理。项目提供完整的数据处理流程,包括准备工件、计算质量信号和去重等步骤,为语言模型研究提供高质量的大规模语料资源。

MNBVC - MNBVC大规模中文语料集:覆盖多样类型数据支持开源社区
GithubMNBVChuggingface中文语料集开源社区开源项目数据清洗
MNBVC中文语料集由MOP里屋社区发起,目标是创建最大的中文互联网语料集,涵盖新闻、小说、论文等多种类型数据。当前数据量为34582GB,最终目标为40TB。MNBVC提供多种文件格式的数据,包括txt、json、jsonl和parquet,并配备一系列优化工具及爬虫代码协助数据处理。项目欢迎有技术背景的志愿者参与,提升数据清洗效率。访问Wiki了解更多信息。
llama-models - Meta推出的开放大型语言模型Llama
GithubLlama人工智能大语言模型开源开源项目自然语言处理
llama-models是Meta开发的开放大型语言模型项目,为AI开发者、研究人员和企业提供易用的工具。项目包含Llama 2、Llama 3和Llama 3.1等多个版本,支持不同模型规模和上下文长度。llama-models注重开放性、生态系统支持和安全性,为AI创新与负责任发展奠定基础。
Llama-2-7b-hf - Meta开发的开源语言模型 支持多种参数规模和商业应用
GithubHuggingfaceLlama 2人工智能大语言模型开源项目模型自然语言处理预训练模型
Llama-2-7b-hf是Meta推出的开源大型语言模型之一,采用优化的Transformer架构。该模型经过2万亿token预训练,拥有70亿参数,支持4k上下文长度。Llama 2系列提供预训练和微调版本,可用于多种自然语言生成任务。在多项基准测试中表现优异,并支持商业应用,是一个功能强大的开源AI工具。
awesome-open-data-centric-ai - 开源工具提升数据驱动的AI构建效率
DCAIData-centric AIGithubRenumicsopen-source工具unstructured data开源项目
该项目提供了多种开源工具,旨在在非结构化数据上实现数据驱动的AI工作流。通过系统地提升训练数据集的质量,可以开发出在实际应用中具备更高价值的AI系统。工具涵盖数据版本控制、嵌入和预训练模型、可视化与交互、异常和噪声检测、可解释性、主动学习等多个类别,且均为活跃维护,适用于日常使用。目标是帮助用户发现并利用这些工具,从而提高AI系统的开发效率和质量。
Qwen-7B - 70亿参数规模的多语言开源预训练语言模型
GithubHuggingfaceQwen-7B多语言大语言模型开源项目模型评测预训练
Qwen-7B是一个70亿参数规模的开源预训练语言模型,基于超过2.4万亿tokens的多语言语料训练而成。该模型支持15万规模的多语言词表,在常识推理、代码生成、数学计算、机器翻译等多个评测任务中表现优异。通过采用RoPE位置编码、SwiGLU激活函数等技术,Qwen-7B具备强大的多语言理解和处理能力,同时支持长文本输入和高效推理。
awesome-huge-models - 大型AI模型最新动态与开源资源汇总
AI训练GithubLLMdeep learning模型大模型开源开源项目
详尽介绍大型AI语言模型最新进展及开源资源,包括训练代码、数据集和预训练权重。收录Baichuan、Falcon、OpenLLaMA等模型,并关注开源与分布式训练框架如PyTorch和XLA生态。提供全面资源链接,帮助研究人员和开发者了解当前AI模型的最前沿动态。
Chinese-LLaMA-Alpaca - 中文NLP开源模型,深化语义理解与执行技术
Github中文Alpaca中文LLaMA大模型开源开源项目指令精调
Chinese-LLaMA-Alpaca-3项目致力于提升中文NLP的处理效率和效果,通过扩展中文词表并使用中文数据进行二次预训练,大幅增强了中文文本的编解码能力。该项目提供了完善的模型下载、部署和训练指导,支持多种生态系统和快速本地部署,适合高质量文本生成和多轮对话任务。同时,通过开源和社区合作,推动开源大模型技术研究及应用。
GigaSpeech - 多领域英语语音识别数据集提供10,000小时转录音频
GigaSpeechGithub开源项目数据集深度学习语音识别音频处理
GigaSpeech是一个开源的多领域英语语音识别数据集,包含33,000多小时音频数据,其中10,000小时有高质量人工转录。数据来源包括有声书、播客和YouTube等,并提供多个规模的训练和评估子集。项目提供多种语音识别工具包的数据准备脚本,由志愿者维护并欢迎社区贡献,旨在促进语音技术的研究和应用。
LLaMA2-Accessory - 全方位开源工具助力大规模语言与多模态模型研发
GithubLLaMA2-Accessory多模态大语言模型开源项目微调预训练
LLaMA2-Accessory是一个全面的开源工具包,专注于大规模语言模型和多模态语言模型的开发。该工具支持预训练、微调和部署,涵盖多种数据集和任务类型。工具包提供高效的优化和部署方法,并兼容多种视觉编码器和语言模型。其中还包含SPHINX,这是一个融合多种训练任务、数据领域和视觉嵌入的多功能多模态大型语言模型。
llama - 开源大语言模型推动自然语言处理发展
GithubLlamaMeta人工智能大语言模型开源开源项目
Llama 2是Meta公司开发的开源大语言模型系列,提供7B至70B参数的预训练和微调模型。该项目为研究和商业用途提供模型权重和代码,支持多样化的自然语言处理应用。Llama 2注重负责任的AI发展,实施严格的使用政策。项目包含多个仓库,构建了从基础模型到端到端系统的完整技术栈,为AI领域的创新和应用提供了重要支持。
项目侧边栏1项目侧边栏2
推荐项目
Project Cover

豆包MarsCode

豆包 MarsCode 是一款革命性的编程助手,通过AI技术提供代码补全、单测生成、代码解释和智能问答等功能,支持100+编程语言,与主流编辑器无缝集成,显著提升开发效率和代码质量。

Project Cover

AI写歌

Suno AI是一个革命性的AI音乐创作平台,能在短短30秒内帮助用户创作出一首完整的歌曲。无论是寻找创作灵感还是需要快速制作音乐,Suno AI都是音乐爱好者和专业人士的理想选择。

Project Cover

白日梦AI

白日梦AI提供专注于AI视频生成的多样化功能,包括文生视频、动态画面和形象生成等,帮助用户快速上手,创造专业级内容。

Project Cover

有言AI

有言平台提供一站式AIGC视频创作解决方案,通过智能技术简化视频制作流程。无论是企业宣传还是个人分享,有言都能帮助用户快速、轻松地制作出专业级别的视频内容。

Project Cover

Kimi

Kimi AI助手提供多语言对话支持,能够阅读和理解用户上传的文件内容,解析网页信息,并结合搜索结果为用户提供详尽的答案。无论是日常咨询还是专业问题,Kimi都能以友好、专业的方式提供帮助。

Project Cover

讯飞绘镜

讯飞绘镜是一个支持从创意到完整视频创作的智能平台,用户可以快速生成视频素材并创作独特的音乐视频和故事。平台提供多样化的主题和精选作品,帮助用户探索创意灵感。

Project Cover

讯飞文书

讯飞文书依托讯飞星火大模型,为文书写作者提供从素材筹备到稿件撰写及审稿的全程支持。通过录音智记和以稿写稿等功能,满足事务性工作的高频需求,帮助撰稿人节省精力,提高效率,优化工作与生活。

Project Cover

阿里绘蛙

绘蛙是阿里巴巴集团推出的革命性AI电商营销平台。利用尖端人工智能技术,为商家提供一键生成商品图和营销文案的服务,显著提升内容创作效率和营销效果。适用于淘宝、天猫等电商平台,让商品第一时间被种草。

Project Cover

AIWritePaper论文写作

AIWritePaper论文写作是一站式AI论文写作辅助工具,简化了选题、文献检索至论文撰写的整个过程。通过简单设定,平台可快速生成高质量论文大纲和全文,配合图表、参考文献等一应俱全,同时提供开题报告和答辩PPT等增值服务,保障数据安全,有效提升写作效率和论文质量。

投诉举报邮箱: service@vectorlightyear.com
@2024 懂AI·鲁ICP备2024100362号-6·鲁公网安备37021002001498号