OLMo-Bitnet-1B

利用1B参数模型验证1位LLM训练新方法

参数模型 Github 开源项目自然语言处理模型 Huggingface Dolma 大模型 OLMo-Bitnet-1B

OLMo-Bitnet-1B项目验证了1位大型语言模型训练方法的潜力。通过Dolma数据集的60亿标记构建了拥有10亿参数的模型，旨在探索新方法的可行性。项目还进行了fp16权重的对比实验，详情见相关报告。模型支持文本生成，包括示例代码方便研究和应用者评估该技术。

LongLoRA - 探索大规模长上下文语言模型的高效训练与实用应用

GithubLLaMA2LoRALongAlpaca开源项目深度学习长上下文语言模型

LongLoRA项目开发了一种高效微调方法，处理大型长上下文语言模型，涵盖了从7B至70B的各种模型规模和LongAlpaca-12k实验性数据集。项目支持多种微调方式，在基凊测试中验证了模型性能，技术可应用于多种NLP任务，助力复杂语言处理。实现显著性能优势，为企业和研究人员在从机器翻译到自动摘要等NLP任务中提供了有效的解决方案。

MobileLLM - 轻量高效的移动设备语言模型

AI模型GithubMobileLLM开源项目深度学习神经网络语言模型

MobileLLM是一个针对移动设备优化的大型语言模型项目。该模型通过SwiGLU激活函数、深窄架构、嵌入共享和分组查询注意力等技术，在亿级参数规模下实现了高性能。MobileLLM在零样本常识推理任务中表现出色，不仅在125M和350M参数规模上超越了现有最先进模型，还成功扩展至600M、1B和1.5B参数规模，展示了其在移动设备应用中的潜力。

TinyLlama-1.1B-intermediate-step-715k-1.5T - 紧凑型AI模型的快速训练与高效优化

GPUGithubHuggingfaceLlama模型TinyLlama参数紧凑性开源项目模型预训练

TinyLlama项目在90天内利用16台A100-40G GPU完成了1.1B参数模型的预训练，涉及3万亿个令牌。该模型因其紧凑和模块化设计，适用于资源有限的多种应用场合。最新的中间检查点提供了715K步和1.49T令牌的参数，评估基准上表现均有提升。详情请访问TinyLlama GitHub页面。

DeepSeek-LLM - 多语言大模型展现卓越编码与数学能力

DeepSeek LLMGithub人工智能开源开源项目自然语言处理语言模型

DeepSeek LLM是一个包含67亿参数的先进语言模型,经过2万亿英文和中文token的训练。该模型在推理、编码、数学和中文理解等方面表现优异,超越多个同类模型。其67B Chat版本在编码和数学方面尤为出色,在HumanEval和GSM8K等基准测试中名列前茅。项目开源了7B和67B的base与chat版本,可用于学术和商业研究。

LLMBox - 全面的大型语言模型训练与评估框架

GithubLLMBox大语言模型开源项目模型评估训练管道高效推理

LLMBox是一个综合性大型语言模型(LLM)库，集成了统一的训练流程和全面的模型评估功能。该框架旨在提供LLM训练和应用的完整解决方案，其设计注重实用性，在训练和使用过程中体现出高度的灵活性和效率。LLMBox支持多样化的训练策略和数据集，提供丰富的评估方法，并具备高效的推理和量化能力，为LLM的研究和开发提供了强大支持。

MicroLlama - 预算内的大规模语言模型构建：300M Llama模型的探索

GithubHuggingfaceMicroLlamahuggingface开源开源项目文本生成模型语言模型

该项目在有限预算内，通过全面开源的方法构建了一个300M Llama语言模型。尽管性能不及更大型的模型，但以不到500美元的投入，在多数据集上表现出色，并在与类似参数的BERT模型比较时展现优势。项目使用Vast.ai的计算资源和AWS S3存储，对TinyLlama模型进行了调整，重点优化Slimpajama数据集。这一项目展示了低成本大规模模型开发的潜力，并为细化应用如轻量级聊天机器人提供了坚实基础。

GLM-4 - 多语言支持与长文本处理能力

AI对话GLM-4Github多模态大语言模型开源项目长文本

GLM-4-9B系列是智谱AI推出的开源预训练模型,包括基础版、支持128K上下文的Chat版、1M长文本版及多模态版。该系列支持26种语言,在语义理解、数学计算、逻辑推理等多项评测中表现优异。GLM-4-9B-Chat具备网页浏览、代码执行等功能,GLM-4V-9B则增加了视觉理解能力。这些模型在多项基准测试中均超越了同规模竞品。

ml-engineering - 大规模语言模型与多模态模型的训练方法

BLOOM-176BContextual.AIGithubHuggingFaceLarge Language ModelsVLM开源项目

本指南系统介绍了方法、工具和逐步操作说明，帮助工程师成功训练大规模语言模型（LLM）和多模态模型（VLM）。内容涵盖丰富的脚本和命令，适合LLM/VLM训练工程师和操作员使用。基于作者在开源BLOOM-176B和IDEFICS-80B模型训练中的经验，提供有效解决方案，并持续更新，服务于ML社区。

ChatGLM-6B - 高效灵活的开源双语对话模型的本地部署与定制

AI对话ChatGLM-6BGithub中英双语大语言模型开源开源项目

ChatGLM-6B是一款开源的中英双语对话语言模型，采用GLM架构，拥有62亿参数。该模型支持低资源设备部署，6GB显存即可运行。经过约1T标识符训练和多种技术优化，ChatGLM-6B能生成贴近人类偏好的回答。模型提供高效参数微调方法，便于开发者进行应用定制。该项目完全开放学术研究，同时允许免费商业使用，致力于推动大模型技术进步。

LLM2LLM - 探索迭代数据增强提升语言模型性能

GSM8KGithubLLM2LLM大语言模型开源项目数据增强迭代学习

LLM2LLM项目提出了一种迭代数据增强方法，旨在提升大型语言模型的性能。该方法通过数据生成和筛选，创建高质量训练数据，逐步改进模型能力。研究团队在GSM8K等数据集上的实验证实了方法的有效性。项目已开源代码并提供复现指南，为相关研究和开发工作提供了参考资源。

推荐项目

豆包MarsCode

豆包 MarsCode 是一款革命性的编程助手，通过AI技术提供代码补全、单测生成、代码解释和智能问答等功能，支持100+编程语言，与主流编辑器无缝集成，显著提升开发效率和代码质量。

AI写歌

Suno AI是一个革命性的AI音乐创作平台，能在短短30秒内帮助用户创作出一首完整的歌曲。无论是寻找创作灵感还是需要快速制作音乐，Suno AI都是音乐爱好者和专业人士的理想选择。

有言AI

有言平台提供一站式AIGC视频创作解决方案，通过智能技术简化视频制作流程。无论是企业宣传还是个人分享，有言都能帮助用户快速、轻松地制作出专业级别的视频内容。

Kimi

Kimi AI助手提供多语言对话支持，能够阅读和理解用户上传的文件内容，解析网页信息，并结合搜索结果为用户提供详尽的答案。无论是日常咨询还是专业问题，Kimi都能以友好、专业的方式提供帮助。

阿里绘蛙

绘蛙是阿里巴巴集团推出的革命性AI电商营销平台。利用尖端人工智能技术，为商家提供一键生成商品图和营销文案的服务，显著提升内容创作效率和营销效果。适用于淘宝、天猫等电商平台，让商品第一时间被种草。

吐司

探索Tensor.Art平台的独特AI模型，免费访问各种图像生成与AI训练工具，从Stable Diffusion等基础模型开始，轻松实现创新图像生成。体验前沿的AI技术，推动个人和企业的创新发展。

SubCat字幕猫

SubCat字幕猫APP是一款创新的视频播放器，它将改变您观看视频的方式！SubCat结合了先进的人工智能技术，为您提供即时视频字幕翻译，无论是本地视频还是网络流媒体，让您轻松享受各种语言的内容。

美间AI

美间AI创意设计平台，利用前沿AI技术，为设计师和营销人员提供一站式设计解决方案。从智能海报到3D效果图，再到文案生成，美间让创意设计更简单、更高效。

AIWritePaper论文写作

AIWritePaper论文写作是一站式AI论文写作辅助工具，简化了选题、文献检索至论文撰写的整个过程。通过简单设定，平台可快速生成高质量论文大纲和全文，配合图表、参考文献等一应俱全，同时提供开题报告和答辩PPT等增值服务，保障数据安全，有效提升写作效率和论文质量。

使用协议隐私政策广告服务

投诉举报邮箱: service@vectorlightyear.com