zett

突破语言模型与分词器的兼容性限制

Zero-Shot Tokenizer Transfer 语言模型分词器超网络模型迁移 Github 开源项目

ZeTT是一个创新的开源项目，旨在解决语言模型与分词器之间的兼容性问题。该项目通过零样本分词器迁移技术，使任何语言模型能够与任意分词器协同工作，几乎不需要额外训练。ZeTT提供多个预训练超网络，支持26种语言和代码处理。用户可以轻松将现有模型适配新的分词器，提升模型的通用性。此外，ZeTT还支持训练自定义超网络和迁移微调模型等高级功能，为自然语言处理研究提供新的可能性。

Github

Huggingface

介绍相关项目

subword-nmt - 神经机器翻译子词分割预处理工具

BPEGithub分词开源项目机器翻译神经网络自然语言处理

subword-nmt是一个文本子词分割预处理工具，主要应用于神经机器翻译领域。它实现了字节对编码(BPE)等算法，具备多语言联合学习、词汇过滤和BPE dropout等功能。该工具支持pip安装，提供命令行接口，适用于各类NMT任务，可有效处理罕见词。

m2m100_1.2B - 先进的多语言机器翻译模型实现百种语言无障碍转换

GithubHuggingfaceM2M100多语言翻译开源项目机器学习模型深度学习自然语言处理

m2m100_1.2B是一款革新性的多语言机器翻译模型，覆盖100种语言的9900个翻译方向。该模型采用编码器-解码器架构，能够实现高质量的直接语言转换，无需中间语言过渡。这一突破性技术为全球跨语言交流提供了高效便捷的解决方案，在机器翻译领域具有重要意义。

StableTTS - 轻量级流匹配和DiT驱动的新一代TTS模型

GithubStableTTSTTS模型人工智能开源项目语音合成

StableTTS是一款开源的轻量级中英文语音合成模型，参数量仅为1000万。该项目创新性地结合了流匹配和扩散卷积Transformer技术，灵感源自Stable Diffusion 3。StableTTS提供预训练模型，支持推理、微调和WebUI应用。其独特的模型架构包含扩散卷积Transformer块和流匹配解码器，旨在提升语音合成质量。项目还提供了便捷的训练和推理工具，以及Hugging Face在线演示平台。

UER-py - 自然语言处理的开源预训练工具包

BERTGithubNLP任务UER-py开源项目模型微调预训练模型

UER-py是一个为自然语言处理任务设计的预训练和微调工具包，支持多种预训练模型以优化下游任务表现。项目强调模块化设计，并提供可扩展接口，支持单GPU及多GPU配置。

USLM - 语音信息分层建模与零样本文本转语音的统一框架

GithubLibriTTSSpeechTokenizerUSLM开源项目语音语言模型零样本TTS

USLM是基于SpeechTokenizer构建的统一语音语言模型，结合自回归和非自回归模型实现语音信息的分层建模。该开源项目提供完整的安装指南、预训练模型和零样本文本转语音推理流程。USLM在LibriTTS数据集上训练，展示了语音内容和副语言信息建模的能力，为语音处理研究提供新思路。

ChineseNER - 多模型支持的中文命名实体识别开源项目

Github中文NER命名实体识别多任务学习开源项目深度学习模型词汇增强

这是一个开源的中文命名实体识别项目，集成了多种深度学习模型。从BiLSTM-CRF到BERT-BiLSTM-CRF，再到多任务学习模型，涵盖了NER领域的主流算法。项目特色包括词汇增强、数据增强和MRC框架等创新功能。同时提供了完整的训练、评估流程和Docker部署方案，便于研究者和开发者使用。项目集成了从BiLSTM-CRF到BERT系列的多种NER模型，并创新性地引入词汇增强、数据增强和MRC框架等技术。不仅提供了详细的模型训练和评估指南，还支持Docker部署，方便研究人员和工程师快速应用到实际场景中。

Pretrained-Language-Model - 先进预训练语言模型与优化技术集合

GithubMindSporePyTorchTensorFlow开源项目自然语言处理预训练语言模型

此开源项目汇集了多个先进的预训练语言模型和相关优化技术。包含200B参数中文语言模型PanGu-α、高性能中文NLP模型NEZHA、模型压缩技术TinyBERT和DynaBERT等子项目。这些模型在多项中文NLP任务中表现出色，支持MindSpore、TensorFlow和PyTorch等多种深度学习框架。

Chinese-Tiny-LLM - 中文大语言模型训练流程与高质量语料库开源项目

Chinese-Tiny-LLMGithub中文语料库开源项目自然语言处理语言模型预训练

Chinese-Tiny-LLM项目提供完整的中文网络语料清洗流程和预训练代码，包含MAP-CC（8000亿中文token预训练数据集）、CHC-Bench（中文难例指令理解基准测试）和CT-LLM（2B参数中文中心语言模型）。该项目突破了传统依赖英语语料库的LLM训练方法，为构建更具包容性和适应性的语言模型奠定基础。

ESFT - 专家专门化微调提升稀疏大语言模型性能

ESFTGithub专家混合大语言模型开源项目效率提升模型微调

ESFT项目提出专家专门化微调方法，针对Mixture-of-Experts架构的大语言模型进行高效定制。通过仅调整任务相关部分，该方法提高了模型效率和性能，同时降低资源消耗。项目开源了训练代码和评估脚本，方便研究人员应用于自有模型和数据集。这一技术为大规模语言模型的个性化和优化提供了新思路。

zep - AI Assistant 应用程序的长期内存服务

AI助理GithubZep对话历史嵌入式消息开源项目长期记忆

Zep 为 AI 助手应用提供长期记忆服务，通过持久化和回忆聊天记录，减少幻觉、降低延迟和成本。核心功能包括自动生成摘要、嵌入消息和上下文搜索，异步操作保证用户体验不受影响。Zep 还提供文档向量搜索和 Zep Cloud 托管服务，支持事实提取、对话分类和结构化数据提取，兼容 Python 和 TypeScript/JS 等多种语言和框架，提升开发效率。

相关项目

项目侧边栏1

项目侧边栏2

推荐项目

Project Cover

豆包MarsCode

豆包 MarsCode 是一款革命性的编程助手，通过AI技术提供代码补全、单测生成、代码解释和智能问答等功能，支持100+编程语言，与主流编辑器无缝集成，显著提升开发效率和代码质量。

Project Cover

AI写歌

Suno AI是一个革命性的AI音乐创作平台，能在短短30秒内帮助用户创作出一首完整的歌曲。无论是寻找创作灵感还是需要快速制作音乐，Suno AI都是音乐爱好者和专业人士的理想选择。

Project Cover

有言AI

有言平台提供一站式AIGC视频创作解决方案，通过智能技术简化视频制作流程。无论是企业宣传还是个人分享，有言都能帮助用户快速、轻松地制作出专业级别的视频内容。

Project Cover

Kimi

Kimi AI助手提供多语言对话支持，能够阅读和理解用户上传的文件内容，解析网页信息，并结合搜索结果为用户提供详尽的答案。无论是日常咨询还是专业问题，Kimi都能以友好、专业的方式提供帮助。

Project Cover

阿里绘蛙

绘蛙是阿里巴巴集团推出的革命性AI电商营销平台。利用尖端人工智能技术，为商家提供一键生成商品图和营销文案的服务，显著提升内容创作效率和营销效果。适用于淘宝、天猫等电商平台，让商品第一时间被种草。

Project Cover

吐司

探索Tensor.Art平台的独特AI模型，免费访问各种图像生成与AI训练工具，从Stable Diffusion等基础模型开始，轻松实现创新图像生成。体验前沿的AI技术，推动个人和企业的创新发展。

Project Cover

SubCat字幕猫

SubCat字幕猫APP是一款创新的视频播放器，它将改变您观看视频的方式！SubCat结合了先进的人工智能技术，为您提供即时视频字幕翻译，无论是本地视频还是网络流媒体，让您轻松享受各种语言的内容。

Project Cover

美间AI

美间AI创意设计平台，利用前沿AI技术，为设计师和营销人员提供一站式设计解决方案。从智能海报到3D效果图，再到文案生成，美间让创意设计更简单、更高效。

Project Cover

稿定AI

稿定设计是一个多功能的在线设计和创意平台，提供广泛的设计工具和资源，以满足不同用户的需求。从专业的图形设计师到普通用户，无论是进行图片处理、智能抠图、H5页面制作还是视频剪辑，稿定设计都能提供简单、高效的解决方案。该平台以其用户友好的界面和强大的功能集合，帮助用户轻松实现创意设计。

使用协议隐私政策广告服务

投诉举报邮箱: service@vectorlightyear.com

@2024 懂AI·鲁ICP备2024100362号-6·鲁公网安备37021002001498号