#知识蒸馏

nix-tts - 端到端文本转语音解决方案
Nix-TTS文本转语音知识蒸馏轻量级非自回归Github开源项目
Nix-TTS通过模块化知识蒸馏技术实现了高效轻量的端到端文本转语音合成,显著降低模型尺寸至5.23M参数,加速了处理速度,同时保持了良好的声音自然性。
CVPR2024-Papers-with-Code-Demo - 最新CVPR论文及其代码全面解析
CVPR 2024论文Diffusion Model知识蒸馏多模态Github开源项目
CVPR2024-Papers-with-Code-Demo项目整合了CVPR会议的最新论文和开源代码,覆盖机器学习、计算机视觉等多个领域,提供丰富的论文资源和代码链接。适合学者和开发者深入探讨和应用最新科研成果。
Awesome-Efficient-LLM - 知识蒸馏、网络剪枝、量化和加速推理等针对大型语言模型优化的关键技术的汇总
Large Language Models模型剪枝知识蒸馏量化效率优化Github开源项目
Awesome-Efficient-LLM项目汇总了针对大型语言模型优化的关键技术,包括知识蒸馏、网络剪枝、量化和加速推理等,支持研究者和开发者获取最新的效率提升方法和学术文献。该平台定期更新,提供过去60天内的相关研究成果,便于用户系统地探索和应用这些高效技术。
torchdistill - 模块化深度学习知识蒸馏框架
torchdistill知识蒸馏深度学习PyYAML模型训练Github开源项目
torchdistill是一款模块化的深度学习知识蒸馏框架,通过编辑yaml文件即可设计实验,无需编写Python代码。支持提取模型中间表示,方便进行可重复的深度学习研究。通过ForwardHookManager,无需修改模型接口即可提取数据。支持从PyTorch Hub导入模块,并包含多种范例代码及预训练模型,适用于图像分类、目标检测、语义分割和文本分类等任务。
EasyNLP - 综合性易用的NLP工具包,支持大规模预训练模型
EasyNLPNLP工具包分布式训练知识蒸馏多模态预训练模型Github开源项目
EasyNLP是一个由阿里巴巴发布的自然语言处理工具包,基于PyTorch架构,支持分布式训练和多种NLP算法。它结合知识蒸馏和少样本学习技术,支持大规模预训练模型的部署,并支持CLIP和DALLE等多模态预训练模型,与阿里云PAI平台无缝集成,提供统一的模型训练和部署框架,广泛应用于多个业务场景。
VLM_survey - 用于视觉任务的 AWESOME 视觉语言模型集合
Vision-Language Models视觉识别任务预训练方法知识蒸馏数据集Github开源项目
本页面详尽介绍了视觉语言模型(VLM)在视觉识别任务中的应用和发展。内容涵盖VLM的起源、常用架构、预训练目标、主流数据集及不同的预训练方式、迁移学习和知识蒸馏方法,并针对这些方法进行了详细的基准测试和分析。页面还讨论了未来研究的挑战和方向,让用户掌握VLM技术在图像分类、对象检测和语义分割等任务中的最新应用进展。
Awesome-Deep-Neural-Network-Compression - 深度神经网络压缩技术资源库
深度神经网络压缩量化剪枝知识蒸馏模型优化NASGithub开源项目
该项目汇集了深度神经网络压缩的综合资源,包括量化、剪枝和蒸馏等技术的论文、总结和代码。涵盖高效模型设计、神经架构搜索等相关主题,并提供按会议和年份分类的论文列表。项目还收录了主流压缩系统和工具链接,为深度学习模型压缩研究提供了全面的参考资料。
Knowledge-Distillation-Toolkit - 开源知识蒸馏工具包助力机器学习模型压缩
知识蒸馏模型压缩PyTorch学生模型教师模型Github开源项目
Knowledge-Distillation-Toolkit是一个基于PyTorch和PyTorch Lightning的开源工具包,用于简化机器学习模型压缩过程。通过知识蒸馏技术,用户只需提供教师模型、学生模型、数据加载器和推理管道即可实现模型压缩。该工具包支持多种优化方法和学习率调度器,并提供详细的使用说明和示例代码,方便研究人员和开发者进行模型压缩实验。
LLM4Annotation - 大型语言模型在数据标注中的应用及研究进展
大语言模型数据标注知识蒸馏提示工程少样本学习Github开源项目
LLM4Annotation项目概述了大型语言模型在数据标注领域的应用研究。该项目涵盖LLM标注方法、质量评估及学习利用等方面,探讨了LLM提升数据标注效率和质量的潜力。这份综述为相关研究人员提供了系统性参考,展示了LLM在数据标注领域的最新进展。
smol-vision - 前沿视觉模型优化与定制的实用技巧集锦
Smol Vision视觉模型优化ONNX量化模型微调知识蒸馏Github开源项目
smol-vision项目汇集了多种视觉模型优化技术,包括量化、ONNX转换、模型微调和知识蒸馏。项目提供了实用示例,展示如何使用Optimum优化目标检测模型、微调PaliGemma和Florence-2视觉语言模型,以及通过torch.compile加速基础模型。这些方法旨在帮助开发者提高模型性能、缩小规模和加快推理速度,使模型更好地适应各种硬件环境。
BK-SDM - 高效轻量的Stable Diffusion压缩模型
Stable DiffusionAI绘图模型压缩知识蒸馏图像生成Github开源项目
BK-SDM是一种压缩版Stable Diffusion模型,通过移除U-Net中的部分模块实现轻量化。该模型采用有限数据进行蒸馏预训练,适用于SD v1和v2各版本,提供基础、小型和微型三种规模。BK-SDM在保持图像质量的同时,显著提高了推理速度,降低了计算资源需求,为高效文本到图像生成提供了新选择。
awesome-knowledge-distillation - 知识蒸馏技术研究论文资源集锦
知识蒸馏深度学习模型压缩神经网络AIGithub开源项目
项目汇集了知识蒸馏领域的学术论文,内容丰富全面。资源从早期神经网络集成研究到当前前沿方法,涉及模型压缩、迁移学习等多个相关方向。对于深入研究知识蒸馏技术的学者和工程师而言,这是一个系统化的参考资料库。
LD - 高效提升目标检测模型性能的定位知识蒸馏方法
目标检测知识蒸馏定位蒸馏COCOPASCAL VOCGithub开源项目
LD项目提出了一种创新的定位蒸馏方法,旨在高效传递教师模型的定位知识到学生模型。该方法重构了定位知识蒸馏过程,并引入了有价值定位区域的概念,有选择地蒸馏语义和定位信息。实验结果显示,在不增加推理时间的前提下,LD能将GFocal-ResNet-50模型在COCO数据集上的AP从40.1提升至42.1。这种简单有效的蒸馏方案适用于多种密集目标检测器。
Efficient-Deep-Learning - 深度神经网络压缩和加速方法综述
神经网络压缩模型加速网络剪枝权重量化知识蒸馏Github开源项目
此项目汇总了深度神经网络压缩和加速的多种方法,涵盖神经架构设计、剪枝、量化、矩阵分解和知识蒸馏等技术。重点介绍了剪枝(含彩票假设)、知识蒸馏和量化等领域的研究进展,并提供了大量相关论文摘要。项目还收录了初始化剪枝和高效视觉Transformer等相关资源,为该领域的研究和开发提供了全面参考。
bert_uncased_L-12_H-768_A-12 - BERT迷你模型优化低资源环境下的应用
紧凑模型BERTGithub开源项目计算资源Huggingface预训练知识蒸馏模型
BERT Miniatures提供24款小型BERT模型,适合计算资源有限的环境。利用知识蒸馏,这些模型可通过微调获得精确的结果,旨在支持低资源环境的研究并鼓励探索新的创新方向。用户可在官方BERT GitHub页面及HuggingFace平台下载这些模型。它们在GLUE基准测试中表现良好,可通过调整超参数实现最佳效果。详情请参考相关文献。
SuperNova-Medius-GGUF - 跨架构蒸馏技术打造的14B参数高性能语言模型
语言模型模型SuperNova-Medius人工智能Github知识蒸馏Huggingface开源项目自然语言处理
SuperNova-Medius-GGUF是一款14B参数的语言模型,采用跨架构蒸馏技术融合Qwen2.5-72B-Instruct和Llama-3.1-405B-Instruct的优势。该模型在指令遵循和复杂推理方面表现优异,适用于客户支持、内容创作和技术辅助等场景。经多项基准测试,SuperNova-Medius性能超越同类模型,在保持资源效率的同时提供强大功能,为组织提供高质量生成式AI应用解决方案。
distilbert-onnx - DistilBERT模型在SQuAD问答任务上的ONNX转换优化
模型DistilBERT问答系统Github知识蒸馏开源项目HuggingfaceONNX转换自然语言处理
本项目提供了distilbert-base-cased-distilled-squad模型的ONNX转换版本。该模型基于DistilBERT-base-cased,经过第二轮知识蒸馏在SQuAD v1.1数据集上微调。在开发集上,模型达到87.1的F1分数,接近BERT bert-base-cased版本的88.7。这一ONNX实现为问答任务提供了轻量高效的解决方案。
distilrubert-base-cased-conversational - 经过蒸馏的俄语对话模型 提升速度减少参数
模型压缩知识蒸馏Huggingface模型俄语模型Github开源项目自然语言处理DistilRuBERT
distilrubert-base-cased-conversational是一个经过知识蒸馏的俄语对话模型,基于RuBERT开发。该模型在保持性能的同时,将参数量减少24%,显著提升了推理速度。它在多种俄语对话数据集上训练,适用于广泛的对话场景。与原始RuBERT相比,该模型在CPU和GPU上均实现了更快的处理速度,为需要高效俄语对话处理的应用提供了优秀选择。
InternViT-300M-448px - 动态分辨率视觉模型提供高效特征提取和OCR功能
知识蒸馏Huggingface模型OCR能力图像嵌入InternViTGithub视觉基础模型开源项目
InternViT-300M-448px是一个经过知识蒸馏的视觉基础模型,具有304M参数量和448x448的动态输入分辨率。该模型支持多图块处理,训练时1-12个,测试时可扩展至40个。通过在LAION、COYO等多个数据集上预训练,并整合额外OCR数据,模型展现出优秀的鲁棒性、文字识别和高分辨率处理能力。它可为多种视觉任务提供高质量的图像特征提取。
bert_uncased_L-4_H-256_A-4 - 精简BERT模型系列适用于计算资源受限场景
模型BERTGithub开源项目Huggingface迁移学习模型压缩自然语言处理知识蒸馏
bert_uncased_L-4_H-256_A-4是BERT模型系列中的一款,专为计算资源受限环境设计。该模型保留了标准BERT架构和训练目标,但规模更小。它可进行常规微调,在知识蒸馏中表现尤佳。此项目旨在支持资源有限的机构开展研究,并鼓励探索创新方向,而非单纯扩大模型规模。
SSD-1B - 轻量高效的Stable Diffusion文图生成模型
模型开源项目HuggingfaceStable DiffusionAI绘图GithubSSD-1B文本生成图像知识蒸馏
SSD-1B是Stable Diffusion XL的蒸馏版本,将模型参数减少50%,同时推理速度提升60%。通过知识蒸馏技术,SSD-1B融合多个专家模型的优势,保持了高质量的文图生成能力。该模型支持多种输出分辨率,适用于艺术创作、教育和研究等领域。在A100和RTX 4090 GPU上,SSD-1B比原版SDXL模型更快,为实时应用提供了高效选择。
bert-medium - BERT中型变体模型用于高效下游任务训练
模型BERTGithub预训练模型知识蒸馏开源项目Huggingface机器学习自然语言处理
bert-medium是Google BERT官方仓库发布的轻量级预训练模型变体。作为bert-tiny、bert-mini和bert-small系列中的一员,该模型在缩小规模的同时保持了良好性能。bert-medium采用8层结构,隐藏层大小为512,旨在为下游任务提供高效的训练基础。这一中型变体适合于需要在计算资源和模型表现之间寻求平衡的应用场景。
bert_uncased_L-4_H-512_A-8 - BERT小型模型为资源受限环境提供高效自然语言处理解决方案
模型BERTGithub模型压缩GLUE知识蒸馏Huggingface开源项目自然语言处理
BERT小型模型是为计算资源受限环境设计的自然语言处理工具。它保留了标准BERT架构和训练目标,但模型规模更小,适用于多种应用场景。这种模型在知识蒸馏中表现出色,可利用更大、更精确的模型生成微调标签。其目标是促进资源有限机构的研究工作,并鼓励学术界探索模型创新的新方向,而非仅仅增加模型容量。
distilrubert-small-cased-conversational - 小型化俄语对话模型提升推理速度
模型压缩知识蒸馏Huggingface模型俄语模型Github开源项目自然语言处理DistilRuBERT
distilrubert-small-cased-conversational是一个经过知识蒸馏的小型俄语对话模型。它基于OpenSubtitles、Dirty、Pikabu等多种语料库训练,在保持性能的同时显著提高了推理速度。该模型在分类、命名实体识别和问答等NLP任务中表现出色,同时大幅减小了模型体积,适用于需要高效处理俄语自然语言的应用场景。
bert_uncased_L-8_H-256_A-4 - 24种BERT小模型为计算资源有限的研究环境提供支持
计算资源预训练知识蒸馏开源项目BERT模型Huggingface模型压缩Github
此项目提供24种BERT模型,适用于计算资源有限的环境,可通过知识蒸馏进行有效的模型微调,支持低资源机构的研究工作。
chinese-roberta-wwm-ext-large - 中文自然语言处理的全词掩码预训练模型
BERT开源项目预训练模型模型GithubHuggingface全词掩码知识蒸馏中文自然语言处理
中文BERT全词掩码预训练模型加速中文自然语言处理,提升精准语义理解。基于Google BERT并结合全词掩码策略,其在文本分类、情感分析以及问答系统等多种NLP应用中表现优异,是探索中文语言理解的有力工具。
jina-reranker-v1-tiny-en - 快速文本重排序解决方案,支持最长8192个token处理
reranker模型GithubALiBi知识蒸馏文本分类Jina AIHuggingface开源项目
jina-reranker-v1-tiny-en在JinaBERT模型基础上通过知识蒸馏技术实现高效文本重排序,支持最长8192个token的处理,适用于高速度需求场景,并确保结果的准确性。提供多种接入方式,包括Jina AI Reranker API、sentence-transformers库及transformers.js等。该模型表现优异,确保搜索结果的相关性和准确性。
bert_uncased_L-12_H-512_A-8 - 小型BERT模型适用于有限计算资源的高效预训练
紧凑模型开源项目模型GithubHuggingface预训练知识蒸馏计算资源BERT
该项目介绍了24种面向资源受限环境的小型BERT模型,支持低计算资源研究。模型遵循BERT标准架构,并在知识蒸馏中表现优异,可通过官方GitHub和HuggingFace平台获取,助力资源有限下的研究创新。
bert_uncased_L-2_H-512_A-8 - 小型BERT模型在资源受限环境中的表现及应用策略
计算资源模型训练知识蒸馏开源项目BERTGLUE模型HuggingfaceGithub
24款小型BERT模型在低计算资源环境中通过知识蒸馏实现有效性能,支持与BERT-Base和BERT-Large相同的微调模式。这些模型为中小型机构的研究提供了创新支持,尤其是在GLUE测试中通过优化批大小和学习率等微调参数。这些模型为探索非传统扩容的创新应用提供了可能性。
distilbert-dot-tas_b-b256-msmarco - 基于平衡主题感知采样的高效密集检索方案
知识蒸馏文本检索DistilBert开源项目模型HuggingfaceMSMARCOGithubBERT_Dot
本项目提供了一个基于DistilBERT的密集文本检索模型,采用双编码器结构和点积评分机制。该模型使用平衡主题感知采样(TAS-B)方法在MS MARCO数据集上训练,可用于候选集重排序或直接进行向量索引密集检索。模型在多个测试集上展现出优于BM25基线的检索性能。其特点包括高效训练(单GPU 48小时内完成)和保留原始DistilBERT的6层架构。这一方案为高效密集检索提供了新的解决思路。
tct_colbert-v2-hnp-msmarco - TCT-ColBERT-V2 模型的变体再现与知识蒸馏整合
知识蒸馏密集检索PyseriniHuggingface否定样本Github开源项目模型TCT-ColBERT-V2
该项目旨在再现 TCT-ColBERT-V2 的变体,通过知识蒸馏与批内负例实现高效密集检索。详细的实验报告已发布在 Pyserini 上,为研究人员提供再现过程和结果分析。
sentence-bert-swedish-cased - 瑞典句子变换模型,多语言句子嵌入优化
Githubsentence-transformers开源项目特征提取语义相似性Huggingface知识蒸馏多语言模型模型
该项目利用知识蒸馏技术,使单语言瑞典语与英语句子嵌入具备多语言能力,适用于聚类、语义搜索等任务。最新的v2.0版本在更强教师模型指导下训练,支持处理更长段落,并在SweParaphrase和SweFAQ等测试集中表现出色。
jina-reranker-v1-turbo-en - 高速文本重排序方案,专为长文本和搜索优化设计
Github模型jina-reranker-v1-turbo-en知识蒸馏开源项目Jina AI文本重排HuggingfaceBERT架构
jina-reranker-v1-turbo-en使用JinaBERT,旨在实现快捷的文本重排序,可处理最多8,192个标记的长文本。通过知识蒸馏提升运行速度,同时确保高精度。6层结构和37.8百万参数设置使其成为神经搜索的有效工具。尽管其NDCG@10评分略低于旧版本,但因速度优势适合快速处理需求。模型对于多种环境可通过Jina AI Reranker API或transformers库轻松集成和使用。