#深度学习
MiniCPM-Llama3-V-2_5-int4 - 轻量级视觉问答模型实现实时图像对话
Github开源项目GPU内存优化图像识别Huggingface深度学习MiniCPM-Llama3-V模型量化模型
MiniCPM-Llama3-V-2_5-int4通过int4量化技术实现低内存视觉问答功能,仅需9GB显存即可运行。基于Hugging Face框架开发,支持实时图像对话和流式输出,为视觉AI应用提供高效且资源友好的解决方案。
Gender-Classification - DistilBERT微调模型实现高精度性别分类
数据分类模型训练开源项目模型性别识别Huggingface深度学习GithubDistilBERT
Gender-Classification是一个基于distilbert-base-uncased模型微调的性别分类项目。模型经过5轮训练,在验证集上达到了接近100%的分类准确率。项目采用Adam优化器和线性学习率调度器,学习率为2e-05。模型基于Transformers 4.25.1和PyTorch 1.13.0框架开发,为性别识别任务提供了一个参考实现。
Qwen2.5-7B-bnb-4bit - 采用4bit量化技术加速Qwen2.5-7B模型并降低70%内存占用
大语言模型Qwen2.5开源项目Unsloth模型模型微调Huggingface深度学习Github
基于Qwen2.5-7B的量化优化版本,通过4bit量化技术将内存占用降低70%。模型拥有76亿参数,具备128K上下文长度和29种语言处理能力,支持编码、数学运算和长文本生成等功能。该版本在保持原有性能的同时实现轻量化部署,可用于后续的模型微调与定制开发。
tf_efficientnet_l2.ns_jft_in1k - EfficientNet架构的大规模图像识别与特征提取模型
ImageNetGithub开源项目图像分类EfficientNetHuggingface神经网络深度学习模型
基于EfficientNet架构开发的图像分类模型,采用Noisy Student半监督学习方法,结合ImageNet-1k和JFT-300m数据集进行训练。模型支持800x800分辨率输入,包含4.8亿参数,可用于图像分类、特征提取和嵌入向量生成。借助timm库实现模型的快速部署,适用于各类图像识别任务。
Llama-3.2-3B-Instruct-uncensored-LoRA_final-Q4_K_M-GGUF - 高效微调的3B参数英文指令型大语言模型
深度学习Github开源项目HuggingfaceUnsloth模型训练AI开发Llama模型
Llama-3.2-3B-Instruct-uncensored-LoRA_final-Q4_K_M-GGUF是基于Llama-3.2-3B-Instruct-uncensored模型微调的开源大语言模型。该模型使用Unsloth和Huggingface的TRL库训练,提高了2倍的训练速度。由PurpleAILAB开发,采用Apache 2.0许可证,主要用于英语文本生成任务。这是一个参数量为3B的指令型模型,适合需要快速部署的应用场景。
orca_mini_3b - 基于Orca方法优化的OpenLLaMA解释型语言模型
语言模型Github开源项目模型自然语言处理Huggingface深度学习OpenLLaMa人工智能
orca_mini_3b是一个在OpenLLaMA-3B架构基础上开发的语言模型,结合WizardLM、Alpaca和Dolly-V2数据集进行训练,采用Orca论文提出的数据构建方法。模型在ARC、HellaSwag、MMLU等多个基准测试中表现稳定,可通过Google Colab的T4 GPU免费部署运行。该模型主要特点是具备强大的解释能力,能够提供详细的推理过程。
Llama-2-13B-chat-GPTQ - 经GPTQ量化的Llama 2对话模型
人工智能对话MetaGithub开源项目HuggingfaceLlama 2深度学习模型量化模型
Llama 2 13B Chat的GPTQ量化版本,提供4-bit和8-bit多种量化选项。模型支持AutoGPTQ和ExLlama等框架,可用于对话和文本生成。通过量化技术降低显存占用并保持模型性能,适合在GPU设备上部署使用。
DeepSeek-Coder-V2-Lite-Instruct-GGUF - 完整的DeepSeek代码助手模型量化版集合
DeepSeek-CoderGithub开源项目LlamaEdge代码开发Huggingface深度学习模型量化模型
这是一个专为代码编写优化的DeepSeek量化模型系列,提供从2位到16位的多种精度选项,支持通过LlamaEdge和WasmEdge进行部署。模型拥有12.8万token的上下文长度,文件大小从6.43GB到31.4GB不等。Q4_K_M和Q5_K_M版本在性能和资源占用上达到最佳平衡,适合大多数应用场景。
SPO-SDXL_4k-p_10ep - 新型步骤感知优化技术实现高质量AI图像生成
AI绘图Github开源项目图像生成模型模型优化Huggingface深度学习SPO
SPO-SDXL_4k-p_10ep模型采用步骤感知优化技术,通过独立评估和调整去噪步骤性能,显著提升了AI图像生成质量。相比传统DPO方法,该模型训练效率提升20倍,在处理复杂提示词和图像美学方面表现优异。模型基于SDXL基础版本开发,经过4000个提示词、10轮训练优化,能够生成更符合用户需求的高质量图像。
densenet121.ra_in1k - 基于RandAugment优化的DenseNet图像分类预训练模型
ImageNet图像分类开源项目模型Huggingface特征提取深度学习DenseNetGithub
DenseNet121是一个在ImageNet-1k数据集上预训练的图像分类模型,采用RandAugment数据增强策略优化。模型参数量为800万,支持多种输入分辨率,可用于图像分类、特征提取和embedding生成等计算机视觉任务。
vilt-b32-mlm - 探索无卷积技术在ViLT模型中的应用
语言建模Github开源项目PyTorch模型HuggingfaceViLT深度学习图像处理
ViLT模型利用无卷积方法在多个数据集进行预训练,专注于掩码语言建模。由Kim等人发布,适用于图像与文本结合场景。可通过PyTorch代码实现简单安装和试用,支持掩码位置的文本填补,推动自然语言处理和图像识别时跨模态学习的进展。
controlnet-sd21 - Stable Diffusion 2.1 多功能图像控制模型合集
深度学习ControlNetGithub开源项目模型HuggingfaceStable Diffusion图像控制人工智能
这是基于 LAION-Art 数据集训练的 Stable Diffusion 2.1 ControlNet 模型集合,集成了 Canny 边缘检测、深度图、姿态估计、线稿在内的11种图像控制功能。模型兼容 Automatic1111 WebUI,优化后的 safetensors 版本仅占用700MB存储空间,为AI图像生成提供多样化的控制选项。
VulBERTa-MLP-MVD - 基于深度学习优化技术的源代码漏洞检测解决方案
Github代码安全开源项目源代码预训练VulBERTaHuggingface深度学习漏洞检测模型
VulBERTa-MLP-MVD是一款基于深度学习的源代码漏洞检测工具。该模型在开源C/C++项目代码上预训练RoBERTa架构,有效学习代码语法和语义知识。经Vuldeepecker、Draper等多个数据集评估,VulBERTa展现出卓越的漏洞识别能力。其简化的分词流程提高了易用性,同时在训练数据量和模型规模上保持了较低开销,为代码安全分析提供了高效解决方案。
xcit_nano_12_p8_224.fb_in1k - 基于跨协方差转换器的轻量级图像分类模型
ImageNetGithub开源项目图像分类计算机视觉Huggingface神经网络深度学习模型
xcit_nano_12_p8_224.fb_in1k采用跨协方差图像转换器(XCiT)架构,是一个参数量为3.0M的轻量级图像分类模型。模型在ImageNet-1k数据集上完成预训练,支持224x224尺寸的图像输入,可应用于图像分类和特征提取。模型通过跨协方差注意力机制降低计算复杂度,适合实际部署应用。
xcit_small_12_p16_224.fb_in1k - 跨协方差图像Transformer的高效视觉分类与特征提取模型
ImageNet计算机视觉图像分类Github开源项目模型Huggingface深度学习XCiT
XCiT (Cross-Covariance Image Transformer)是Facebook Research开发的视觉分类模型,采用创新的跨协方差注意力机制。模型在ImageNet-1k数据集预训练,包含2630万参数,处理224x224图像输入。通过优化计算效率,该模型在图像分类和特征提取任务中展现出稳定性能。
doctr-crnn-vgg16-bn-fascan-v1 - VGG16-CRNN文字识别模型
开源项目PyTorch模型HuggingfaceTensorFlow深度学习图像识别GithubOCR技术
doctr-crnn-vgg16-bn-fascan-v1是一个基于CRNN架构的文字识别模型,采用VGG16作为特征提取网络。模型通过DocumentFile接口支持图像处理,结合灵活的检测架构选择机制,可实现文档OCR任务。该实现同时支持TensorFlow 2和PyTorch框架,便于开发者快速部署和使用。
bert-base-cased-squad2 - BERT模型实现英文文本智能问答与信息提取
开源项目BERT自然语言处理模型Huggingface问答模型Haystack深度学习Github
BERT base cased模型通过SQuAD v2数据集训练,专注于英文文本的智能问答能力。模型具备71.15%精确匹配率,支持Haystack和Transformers框架集成部署。作为Haystack生态系统的核心组件,为开发者提供可靠的文本理解和信息提取服务。
Qwen2.5-7B-Instruct-GGUF - 开源大语言模型GGUF量化版支持多语言和128K长文本处理
大语言模型Github开源项目模型多语言支持Huggingface深度学习Qwen2.5人工智能
Qwen2.5-7B指令模型GGUF量化版是Qwen2.5系列的一部分,采用transformers架构,拥有7.61B参数。该模型支持29种语言,可处理128K文本上下文,并提供q2至q8多种量化精度选项。相比前代,模型在知识储备、代码、数学能力、指令执行、长文本生成和结构化数据理解等方面均有显著提升。
vit-base-patch16-224-cifar10 - 视觉Transformer在CIFAR10上的图像分类优化
GithubCIFAR10开源项目图像分类Vision Transformer模型微调Huggingface深度学习模型
Vision Transformer (ViT) 模型经过ImageNet-21k数据集的预训练,并在CIFAR10数据集上微调,适用于224x224分辨率的图像分类任务。采用16x16像素的固定大小图像补丁进行特征提取,为下游任务提供了有效支持。在GitHub上访问相关代码,了解如何将该技术应用到各种项目中。
iris-7b - 韩英双向翻译模型展现商业级性能
韩英翻译开源项目Iris模型Mistral-7B深度学习Huggingface机器翻译Github
Iris-7B是一个基于Mistral-7B-v0.2的韩英双向翻译模型,经346K多领域数据集训练。其BLEU评分达0.40,与Google、Azure等商业服务comparable。模型支持韩英互译,精准把握语法、词汇和语境,适用于多种翻译场景。作为开源项目,Iris-7B为研究者和开发者提供了一个高性能的翻译工具选择。
stable-diffusion-1.5 - 开源深度学习模型实现文本到图像的精确转换与生成
深度学习文本生成图像Github开源项目模型计算机视觉HuggingfaceStable Diffusion人工智能
Stable-Diffusion-v1-5采用Latent Diffusion架构和LAION-2B数据集训练,能将文本提示准确转换为512x512分辨率的图像。模型通过Diffusers和RunwayML提供标准接口,内置内容审核机制,主要应用于研究、艺术创作和教育领域。目前仅支持英文输入,使用时需遵循CreativeML OpenRAIL-M开源协议规范。
paraphrase-distilroberta-base-v2 - DistilRoBERTa句子向量模型用于文本相似度和语义分析
语义搜索向量嵌入开源项目自然语言处理模型深度学习Huggingfacesentence-transformersGithub
paraphrase-distilroberta-base-v2是一个轻量级句子转换模型,将文本映射至768维向量空间。该模型适用于句子相似度计算和文本聚类,支持sentence-transformers和HuggingFace Transformers库集成。模型采用平均池化处理词嵌入,提供完整架构和评估基准,在保持性能的同时优化了模型大小。
Llama-3.2-11B-Vision-Instruct-bnb-4bit - Llama 3.2视觉语言模型的4bit优化版实现快速低资源微调
大语言模型Github开源项目模型模型微调MetaHuggingface深度学习Llama 3.2
Llama 3.2系列模型的4bit优化版专注多语言对话和视觉语言处理。Unsloth优化提升训练速度2.4倍,节省58%内存。支持8种官方语言,适用对话生成、检索和总结任务。采用优化Transformer架构,通过SFT和RLHF实现人类偏好对齐,保证高效性能和安全性。该版本为开源社区提供了更易于部署和微调的Llama 3.2模型选择。
bloom-1b1 - BigScience开发的开源多语言预训练模型
开源项目模型语言模型多语言BLOOM人工智能Huggingface深度学习Github
BLOOM是BigScience开发的开源多语言预训练模型,支持45种自然语言和12种编程语言。模型基于Transformer架构,拥有1760亿参数,在3500亿词元上训练。主要用于文本生成和自然语言处理研究,具备多语言理解与生成能力。项目提供完整模型卡,详述技术规格、应用场景及使用限制。
KR-ELECTRA-generator - 韩语预训练模型专注提升非正式文本处理能力
Github开源项目自然语言处理模型Huggingface韩语模型KR-ELECTRA深度学习机器学习
KR-ELECTRA是首尔国立大学开发的韩语ELECTRA模型,专注提升非正式文本处理能力。该模型使用34GB平衡的书面和口语韩语数据预训练,采用30,000个基于形态素的词汇。KR-ELECTRA在多项韩语NLP任务中表现卓越,尤其在非正式文本相关任务上效果显著。模型支持TensorFlow和PyTorch框架,为韩语自然语言处理研究提供了有力工具。
roberta-large - 基于HPU的深度学习模型优化配置和训练方案
模型训练开源项目RoBERTaOptimum Habana模型硬件加速Huggingface深度学习Github
这是一个专门为roberta-large模型开发的HPU优化配置方案。项目基于Optimum Habana框架,集成了Hugging Face生态系统,提供GaudiConfig配置文件实现混合精度训练、AdamW优化和梯度裁剪等核心功能。支持单机及多机HPU环境下的模型训练和部署,可用于问答等自然语言处理任务。
deit-tiny-patch16-224 - 高效小型视觉Transformer模型用于图像分类
ImageNet图像处理Github开源项目图像分类HuggingfaceDeiT深度学习模型
DeiT-tiny-patch16-224是一个在ImageNet-1k数据集上训练的高效视觉Transformer模型。该模型仅有5M参数,却在ImageNet top-1分类准确率上达到72.2%。它可处理224x224分辨率的图像输入,输出1000个ImageNet类别的预测结果,适用于各种图像分类任务。
dreamshaper-xl-v2-turbo - 基于SDXL优化的快速AI图像生成模型
AI绘画Dreamshaper XL开源项目图像生成模型人工智能Huggingface深度学习Github
Dreamshaper XL v2 Turbo是基于Stable Diffusion XL优化的图像生成模型,专注于快速高质量的文本到图像转换。该模型采用DPMSolverMultistepScheduler调度器,仅需6步即可生成图像。支持多种风格创作,包括写实人像和机械科幻场景等。适用于需要快速生成高质量图像的数字创作场景。
dehatebert-mono-english - 高效检测英文仇恨言论的英语深度学习模型
开源项目hatespeech模型英文多语言Huggingface单语深度学习Github
该模型专注于检测英文仇恨言论,使用单语言数据训练,并在多语言BERT模型上进行微调。它的最佳验证得分为0.726030,采用了2e-5的学习率。训练代码可在GitHub上查阅。该项目由Aluru、Mathew、Saha和Mukherjee共同开发,相关论文已在ECML-PKDD 2020大会上发表,探讨了跨语言仇恨言论检测的深度学习方法。
resnet101.tv_in1k - 采用ResNet101架构的高效图像分类和特征提取模型
ImageNet图像分类开源项目模型resnet101.tv_in1kHuggingface特征提取深度学习Github
resnet101.tv_in1k是一个基于ResNet101架构的图像分类模型,搭载ReLU激活、单层7x7卷积池化和1x1卷积下采样等特性,经过ImageNet-1k数据集训练,可用于图像特征提取和分类。在深度残差学习的加持下,该模型在特征提取和分类任务中表现突出,适合用于学术研究和商用产品开发。
MERT-v1-330M - 先进音乐理解模型用于多任务音频特征提取和识别
机器学习Github音乐处理音频预训练开源项目MERTHuggingface深度学习模型
MERT-v1-330M是一种基于MLM范式的音乐理解模型,采用24层Transformer架构,拥有330M参数。该模型经过16万小时音频数据训练,支持24kHz采样率输入,每秒生成75个特征向量。通过encodec的8个码本和批内噪声混合等技术,MERT-v1-330M在下游任务中表现出色。除了音乐特征提取,它还可用于音乐生成,是当前领先的音乐音频预训练模型之一。
hibou-b - 基于DINOv2框架预训练的数字病理学视觉Transformer模型
深度学习DINOv2Huggingface数字病理学开源项目模型视觉TransformerGithub医学图像处理
Hibou-B是一个针对数字病理学的基础视觉Transformer模型,基于DINOv2框架在私有数据集上预训练而成。模型通过自定义实现支持寄存器功能,增强了数字病理图像的特征提取能力。研究人员可利用transformers库轻松调用Hibou-B,为病理学研究和临床诊断提供AI分析支持。该开源项目为数字病理学领域的图像分析任务提供了有力工具。
swinv2-tiny-patch4-window8-256 - 基于分层特征图的轻量级视觉Transformer模型
深度学习图像分类HuggingfaceSwin Transformer v2开源项目计算机视觉模型GithubImageNet
Swin Transformer V2是一个在ImageNet-1k数据集上预训练的视觉模型,采用分层特征图结构和局部窗口注意力机制,实现线性计算复杂度。模型整合了残差后归一化和余弦注意力等技术,在保持256x256分辨率输入的同时,提供了稳定的图像分类和特征提取能力。
DUSt3R_ViTLarge_BaseDecoder_512_dpt - ViT架构的多分辨率3D几何视觉模型用于深度估计
计算机视觉Github开源项目三维视觉DUSt3R模型Huggingface深度学习图像处理
该模型使用ViT-Large编码器和ViT-Base解码器构建,采用DPT结构设计。支持处理512x384至512x160等多种分辨率图像,为3D几何视觉提供简化实现方案。开发者可通过PyTorch快速部署使用,模型由NAVER开源并遵循CC BY-NC-SA 4.0许可协议。
Meta-Llama-3-8B-Instruct-FP8-KV - 基于FP8量化技术的Meta Llama 3指令模型
Github模型开源项目深度学习Meta-Llama-3vLLMHuggingface人工智能模型量化
Meta-Llama-3-8B-Instruct-FP8-KV是一个采用FP8权重和激活量化的语言模型,通过每张量量化技术和FP8量化的KV缓存实现性能优化。模型与vLLM 0.5.0及以上版本兼容,基于AutoFP8框架和UltraChat数据集完成校准,适用于大规模语言模型的部署场景。
opt-13b - Meta AI开源的大规模预训练语言模型
深度学习Huggingface人工智能开源项目模型Github语言模型自然语言处理OPT
OPT是由Meta AI推出的开源大语言模型系列,在性能和规模上可比肩GPT-3。这个模型主要基于英语文本训练,采用因果语言建模方法,整合了先进的数据收集和训练技术。它的开源特性使研究人员能够深入研究大语言模型,支持文本生成和下游任务等多种应用场景。
相关文章
RelBench:斯坦福大学最新发布,将关系型数据库转为图形表示,提高预测准确性
2024年08月03日
IDM-VTON:刚开源就有1.8K星星,最新的照片AI换装项目,可用于虚拟试穿,附试用链接
2024年08月03日
LaMa: 革命性的大尺度图像修复技术
2024年08月29日
实时语音克隆技术:5秒内复制声音的革命性突破
2024年08月30日
Netron: 强大的神经网络和机器学习模型可视化工具
2024年08月30日
AI专家路线图2024:成为人工智能专家的学习指南
2024年08月30日
Netron: 强大的神经网络和机器学习模型可视化工具
2024年08月30日
PyTorch Forecasting: 简化神经网络时间序列预测
2024年08月30日
视频制作的新趋势:Wav2Lip 唇同步技术全解析
2024年08月03日