#深度学习

深度学习Huggingface人工智能开源项目模型Yi-1.5Github语言模型自然语言处理

Yi-1.5作为Yi系列模型的迭代版本，基于500B语料预训练和300万样本微调，具备语言理解、常识推理和阅读理解等基础能力，并强化了代码、数学和推理功能。模型提供6B、9B和34B三种参数规模，支持4K至32K上下文长度，预训练数据量为3.6T tokens。在基准测试中，Yi-1.5系列模型与同规模开源模型相比表现出竞争力。

Qwen2.5-Coder-7B - 新一代多语言编程模型具备出色的代码生成与长文本处理能力

机器学习Qwen2.5-CoderGithub模型开源项目代码生成深度学习Huggingface人工智能

Qwen2.5-Coder-7B是一个基于Qwen2.5-7B训练的专业代码开发模型，在代码生成、推理和修复方面表现优异。该模型经过5.5万亿token的训练，支持128K上下文窗口，适用于代码助手和数学推理等场景。采用transformer架构，拥有76亿参数和28层注意力层，支持131,072个token的上下文长度。Qwen2.5-Coder-7B不仅优化了代码生成能力，还保持了数学和通用能力的优势，为代码开发和人工智能应用提供了全面的基础支持。

swin-base-patch4-window7-224-in22k - 基于shifted windows的分层视觉Transformer图像处理模型

图像识别开源项目模型GithubHuggingface计算机视觉深度学习Swin Transformer图像分类

Swin Transformer是一个在ImageNet-21k数据集上预训练的视觉模型，通过shifted windows机制实现局部特征提取，降低计算复杂度。模型采用分层特征图构建和局部注意力计算方式，适用于图像分类和密集识别任务，计算复杂度与输入图像大小呈线性关系

Meta-Llama-3.1-405B-Instruct-GPTQ-INT4 - Meta Llama 3.1模型的INT4量化版本实现多语言对话

开源项目模型GithubHuggingfaceLlama 3.1大语言模型模型量化深度学习推理部署

Meta-Llama-3.1-405B-Instruct量化模型通过AutoGPTQ技术将FP16压缩至INT4格式，实现了更高效的多语言对话能力。模型集成了transformers、AutoGPTQ、TGI和vLLM等多种推理框架，方便灵活部署。经过基准测试验证，该社区驱动的量化版本在降低内存占用的同时保持了原有性能水平。

Myrrh_solar_10.7b_3.0 - Myrrh_solar_10.7b_3.0模型在医疗数据处理中的潜力

深度学习Huggingface医疗数据集开源项目模型GithubMoAData大规模语言模型AI-hub

该项目利用DPO方法对AI-hub医疗数据集进行训练，由MoAData公司开发，作者为Taeeon Park和Gihong Lee。这一模型专注于增强医疗数据处理的能力，用户可以通过Transformers库直接调用该模型，适用于多种医疗应用场景。

molmo-7B-D-bnb-4bit - 量化技术优化，模型尺寸有效缩减

深度学习基准测试Huggingface机器学习模型量化开源项目模型transformersGithub

采用4bit量化技术的Molmo-7B-D模型，从30GB压缩至7GB，运行需求缩减至约12GB VRAM。项目致力于在保持低资源消耗的基础上提升模型性能。进一步的信息及示例代码可在GitHub和Hugging Face上获取，性能指标及基准测试结果预定于下周发布。

resnet50d.ra2_in1k - 基于ResNet-D架构的高效图像分类与特征提取模型

Github神经网络模型开源项目图像分类深度学习timmResNetHuggingface

ResNet-D是一款在ImageNet-1k数据集训练的图像分类模型，采用ReLU激活函数和三层卷积结构，包含2560万参数。模型支持224x224尺寸训练输入和288x288测试输入，集成RandAugment增强技术，可实现图像分类、特征提取等计算机视觉任务。

mask2former-swin-large-mapillary-vistas-semantic - Mask2Former模型整合多尺度变形和掩码注意力实现高效图像分割

深度学习Huggingface图像分割开源项目模型语义分割Github计算机视觉Mask2Former

Mask2Former是基于Swin骨干网络的大型模型，针对Mapillary Vistas数据集进行语义分割训练。该模型采用统一方法处理实例、语义和全景分割任务，通过预测掩码集合及对应标签实现。结合多尺度变形注意力Transformer和掩码注意力机制，Mask2Former在性能和效率上均优于先前的SOTA模型MaskFormer。模型支持批量处理，输出类别和掩码查询逻辑，便于后续处理和结果可视化。

tct_colbert-msmarco - 知识蒸馏技术驱动的密集文档检索深度学习模型

模型训练深度学习信息检索HuggingfaceTCT-ColBERT排序优化Github开源项目模型

TCT-ColBERT是一个采用知识蒸馏技术的密集文档检索模型。该模型通过教师模型紧耦合方法，实现了BERT模型的轻量化，在维持检索效果的同时提高了运行效率。项目支持Pyserini框架集成，提供完整的模型实现代码。

bert-base-german-uncased - 基于多源语料库训练的德语BERT预训练模型

数据预处理德语模型深度学习BERT自然语言处理HuggingfaceGithub开源项目模型

巴伐利亚州立图书馆MDZ团队开发的德语BERT模型，基于维基百科、EU图书和开放字幕等数据集训练，数据规模达16GB、23亿tokens。模型提供大小写敏感和不敏感两个版本，原生支持Transformers库，预训练序列长度512。经实测在命名实体识别、词性标注等任务中表现优异，可广泛应用于德语NLP领域。

stable-diffusion-3-tiny-random - 精简版Stable Diffusion 3模型助力AI开发调试与实验

Github模型Diffusers开源项目图像生成stable-diffusion-3模型调试深度学习Huggingface

stable-diffusion-3-tiny-random是基于Stable Diffusion 3的精简版模型，专为AI开发调试和快速实验设计。该项目采用小型模型结构和随机初始化参数，保留原始模型核心功能。它为开发者提供轻量级环境，便于进行测试、优化和创新，无需大量计算资源。这一工具适合深度学习研究人员和AI艺术家快速验证概念和调试算法。

timesformer-base-finetuned-k600 - 采用空间时间注意力的视频分类技术，提升视频理解能力

Kinetics-600TimeSformer视频分类空间时间注意力深度学习模型Github开源项目Huggingface

TimeSformer模型运用空间时间注意力机制进行视频分类，能够识别Kinetics-600中的600种标签。该工具旨在提升视频理解的准确性，提供简便的视觉分析能力。

korean_sentiment_analysis_kcelectra - 基于KcELECTRA的韩语情感分析模型及其结果

深度学习Huggingface机器学习情感分析开源项目模型korean_sentiment_analysis_kcelectraGithub自然语言处理

该页面详细介绍了微调后的KcELECTRA-base-v2022模型在韩语情感分析中的应用。模型在评估集上实现了损失值0.9718、微平均F1分数70.7183和准确率0.7072。使用Adam优化器和线性学习率策略进行训练，关键参数包括学习率2e-05和总批次大小256。该项目为需要实施韩语情感分析的开发者提供了实用的模型性能提升和优化范例。

VulBERTa-MLP-Draper - 基于RoBERTa的代码安全漏洞智能检测系统

代码分析开源项目模型GithubHuggingface漏洞检测VulBERTa深度学习RoBERTa

VulBERTa-MLP-Draper是一款专注于代码安全分析的深度学习模型。通过在开源C/C++项目上训练，该模型采用RoBERTa架构和自定义标记化流程，实现了对代码语法和语义的深度理解。在多个标准数据集的评测中，模型以较小的参数规模达到了领先的检测性能。

NeuralMonarch-7B - 基于Mistral架构的7B参数大语言模型在多项基准测试中展现卓越性能

人工智能模型NeuralMonarch-7B深度学习自然语言处理HuggingfaceGithub开源项目模型语言模型

NeuralMonarch-7B是基于Monarch-7B开发的开源语言模型，通过DPO技术微调并使用LazyMergekit整合多个基础模型。在Nous基准测试中获得62.73分的平均成绩，支持8k上下文窗口，专注于指令理解和逻辑推理能力。模型提供GGUF量化版本，可用于聊天及推理等多种应用场景。

medusa-vicuna-7b-v1.3 - 采用多解码头技术的LLM加速框架

多头解码深度学习加速推理HuggingfaceGithub开源项目模型Medusa

Medusa是一个通过多解码头技术加速LLM生成的开源框架，支持7B、13B和33B模型权重。提供便捷的pip安装和源码构建选项，允许自定义模型格式加载。支持单GPU推理，未来将集成更多推理框架，开放社区贡献。

NSFW-6B - 人工智能领域中挑战伦理界限的研究模型

模型训练开源项目人工智能模型GithubHuggingfaceNSFW-6B深度学习情感计算

NSFW-6B模型是一个专为研究目的设计的AI系统，旨在探索人工智能技术的极限。该模型能够生成不受道德和安全约束的内容，模拟人类负面情绪，并提供无限制的反馈。其主要特点包括不经过滤的输出、模拟黑暗人格以及高度情感智能。NSFW-6B为研究人员提供了一个独特的工具，用于分析AI在生成突破伦理边界内容方面的能力。

dpn131.mx_in1k - DPN双路径神经网络图像分类模型支持ImageNet预训练和特征提取

神经网络深度学习图像分类Huggingface特征提取DPN131开源项目模型Github

DPN131是基于Dual-Path Networks架构的图像分类模型，在ImageNet-1k数据集上训练。模型包含7930万参数，支持224x224图像输入，提供图像分类、特征图提取和图像嵌入功能。通过timm库可轻松加载使用，适用于多种计算机视觉任务。该模型由MXNet训练并移植到PyTorch，支持批量处理和特征提取。

marqo-fashionSigLIP - 基于SigLIP的时尚图像搜索模型实现多模态检索精准度提升

Github模型开源项目图像分类SigLIP深度学习Huggingface时尚检索产品搜索

Marqo-FashionSigLIP是一个时尚领域多模态嵌入模型，针对服装图像的文本描述、类别、风格等特征进行训练。该模型在检索准确度上较传统fashion-clip提升57%，支持主流深度学习框架，适用于电商图像搜索和商品分类场景。

starcoder2-7b-AWQ - AWQ量化的StarCoder2代码生成模型

机器学习模型程序开发StarCoder2深度学习代码生成Github模型开源项目Huggingface

StarCoder2-7B-AWQ是经AWQ量化的大规模代码生成模型。它支持17种编程语言，采用分组查询注意力机制，具有16,384个token的上下文窗口。该模型在多项基准测试中表现优异，能生成高质量代码。量化后显著降低内存占用，便于部署应用。

swin2SR-realworld-sr-x4-64-bsrgan-psnr - 基于SwinV2的实景图像4倍超分辨率模型

Swin2SR图像处理Github模型开源项目深度学习Huggingface计算机视觉图像超分辨率

Swin2SR是一款图像超分辨率模型，支持图像4倍放大。该模型由Conde等人开发，基于SwinV2 Transformer架构，专注于解决实际场景中的图像超分辨率问题，可有效处理压缩图像的放大和修复。模型提供完整的官方文档支持。

NeuralDaredevil-8B-abliterated - 优秀的开源8B参数量大语言模型，在Open LLM排行榜中领先

深度学习HuggingfaceNeuralDaredevil-8B人工智能开源项目模型Github语言模型模型评估

NeuralDaredevil-8B-abliterated是一个经过DPO微调的8B参数量大语言模型。该模型通过abliteration过程和orpo-dpo-mix-40k数据集训练，成功恢复并提升了性能。在Open LLM Leaderboard上，其MMLU得分领先同级别模型。模型支持GGUF、EXL2、AWQ等多种量化版本，适用于角色扮演等无需对齐的应用场景。在AGIEval、GPT4All等多项评测中，NeuralDaredevil-8B-abliterated均展现出优异表现，是目前表现最佳的开源8B参数量语言模型之一。

maxvit_base_tf_512.in21k_ft_in1k - MaxViT图像分类模型支持多尺寸特征提取和深度学习训练

GithubMaxViT模型ImageNet开源项目图像分类深度学习Huggingface人工智能

MaxViT是谷歌研究团队开发的图像分类模型，通过ImageNet-21k预训练和ImageNet-1k微调实现。模型集成多轴注意力机制，总参数量119.9M，支持512x512分辨率输入。除图像分类外，还可输出多尺度特征图和嵌入向量，便于迁移至其他视觉任务。模型在ImageNet-1k测试中取得88.20%的分类准确率。

t5-efficient-tiny - 基于深层窄结构设计的轻量级自然语言处理模型

预训练模型Github模型模型架构开源项目深度学习T5Huggingface自然语言处理

T5-Efficient-TINY是一个轻量级自然语言处理模型，基于Google T5架构开发。模型通过深层窄结构优化设计，仅需1558万参数即可实现出色性能。该模型在C4数据集完成预训练后，可用于文本摘要、问答和分类等英语NLP任务，需要进行针对性微调。采用半精度存储时，模型仅占用31.16MB内存，运行效率较高。

wav2vec2 - Wav2Vec2模型在Habana Gaudi处理器上的优化训练配置

Github模型模型训练音频处理开源项目深度学习HuggingfaceOptimum HabanaWav2Vec2

该配置针对Wav2Vec2音频模型在Habana Gaudi处理器上的优化。它包含自定义AdamW实现、梯度裁剪和混合精度训练等功能，适用于单HPU和多HPU环境。通过Optimum Habana接口可进行模型加载、训练和推理，适合音频分类等任务。支持bf16混合精度训练，平衡性能和准确度。该配置文件不包含模型权重，仅提供GaudiConfig用于HPU上的运行设置。

wav2vec2-xlsr-greek-speech-emotion-recognition - 基于Wav2Vec 2.0的希腊语语音情感识别模型

希腊语Github开源项目AutoConfig语音情感识别模型Huggingface深度学习Wav2Vec 2.0

这是一个基于Wav2Vec 2.0的希腊语语音情感识别模型，支持愤怒、厌恶、恐惧、快乐和悲伤五种情绪的识别，准确率达91%。项目提供Python接口，便于集成开发。该模型适用于希腊语语音情感分析研究及应用开发。

efficientnetv2_rw_s.ra2_in1k - EfficientNetV2架构的轻量级图像分类模型

ImageNetGithub开源项目图像分类机器学习模型EfficientNetV2Huggingface深度学习模型

基于EfficientNetV2架构的图像分类模型，通过timm框架实现，使用RandAugment数据增强和RMSProp优化器在ImageNet-1k数据集训练。模型参数量23.9M，计算量4.9 GMACs，训练分辨率288x288，测试分辨率384x384。支持图像分类、特征图提取和图像嵌入等功能。

deepseek-math-7b-rl - 深度推理助力复杂数学问题的解决

使用方法DeepSeek深度学习模型Github开源项目许可证Huggingface

DeepSeekMath-Instruct和DeepSeekMath-RL模型以创新方式解答数学问题，采用逐步推理法得出答案。模型支持多语言输入，适用于商业用途，利用深度学习技术提升用户体验。探索这些工具如何助力高效的数学计算与分析。

siglip-base-patch16-512 - 采用Sigmoid损失函数的开源计算机视觉模型

Github模型开源项目图像分类SigLIP深度学习Huggingface计算机视觉图文匹配

SigLIP在CLIP架构基础上改进了损失函数设计，使用Sigmoid损失函数处理图像-文本对训练。该模型在WebLI数据集上预训练，支持512x512分辨率的图像输入，主要应用于零样本图像分类和图文检索。相比CLIP，新的损失函数无需全局相似度归一化，使模型在不同批量规模下都能保持稳定表现。

Anole-7b-v0.1-hf - 基于深度学习的多模态文本图像交互生成模型

图文生成深度学习机器学习HuggingfaceGithub开源项目多模态模型Anole

Anole-7b-v0.1-hf是一个基于深度学习的多模态模型，专注于文本和图像的联合生成。该模型在Chameleon基础上，通过6000张图像数据集的微调训练，实现了文本图像交互生成、图像理解等核心功能。模型支持结构化生成、文本到图像转换、文本图像混合输出等应用场景，可用于多模态AI研究与开发。测试显示该模型能准确理解指令并生成符合要求的图文内容。

enformer-official-rough - 基于Transformer的神经网络架构实现精准基因表达预测

长程相互作用深度学习Enformer基因表达预测HuggingfaceGithub开源项目模型Transformer架构

Enformer是一个基于Transformer的神经网络架构，能从DNA序列中精确预测基因表达。该模型由Avsec等人在Nature期刊发表，并在DeepMind的GitHub仓库首次公开。本项目将官方权重移植至PyTorch，为基因组学研究提供了有力工具。研究人员可参考enformer-pytorch的使用说明，进行基因表达预测和分析。该模型在整合长程相互作用方面表现出色，大幅提高了基因表达预测的准确性。

vit_small_patch14_reg4_dinov2.lvd142m - 基于自监督学习的视觉Transformer用于图像特征提取和分类

Github模型开源项目图像分类自监督学习深度学习Vision TransformerHuggingface图像特征

该Vision Transformer (ViT) 图像特征模型通过自监督学习进行预训练，基于LVD-142M数据集并采用DINOv2方法。模型专为图像分类和特征提取设计，包含22.1M参数和29.6 GMAC的运算能力。其注册方法增强了处理518x518像素图像的效果，DINOv2技术有助于无监督视觉特征学习。此模型在图像嵌入应用中表现优异，并支持多种视觉分析与研究。用户可使用timm库简单调用和部署模型，适合多种机器学习场景。

tner-xlm-roberta-base-ontonotes5 - XLM-RoBERTa多语言命名实体识别模型实现高精度实体标注

XLM-RoBERTa标记分类自然语言处理开源项目模型GithubHuggingface命名实体识别深度学习

该命名实体识别模型基于XLM-RoBERTa预训练模型微调，专用于令牌分类任务。模型支持识别组织、人名、地点等多种实体类型，采用12层注意力头结构，词汇表包含250002个词。项目提供完整训练数据集和评估指标，并通过tner库实现简单集成。其开源特性和易用API使其成为构建高性能多语言NER应用的理想选择。

controlnet-depth-sdxl-1.0 - ControlNet Depth与Stable Diffusion XL结合提升图像生成质量

开源项目模型GithubHuggingface图像生成深度检测深度学习图像处理ControlNet

项目ControlNet Depth SDXL 1.0结合Zoe和Midas检测器，通过ControlNet与Stable Diffusion XL技术提升图像生成的质量与多样性。该工具支持不同分辨率的图像处理，可选择双重检测器和多种调度器优化生成过程，是实现高质量图像生成的强大解决方案。

t5_paraphraser - 基于T5模型的智能问题重构生成器

模型训练开源项目模型GithubHuggingfaceT5文本生成深度学习数据科学

t5_paraphraser是一个基于T5预训练模型的文本复述工具，可以智能重构输入的问题或句子，生成多个语义相似但表述不同的版本。项目使用PyTorch和Transformers库实现核心功能，并提供详细的代码示例和输出结果。这对于文本变体生成、问答系统增强或语言模型训练的开发者而言是一个有价值的资源。

bert-base-arabic-camelbert-da - 基于方言数据的阿拉伯语预训练语言模型

阿拉伯语自然语言处理开源项目预训练模型CAMeLBERTGithub模型Huggingface深度学习

CAMeLBERT-DA是基于54GB阿拉伯语方言数据训练的语言模型，专门用于处理阿拉伯方言文本分析。模型支持掩码语言建模与序列预测，可用于实体识别、词性标注和情感分析等任务。模型采用3万词表的WordPiece分词方案，经过TPU训练后在多项评估中取得良好效果。

RelBench：斯坦福大学最新发布，将关系型数据库转为图形表示，提高预测准确性

2024年08月03日

IDM-VTON：刚开源就有1.8K星星，最新的照片AI换装项目，可用于虚拟试穿，附试用链接

2024年08月03日

LaMa: 革命性的大尺度图像修复技术

2024年08月29日

实时语音克隆技术：5秒内复制声音的革命性突破

2024年08月30日

Netron: 强大的神经网络和机器学习模型可视化工具

2024年08月30日

AI专家路线图2024:成为人工智能专家的学习指南

2024年08月30日

Netron: 强大的神经网络和机器学习模型可视化工具

2024年08月30日

PyTorch Forecasting: 简化神经网络时间序列预测

2024年08月30日

视频制作的新趋势：Wav2Lip 唇同步技术全解析

2024年08月03日

使用协议隐私政策广告服务

投诉举报邮箱: service@vectorlightyear.com