Project Icon

MambaVision-T-1K

提高视觉模型长距离空间依赖的处理能力

MambaVision是一个混合视觉模型,将Mamba与Transformer的优点结合,重新设计后的Mamba通过引入自注意力机制有效捕获长距离空间依赖。该模型在Top-1准确率和吞吐量上表现突出,创造了新的性能标准。用户可以通过简单的安装和代码导入来使用其图像分类和特征提取功能,满足多样化的应用需求,同时提供阶段性和平均池化特征输出。

mamba-2.8b - 突破性能界限的高效开源语言模型
Apache 2.0GithubHuggingface开源许可开源项目模型法律版权软件许可
mamba-2.8b是一个开源语言模型,采用状态空间模型架构,在性能和效率方面有所突破。该模型参数规模较小,但具有较快的推理速度和良好的文本生成能力。mamba-2.8b为自然语言处理领域提供了新的可能性,适用于需要快速响应的应用场景。研究人员和开发者可以基于此模型探索高效的AI解决方案。
FasterViT - 高效分层注意力的视觉transformer新突破
FasterViTGithub图像分类层级注意力机制开源项目目标检测视觉Transformer
FasterViT是一种创新的视觉transformer模型,采用分层注意力机制高效捕获短程和长程信息。在ImageNet分类任务中,FasterViT实现了精度和吞吐量的新平衡,无需额外训练数据即达到最先进水平。该项目提供多种预训练模型,适应不同计算资源和精度需求,支持任意分辨率输入,为目标检测、分割等下游任务提供灵活选择。
VisionVision - 优化图像合成质量,通过模型融合实现多元风格
AI绘图GithubHuggingfaceStable DiffusionVisionVision动漫开源项目模型真实感
该项目结合realistic-vision-v1.3和ZootVisionBeta模型,优化图像生成的质量与细节,尤其是在合成和眼部细节方面。VisionVision支持多种风格,包括写实与艺术表现,适用于动漫与真实感艺术创作。项目使用SuperMerger技术,提供丰富样例与提示,帮助用户生成优质图像。
vit_base_r50_s16_384.orig_in21k_ft_in1k - ResNet-Vision Transformer混合模型用于高精度图像分类
GithubHuggingfaceImageNetResNetVision Transformertimm图像分类开源项目模型
本模型结合ResNet与Vision Transformer优势,在大规模ImageNet-21k数据集上预训练,并在ImageNet-1k上微调,实现高效准确的图像分类。具备9900万参数,支持384x384像素输入,可用于分类任务和特征提取。研究人员可通过timm库轻松应用此模型,进行推理或深入研究。
nomic-embed-vision-v1.5 - 高性能视觉嵌入模型实现多模态共享空间
GithubHuggingfacenomic-embed-vision-v1.5图像处理多模态嵌入模型开源项目模型模型训练
nomic-embed-vision-v1.5是一款视觉嵌入模型,与nomic-embed-text-v1.5共享嵌入空间。该模型在ImageNet零样本和Datacomp基准测试中表现出色,优于OpenAI CLIP和Jina CLIP。它支持多模态检索,适用于文本到图像的检索场景。开发者可通过Nomic嵌入API或Transformers库使用该模型生成嵌入。nomic-embed-vision-v1.5为多模态检索增强生成(RAG)应用提供了有力支持。
Jamba-v0.1 - 混合SSM-Transformer架构的高性能大语言模型
GithubHuggingfaceJamba人工智能模型开源项目模型深度学习混合SSM-Transformer语言模型
Jamba-v0.1是一款创新的混合SSM-Transformer大语言模型,拥有12B活跃参数和52B总参数。它不仅提供了更高的吞吐量,还在多数常见基准测试中表现优异。该模型支持256K上下文长度,单个80GB GPU可处理多达140K个标记。作为首个生产规模的Mamba实现,Jamba为AI研究和应用开辟了广阔前景。
ese_vovnet39b.ra_in1k - 高效实时的VoVNet-v2图像分类解决方案
GithubHuggingfaceImageNet-1kVoVNet-v2timm图像分类开源项目模型特征提取
VoVNet-v2是一种预训练于ImageNet-1k的图像分类模型,含高效计算和低能耗优点,并采用RandAugment优化。适用于特征骨干网络,支持图像分类、特征提取和图像嵌入。其关键性能包括24.6M参数、7.1 GMACs等。通过`timm`库,用户可以实现高效的图像分类和特征提取。模型使用ResNet Strikes Back的训练方案,提高了准确度和应用多样性。
mamba-130m-hf - 轻量级Mamba模型为序列建模提供高效替代方案
GithubHuggingfaceMambaPEFT微调transformers开源项目模型模型部署生成模型
mamba-130m-hf是基于Mamba架构的轻量级语言模型,专为因果语言建模设计。该模型与Transformers库兼容,支持高效文本生成和序列建模。通过创新的状态空间模型结构,mamba-130m-hf在保持较小参数量的同时展现出卓越性能。模型可用于直接文本生成,也支持通过PEFT等技术进行微调以适应特定任务。其轻量级设计和强大功能使其成为序列建模任务的理想选择。
ml-fastvit - 高效混合视觉Transformer模型用于图像分类
FastViTGithub图像分类开源项目模型性能结构重参数化视觉Transformer
FastViT是一种采用结构重参数化技术的混合视觉Transformer模型。该模型在ImageNet-1K数据集上实现了准确率和延迟的良好平衡,提供多个变体以适应不同应用场景。FastViT在iPhone 12 Pro上的基准测试显示出优秀的移动端性能。项目开源了预训练模型、训练评估代码和使用文档。
VisionLLM - 面向视觉任务的开放式多模态大语言模型
GithubVisionLLM人工智能多模态大语言模型开源项目视觉语言任务计算机视觉
VisionLLM 系列是一种多模态大语言模型,专注于视觉相关任务。该模型利用大语言模型作为开放式解码器,支持数百种视觉语言任务,包括视觉理解、感知和生成。VisionLLM v2 进一步提升了模型的通用性,扩展了其在多模态应用场景中的能力,推动了计算机视觉与自然语言处理的融合。
项目侧边栏1项目侧边栏2
推荐项目
Project Cover

豆包MarsCode

豆包 MarsCode 是一款革命性的编程助手,通过AI技术提供代码补全、单测生成、代码解释和智能问答等功能,支持100+编程语言,与主流编辑器无缝集成,显著提升开发效率和代码质量。

Project Cover

AI写歌

Suno AI是一个革命性的AI音乐创作平台,能在短短30秒内帮助用户创作出一首完整的歌曲。无论是寻找创作灵感还是需要快速制作音乐,Suno AI都是音乐爱好者和专业人士的理想选择。

Project Cover

白日梦AI

白日梦AI提供专注于AI视频生成的多样化功能,包括文生视频、动态画面和形象生成等,帮助用户快速上手,创造专业级内容。

Project Cover

有言AI

有言平台提供一站式AIGC视频创作解决方案,通过智能技术简化视频制作流程。无论是企业宣传还是个人分享,有言都能帮助用户快速、轻松地制作出专业级别的视频内容。

Project Cover

Kimi

Kimi AI助手提供多语言对话支持,能够阅读和理解用户上传的文件内容,解析网页信息,并结合搜索结果为用户提供详尽的答案。无论是日常咨询还是专业问题,Kimi都能以友好、专业的方式提供帮助。

Project Cover

讯飞绘镜

讯飞绘镜是一个支持从创意到完整视频创作的智能平台,用户可以快速生成视频素材并创作独特的音乐视频和故事。平台提供多样化的主题和精选作品,帮助用户探索创意灵感。

Project Cover

讯飞文书

讯飞文书依托讯飞星火大模型,为文书写作者提供从素材筹备到稿件撰写及审稿的全程支持。通过录音智记和以稿写稿等功能,满足事务性工作的高频需求,帮助撰稿人节省精力,提高效率,优化工作与生活。

Project Cover

阿里绘蛙

绘蛙是阿里巴巴集团推出的革命性AI电商营销平台。利用尖端人工智能技术,为商家提供一键生成商品图和营销文案的服务,显著提升内容创作效率和营销效果。适用于淘宝、天猫等电商平台,让商品第一时间被种草。

Project Cover

AIWritePaper论文写作

AIWritePaper论文写作是一站式AI论文写作辅助工具,简化了选题、文献检索至论文撰写的整个过程。通过简单设定,平台可快速生成高质量论文大纲和全文,配合图表、参考文献等一应俱全,同时提供开题报告和答辩PPT等增值服务,保障数据安全,有效提升写作效率和论文质量。

投诉举报邮箱: service@vectorlightyear.com
@2024 懂AI·鲁ICP备2024100362号-6·鲁公网安备37021002001498号