#生成模型
audioldm2 - 文本到音频生成模型AudioLDM 2实现多种音效、语音及音乐生成
声音效果开源项目模型文本到音频生成模型自监督预训练GithubHuggingfaceAudioLDM 2
AudioLDM 2是一个文本到音频扩散模型,能通过自监督预训练生成多样化的音效、语音与音乐样本。其模型提供多个检查点,既适用于一般文本到音频的生成,也专注于音乐生成。用户可以通过调整推理步骤和音频长度控制生成音频的质量和时长。在Diffusers库中,从v0.21.0版本便可应用。该模型通过简单的提示,支持个性化音频创作,以中立的方式满足音频生成需求。
DreamWorksRemix - 梦工厂风格文本到图像生成器,适应多种提示
DreamWorks RemixHuggingface开源项目模型AI绘图生成模型GithubDreamWorksDreamWorks Diffusion
项目结合了DreamWorks与DreamWorks Diffusion模型,提供通用的文本到图像生成功能,不仅限于特定风格提示。它能生成带有梦工厂特征的高品质图像,例如节庆场景中的父女、蘑菇王国的公主等。所生成图像具备CGI水平的细节和8k分辨率,区别于传统方法,提供增强的视觉体验。
PixArt-XL-2-512x512 - 快速生成高分辨率图像的高效能模型
Pixart-αGithub生成模型开源项目文本到图像Huggingface深度学习扩散模型模型
PixArt-α是一个基于Transformer架构的文本到图像生成框架,能够从文本提示生成高分辨率图像,最高可达1024像素。相比于Stable Diffusion v1.5,其训练时间仅为10.8%,大幅降低成本与碳排放。用户偏好评估显示,PixArt-α在实现效率与图像质量方面表现卓越,适用于艺术创作、教育用途及生成模型研究。但需要注意的是,其在图像还原现实性和复杂任务的执行上尚有局限。查看其GitHub或arXiv以了解更多细节。
t2i-adapter-lineart-sdxl-1.0 - 文本与线条艺术的融合应用
开源项目视觉模型模型Stable Diffusion XL生成模型GithubHuggingface文本到图像边缘检测
T2I Adapter引入线条艺术条件,为StableDiffusionXL模型增强文本到图像生成功能。该项目由腾讯ARC和Hugging Face合作开发,专业处理复杂图像造型和结构。通过Apache 2.0许可证分发,便于集成与扩展。模型的条件设置挖掘更多可控能力,增加艺术与AI图像生成的创意。GitHub库和相关论文提供完整指南和示例,适合开发者与研究人员。
PhoGPT-4B-Chat - 开放源码的越南语生成模型——PhoGPT-4B-Chat
Github模型开源开源项目对话变体PhoGPT越南语Huggingface生成模型
PhoGPT-4B-Chat是面向越南语的生成模型,通过在70K教学指令和290K对话上进行微调,展现出色表现。其基于3.7B参数的结构,利用102B代币的越南语语料库从头开始进行预训练,使其在开源领域中脱颖而出。
ras-real-anime-screencap-v1-sdxl - SDXL模型融合动漫截图与现实图像风格
生成模型动漫Huggingface模型GithubAI绘图小马开源项目Stable Diffusion
ras-real-anime-screencap-v1-sdxl是一个基于Stable Diffusion XL的模型,专注于将动漫截图风格与现实世界图像相结合。这个模型能够生成融合动漫特征和真实场景的图像,为创作者提供了新的视觉表现方式。它不仅可以创造动漫风格的图像,还能将动漫元素应用到各种现实场景中,实现动漫和现实之间的视觉融合。
mamba-130m-hf - 轻量级Mamba模型为序列建模提供高效替代方案
模型开源项目生成模型HuggingfacetransformersMambaGithubPEFT微调模型部署
mamba-130m-hf是基于Mamba架构的轻量级语言模型,专为因果语言建模设计。该模型与Transformers库兼容,支持高效文本生成和序列建模。通过创新的状态空间模型结构,mamba-130m-hf在保持较小参数量的同时展现出卓越性能。模型可用于直接文本生成,也支持通过PEFT等技术进行微调以适应特定任务。其轻量级设计和强大功能使其成为序列建模任务的理想选择。
t2i-adapter-sketch-sdxl-1.0 - 草图条件下的图像转换与文本生成优化
草图T2I Adapter稳定扩散生成模型Github图像生成开源项目模型Huggingface
该项目为StableDiffusionXL提供了T2I Adapter,实现了在草图条件下的图像转换功能。由腾讯ARC与Hugging Face共同开发,采用PidiNet边缘检测模型训练,能够从草图生成更加精细和可控的图像。与其他模型相比,该模型依托StableDiffusionXL的多个校验点,在处理多样化风格时具有更高的灵活性,适合用于艺术创作和设计。用户可在Doodly Space中试用,支持高分辨率图像处理。项目遵循Apache 2.0开源协议,附有GitHub代码和学术论文供深入研究。
Llama-3-KoEn-8B-Instruct-preview - 基于Chat Vector技术的Llama-3-8B语言模型在多语言生成中的应用
语言模型pytorchLlama-3TRC计划生成模型Github模型开源项目Huggingface
Llama-3-KoEn-8B-Instruct-preview项目是基于TPUv4-256的继续预训练语言模型,结合Chat Vector技术。尽管尚未对韩语指令集进行微调,但为新型聊天和指令模型的开发提供了重要基础。项目中包括详细的示例代码,展示了该模型在文本封装和生成方面的能力,适合需要深入语义生成和自然语言处理的开发者。
seggpt-vit-large - 基于上下文的单次图像分割解决方案
图像分割GithubSegGPT模型开源项目TransformerHuggingface生成模型语义分割
SegGPT项目采用了类似GPT的Transformer模型,它可以在提供输入图像和提示的情况下生成分割掩码,并在COCO-20和FSS-1000数据集上实现了优异的单次图像分割效果。此模型适合用于需要高精度和上下文整合的图像分割应用场景。
zero123-xl-diffusers - 基于单张图像的零样本3D对象生成模型
偏见安全模块开源项目Zero-1-to-3生成模型模型HuggingfaceGithub研究用途
zero123-xl-diffusers是一个开源的3D对象生成模型,通过零样本学习技术将单张图像转换为3D对象。模型基于Stable Diffusion架构,使用Objaverse数据集训练,主要应用于研究、教育和艺术创作领域。模型集成了安全检查功能,可有效过滤不当内容。目前在文字渲染和人脸生成方面仍有待改进,但为3D内容创作提供了新的技术方案。
TIPO-500M - 增强文本到图像生成模型的性能与用户体验
提示优化开源项目模型Github生成模型Huggingface文本到图像TIPO大型语言模型
TIPO项目通过大型语言模型进行文本预采样,以优化文本到图像(T2I)系统的提示生成。这种创新框架能够精炼和扩展用户输入的提示,帮助生成优质图像。使用LLAMA架构的TIPO 200M和500M模型在多种数据集上进行训练,以提升生成质量。项目适配稳定扩散界面,经过多项生成任务的测试,表现卓越,为更多用户提供便捷的高品质图像生成体验。
stable-cascade-prior - 探索高效图像生成与文本到图像转换模型
文本生成图像图像压缩模型效率HuggingfaceGithub生成模型开源项目Stable Cascade模型
Stable Cascade Prior基于Würstchen架构,是一种高效的图像生成模型。其显著优势在于快速的推理速度和低昂的训练成本。依靠卓越的图像压缩能力,该模型可以将1024x1024图像压缩至24x24而不丢失细节,非常适合需要高效生成的场景。支持包括finetuning在内的多种扩展,并在提示对齐和美学质量上表现出色,适用于研究、教育、艺术设计等领域。访问其GitHub仓库,了解更多功能与使用案例。
Llama-3.2-1B - 多语言大型语言模型引领自然语言处理新纪元
社区许可Huggingface开源项目多语言模型MetaGithub生成模型Llama 3.2
Llama 3.2是由Meta开发的多语言大型语言模型,通过优化的Transformer架构和多语言对话定制,尤其适用于问答、总结等任务。支持8种语言,可进行超越官方语言的定制训练,以适应多种自然语言生成任务。此项目展示了语言模型在商业和研究应用中日益增长的重要性,提供高效的多语言文本生成能力,助力移动AI写作助手等智能应用的发展。用户需遵循Llama 3.2社区许可规定,确保使用场景的安全性和合规性。
c4ai-command-r-v01 - 多语言生成和推理的高效大型语言模型
Github生成模型工具使用开源项目C4AI Command-R多语言生成文档引用Huggingface模型
C4AI Command-R是一款35亿参数的生成模型,适用于推理、摘要和问答等多种场景,具备强大的多语言生成能力,支持包括中文在内的10种语言。该模型在Hugging Face等平台提供实验机会,其开放权重设计方便多重用途的使用。采用优化的Transformer架构,并通过有监督微调以符合人类优选方式。通过特定的提示模板,模型能有效执行引用生成,提高回答的准确度和效用。
Flux_Lustly.ai_Uncensored_nsfw_v1 - Flux Lustly.ai Uncensored的裸露艺术生成
Githubporn模型开源项目全裸Huggingface生成模型Lustly.aiFlux
Flux Lustly.ai Uncensored v1 是文本到图像生成模型,专注于裸露艺术创作。该版本在 Flux 平台上稳定运行,并支持 CivitAi 社区。通过 Flux 模型,可以生成多姿势、高互动的高质量图像。这一开源模型支持本地推断,兼容多种设备。后续计划推出更多版本,拓展模型的创意能力。
Janus-1.3B - 提升视觉编码的灵活性与性能的多模态框架
视觉编码HuggingfaceGithub生成模型开源项目模型Janustransformer架构多模态理解
Janus是一种创新的自回归框架,通过解耦视觉编码提升多模态功能的灵活性和性能。该框架基于训练有素的DeepSeek-LLM-1.3b-base,处理了大约5000亿文本标记,并采用SigLIP-L视觉编码器实现高效图像处理。Janus在维持简单高效的设计下,达到甚至超越了任务特定模型的性能,预示着下一代统一多模态模型的可能性。
Mixtral-8x22B-v0.1 - 多平台兼容的预训练大规模语言模型
Mixtral-8x22BGithub模型开源项目语言模型Hugging FaceHuggingface生成模型Mistral AI
这是一款多语言兼容的预训练大型语言模型,支持生成性稀疏专家技术,兼容vLLM和Hugging Face transformers库,提供灵活的运行选项和优化内存管理的优势。然而,用户需注意,该模型没有内容审核功能。
saiga_llama3_8b - 基于Llama-3模型的俄语聊天自动化工具
SaigaGithub生成模型开源项目对话格式HuggingfaceLlama-3俄语聊天机器人模型
项目基于Llama-3模型开发,专注于俄语对话处理。通过优化提示格式和配置,提升在信息提供和故事创作方面的应用。最新版本v7在性能和用户交互上取得显著进步,并支持多种格式以满足不同开发需求。用户可通过Colab体验此工具,探索其多任务处理能力。
ColorfulXL-Lightning - 高分辨率图像生成的扩散模型创新工具
稳定扩散Huggingface文本到图像开源项目模型Github生成模型生成艺术ColorfulXL-Lightning
ColorfulXL-Lightning是ColorfulXL的增强版,添加了闪电功能,专注于艺术图像生成。模型经过美学微调,支持从576到1280的多种分辨率,并整合了多步闪电Unet,适合创意领域的应用和研究,旨在优化生成效果并探索其局限性。
DanTagGen-beta - AI图片标签生成器助力精准艺术创作
深度学习HuggingfaceDanTagGen开源项目模型AI绘图生成模型数据集Github
DanTagGen-beta是一款基于LLaMA架构的AI标签生成器,专为Danbooru风格的AI艺术创作设计。通过5.3M数据集训练,该工具能够根据基础标签智能推荐相关标签,有效提升生成图像的质量和细节。DanTagGen-beta支持多种部署方式,包括llama.cpp和量化模型,为AI艺术创作者提供了高效的标签辅助工具。
gemma-2-2b-it-GGUF - 一种专为低功耗设备优化,适合多种语言和代码生成的模型
Github自动补全生成模型开源项目多语言谷歌HuggingfaceGemma模型
Gemma 2 2b是Google推出的一款模型,基于Gemini技术,能有效处理多种语言、编程和数学文本。其2b参数设计适合用于低功耗边缘设备,通过优化词汇量和训练比例,提升模型性能,利用量化技术降低计算需求。适合作为自动完成功能和草稿生成工具,支持在LM Studio平台上使用。感谢Georgi Gerganov及团队的技术支持。
zero123-xl-diffusers - 探索模型在研究及艺术创作中的安全应用
Zero-1-to-3Github生成模型内容安全开源项目限制偏见Huggingface模型
Zero123-XL-Diffusers模型用于研究,关注大规模生成模型的安全部署及艺术创作应用。建议避免用其生成可能引发争议的图像,如歧视性内容。该模型无法完全实现真实感,并可能生成有误导性的面部或人物图像,存在社会偏见。使用时可结合Safety Checker模块以过滤不当内容。训练集包含潜在不当内容,已采取安全措施。
Llama-3.2-1B-Instruct-GGUF - 多语言模型优化,提升对话和信息处理效率
Github生成模型开源项目行业基准Llama 3.2模型多语言对话Huggingface优化
这个项目提供了经过优化的多语言大语言模型,提升了对话应用的效果和效率。Llama 3.2系列在1B和3B规格中进行了预训练及指令优化,能够处理信息提取和文本总结等多种任务。该模型在常用的行业基准测试中表现优于许多其他开源和闭源模型。SanctumAI通过量化增加了模型的操作效率,并提供多种量化选项以适应不同的硬件需求。在多语言对话的使用案例中,这些优化后的模型确保了良好的性能表现。
FabricDiffusion - 基于2D图像的高质量纹理无缝转移至3D服装
AI工具FabricDiffusion纹理传输3D服装生成高保真生成模型
FabricDiffusion可从2D服装图像中提取高质量纹理,并将其无失真地应用于各种形状的3D服装。通过去除输入纹理中的扭曲,该模型生成平面纹理图,并在各种光照条件下实现真实服装效果。经过合成数据训练,这种方法在真实世界应用中展现出优于现有技术的显著性能。
相关文章
AI笔记:人工智能助力学习与工作效率的提升
3 个月前
深度学习路线图:从入门到精通的学习指南
3 个月前
MobiLlama: 小巧高效的边缘设备语言模型
3 个月前
DiffusionDB: 大规模文本到图像提示数据集的创新与应用
3 个月前
Gretel Synthetics: 开源人工智能合成数据生成工具
3 个月前
深入探索计算机视觉:从基础到前沿的开源学习之旅
3 个月前
Diffusion Classifier: 利用预训练扩散模型实现零样本分类
3 个月前
MOFA-Video: 通过生成式运动场自适应实现可控的图像动画
3 个月前
LCM模型:探索AI的新边界,让你1秒出4张图,还有可以体验的网站!好玩!太好玩了!我还要玩!
2024年08月03日