SDT

生成可定制风格的在线和离线手写体

SDT 手写生成写作风格解耦在线中文手写 CVPR 2023 Github 开源项目

该项目提出了一种名为SDT的风格解缠变压器，可生成具有特定内容和风格的手写体。相较于现有的RNN方法，SDT能够区分书写者和字符的风格差异，提高模仿性能。此外，该项目还延伸至离线手写体生成，显著改进了中文离线手写体的生成质量。最近的更新包括发布教程和代码，支持用户自定义手写体风格合成，新方法One-DM也已被ECCV 2024接收。

Github

介绍相关项目

controlnet-scribble-sdxl-1.0 - 支持多种线条样式的高分辨率图像生成模型

ControlNet_SDXLGithubHuggingface图像生成开源项目模型线稿视觉美感高分辨率

该模型能够生成与Midjourney效果相近的高分辨率图像。其通过超过千万张高质量图像数据的训练，采用多重分辨率和数据增强技术，支持各种类型和宽度的线条。用户可利用简单的草图和提示词生成视觉效果突出的图像。在美学表现上，该模型优于Controlnet-Canny-Sdxl-1.0。但需注意，线条的厚薄会影响控制能力，适合从粗略到精细的逐步创作。

blended-latent-diffusion - 快速高精度的局部文本引导图像编辑技术

Blended Latent DiffusionGithubSIGGRAPH 2023图像生成开源项目扩散模型文本驱动编辑

Blended Latent Diffusion是一种创新的局部文本引导图像编辑技术。该方法在低维潜在空间中操作，显著提高了编辑效率。通过融合扩散技术和优化策略，它解决了图像重建精度问题，并支持细微区域的局部编辑。与现有方法相比，Blended Latent Diffusion不仅处理速度更快，还实现了更高的编辑精度，同时减少了常见的图像伪影。该技术可应用于背景编辑、文本生成和对象修改等多个领域。

UDiffText - 基于字符级扩散模型的高质量图像文本合成框架

GithubUDiffText图像生成字符级编码开源项目扩散模型文本合成

UDiffText是一个基于字符级扩散模型的文本合成框架，能在任意图像中生成高质量文本。该框架适用于合成和真实图像，可进行场景文本编辑、任意文本生成和精确的文本到图像生成。项目包含完整的训练和评估流程，支持LAION-OCR、ICDAR13等多个数据集。UDiffText为文本合成和图像处理领域提供了新的解决方案。

Visual-Style-Prompting - 创新的视觉风格提示方法实现文本到风格化图像生成

GithubVisual Style Prompting开源项目扩散模型文本到图像生成自注意力机制风格控制

Visual-Style-Prompting项目提出创新的视觉风格提示方法，通过交换自注意力层键值实现多样化图像生成并保持特定风格。无需微调即可使用，生成图像忠实反映参考风格。经广泛评估，该方法在多种风格和文本提示下表现优异，准确匹配文本描述并最佳呈现参考风格。

instruction-tuned-sd - 基于指令微调的Stable Diffusion图像编辑模型

GithubStable Diffusion低级图像处理卡通化图像处理开源项目指令微调

该项目探索了一种指令微调Stable Diffusion模型的方法,使其能够根据输入图像和特定指令进行图像编辑。结合FLAN和InstructPix2Pix的思想,项目通过构建指令数据集和训练,提升了模型执行图像转换任务的能力。研究涵盖卡通化和低级图像处理,并开源了相关代码、模型和数据集。

HumanSD - 基于骨骼引导的人体图像生成模型

GithubHumanSDStable Diffusion人物图像生成开源项目扩散模型骨架引导

HumanSD是一个基于骨骼引导的扩散模型，用于生成可控的人体图像。该模型通过热图引导去噪损失对稳定扩散模型进行微调，增强了骨骼条件的控制能力，同时减轻了灾难性遗忘。HumanSD在三个大规模人体数据集上训练，其中两个是新建立的。相比现有方法，HumanSD在复杂姿势、绘画风格、多人场景和细节方面表现更佳。

control_v11p_sd15s2_lineart_anime - 动漫风格线稿的控制性扩散模型

ControlNetGithubHuggingfaceStable Diffusion开源项目文本到图像生成条件控制模型线稿动漫

该项目通过ControlNet为扩散模型添加条件输入，专注于动漫风格线条艺术。ControlNet适应性强，能在小数据集上稳健学习特定任务条件。结合Stable Diffusion v1-5，可以提升模型处理边缘图、分割图和关键点的能力，有助于扩展大规模扩散模型的应用。

SVGDreamer - 文本驱动的SVG图形生成工具

CVPR2024GithubSVGDreamerSVG生成开源项目扩散模型文本引导

SVGDreamer是一款基于扩散模型的矢量图形生成工具。它能根据文本描述生成高质量、可编辑的SVG图像。该工具支持多种风格，如图标、油画、像素艺术、低多边形和素描等。SVGDreamer在保证图像质量的同时，也注重矢量图形的可编辑性，为图形设计和创作提供了新的可能性。

StyleTTS2 - 通过样式扩散与对抗训练实现的高质量的文本到语音合成模型

GithubStyleTTS 2大型语言模型对抗训练开源项目语音合成风格扩散

StyleTTS 2是一种创新的文本到语音模型，通过样式扩散和大规模语音语言模型的对抗训练，实现高质量的语音合成。该模型利用潜在随机变量生成最适合文本的语音风格，无需参考语音，提高了语音的自然度。StyleTTS 2在单说话人和多说话人数据集上的表现超越了现有模型，并在零样本说话人适应方面表现出色。

distill-sd - 更小更快速的Stable Diffusion模型，依靠知识蒸馏实现高质量图像生成

GithubStable Diffusion开源项目模型压缩神经网络训练细节预训练检查点

基于知识蒸馏技术开发的小型高速Stable Diffusion模型。这些模型保留了完整版本的图像质量，同时大幅减小了体积和提升了速度。文档详细介绍了数据下载脚本、U-net训练方法和模型参数设置，还支持LoRA训练及从检查点恢复。提供清晰的使用指南和预训练模型，适配快速高效图像生成需求。

相关项目

项目侧边栏1

项目侧边栏2

推荐项目

Project Cover

豆包MarsCode

豆包 MarsCode 是一款革命性的编程助手，通过AI技术提供代码补全、单测生成、代码解释和智能问答等功能，支持100+编程语言，与主流编辑器无缝集成，显著提升开发效率和代码质量。

Project Cover

AI写歌

Suno AI是一个革命性的AI音乐创作平台，能在短短30秒内帮助用户创作出一首完整的歌曲。无论是寻找创作灵感还是需要快速制作音乐，Suno AI都是音乐爱好者和专业人士的理想选择。

Project Cover

白日梦AI

白日梦AI提供专注于AI视频生成的多样化功能，包括文生视频、动态画面和形象生成等，帮助用户快速上手，创造专业级内容。

Project Cover

有言AI

有言平台提供一站式AIGC视频创作解决方案，通过智能技术简化视频制作流程。无论是企业宣传还是个人分享，有言都能帮助用户快速、轻松地制作出专业级别的视频内容。

Project Cover

Kimi

Kimi AI助手提供多语言对话支持，能够阅读和理解用户上传的文件内容，解析网页信息，并结合搜索结果为用户提供详尽的答案。无论是日常咨询还是专业问题，Kimi都能以友好、专业的方式提供帮助。

Project Cover

讯飞绘镜

讯飞绘镜是一个支持从创意到完整视频创作的智能平台，用户可以快速生成视频素材并创作独特的音乐视频和故事。平台提供多样化的主题和精选作品，帮助用户探索创意灵感。

Project Cover

讯飞文书

讯飞文书依托讯飞星火大模型，为文书写作者提供从素材筹备到稿件撰写及审稿的全程支持。通过录音智记和以稿写稿等功能，满足事务性工作的高频需求，帮助撰稿人节省精力，提高效率，优化工作与生活。

Project Cover

阿里绘蛙

绘蛙是阿里巴巴集团推出的革命性AI电商营销平台。利用尖端人工智能技术，为商家提供一键生成商品图和营销文案的服务，显著提升内容创作效率和营销效果。适用于淘宝、天猫等电商平台，让商品第一时间被种草。

Project Cover

AIWritePaper论文写作

AIWritePaper论文写作是一站式AI论文写作辅助工具，简化了选题、文献检索至论文撰写的整个过程。通过简单设定，平台可快速生成高质量论文大纲和全文，配合图表、参考文献等一应俱全，同时提供开题报告和答辩PPT等增值服务，保障数据安全，有效提升写作效率和论文质量。

使用协议隐私政策广告服务

投诉举报邮箱: service@vectorlightyear.com

@2024 懂AI·鲁ICP备2024100362号-6·鲁公网安备37021002001498号