#huggingface

MNBVC - MNBVC大规模中文语料集：覆盖多样类型数据支持开源社区

MNBVC中文语料集开源社区数据清洗huggingfaceGithub开源项目

MNBVC中文语料集由MOP里屋社区发起，目标是创建最大的中文互联网语料集，涵盖新闻、小说、论文等多种类型数据。当前数据量为34582GB，最终目标为40TB。MNBVC提供多种文件格式的数据，包括txt、json、jsonl和parquet，并配备一系列优化工具及爬虫代码协助数据处理。项目欢迎有技术背景的志愿者参与，提升数据清洗效率。访问Wiki了解更多信息。

text2video - 文本转视频工具，实现小说可视化阅读

文本转视频stable-diffusionedge-ttshuggingfaceDockerGithub开源项目

text2video 是一款将文本转换为视频的开源工具，支持小说等文本的可视化阅读。通过分段文本生成图片和语音，并合成为包含画面、字幕和声音的视频。应用了 stable-diffusion 和 edge-tts 技术，支持 Docker 一键启动和 macOS 本地开发。该工具还支持生成高质量的绘图提示词，利用 huggingface 的开源模型和 ffmpeg 进行音视频合成，操作简便，效果显著。

ComfyUI-InstantID - InstantID for ComfyUI 的非官方实现，支持姿势参考图和多种风格

ComfyUIInstantID模型加载姿势参考图huggingfaceGithub开源项目

ComfyUI-InstantID 是对 InstantID 的非官方实现，支持姿势参考图和多种风格。该项目提供了从 Huggingface hub 和本地加载基础模型、InsightFace 模型和 ID ControlNet 模型的功能，完美兼容各种提示词和风格。V2.0 版本新增了姿势参考图功能，并进行了代码优化和兼容性修复。详细的安装和使用指南，从配置下载到模型路径设置，确保用户可以快速部署并享受优化体验。

gemma-2-2b-it-GGUF - Gemma 2B-it模型的多种量化版本及使用指南

模型GGUF开源项目HuggingfaceGemmahuggingfaceGithubLLM量化模型

本项目提供Google Gemma 2B-it模型的11种量化版本，使用llama.cpp处理。量化级别从F32到IQ3_M，文件大小1.39GB至10.46GB。详细介绍各版本特点、使用场景和选择建议，并提供下载方法、提示词格式等说明。适合不同硬件配置的轻量级Gemma模型部署需求。

MicroLlama - 预算内的大规模语言模型构建：300M Llama模型的探索

开源项目huggingface模型Github开源Huggingface文本生成MicroLlama语言模型

该项目在有限预算内，通过全面开源的方法构建了一个300M Llama语言模型。尽管性能不及更大型的模型，但以不到500美元的投入，在多数据集上表现出色，并在与类似参数的BERT模型比较时展现优势。项目使用Vast.ai的计算资源和AWS S3存储，对TinyLlama模型进行了调整，重点优化Slimpajama数据集。这一项目展示了低成本大规模模型开发的潜力，并为细化应用如轻量级聊天机器人提供了坚实基础。

Grok-1-GGUF - Grok-1 GGUF量化支持llama.cpp的最新特性

模型下载huggingfacellama.cpp量化HuggingfaceGithub开源项目Grok-1模型

Grok-1 GGUF量化文件提供对llama.cpp的支持，通过简化的流程提升模型运行效率。可通过llama.cpp从Huggingface直接下载和运行分片文件，支持包括Q2_K、IQ3_XS、Q4_K和Q6_K在内的多种版本，推荐使用IQ3_XS版本。

granite-3.0-8b-instruct-GGUF - 文本生成模型的量化优化与性能提升

huggingface量化HuggingfaceGithub开源项目模型数据集文本生成granite-3.0

项目通过llama.cpp对granite-3.0-8b-instruct模型进行量化优化，适用于低内存环境的高效运行。根据硬件资源，用户可以从多种量化模型中选择，实现性能与质量的最佳平衡。项目支持代码生成、数学推理和多语言处理等任务，并提升了在IFEval、AGI-Eval等数据集上的表现。提供了从高质量全权重到ARM架构优化模型的多种选择，加速模型推断过程，展示了在文本生成领域的有效实践。

Configurable-Hermes-2-Pro-Llama-3-8B - 多任务文本生成与可配置安全性的集成模型

安全性huggingfaceGithubConfigurable-Hermes-2-Pro-Llama-3-8B文本生成开源项目Huggingface多任务配置模型

本项目展示了一种多任务文本生成模型，采用了可配置安全调优（CST）方法。模型以Vicgalle的数据集为基础，在IFEval、BBH和MATH等多个基准上测试并取得了有价值的结果。此模型支持多样化的系统提示，以适应不同场景需求，包括无害帮助与无审查内容的生成。其表现已在开放LLM排行榜中有所体现，尤其是在严格准确性方面。更多详情和源代码可在GitHub和相关文献中查阅。

llama-2-ko-7b - 韩语文本生成模型与优化的词汇扩展

Github机器学习开源项目huggingface模型Huggingface韩语模型文本生成Llama-2-Ko

Llama-2-Ko是基于Llama-2的语言模型，使用韩语语料库进行预训练，增强了文本生成功能。该模型提供从7B到70B参数的版本，尤其7B版本适配Hugging Face Transformers。Llama-2-Ko优化了变压器结构，增加了韩语词汇，有效生成高质量文本。项目由Junbum Lee领导，支持多参数与微调版本，应用广泛。

相关文章

Article Cover

ComfyUI-InstantID: 为AI艺术创作带来身份精准还原的革新技术

Article Cover

Text2Video: 将文本转换为视频的革命性工具

使用协议隐私政策广告服务

投诉举报邮箱: service@vectorlightyear.com

@2024 懂AI·鲁ICP备2024100362号-6·鲁公网安备37021002001498号