#huggingface

MNBVC - MNBVC大规模中文语料集:覆盖多样类型数据支持开源社区
MNBVC中文语料集开源社区数据清洗huggingfaceGithub开源项目
MNBVC中文语料集由MOP里屋社区发起,目标是创建最大的中文互联网语料集,涵盖新闻、小说、论文等多种类型数据。当前数据量为34582GB,最终目标为40TB。MNBVC提供多种文件格式的数据,包括txt、json、jsonl和parquet,并配备一系列优化工具及爬虫代码协助数据处理。项目欢迎有技术背景的志愿者参与,提升数据清洗效率。访问Wiki了解更多信息。
text2video - 文本转视频工具,实现小说可视化阅读
文本转视频stable-diffusionedge-ttshuggingfaceDockerGithub开源项目
text2video 是一款将文本转换为视频的开源工具,支持小说等文本的可视化阅读。通过分段文本生成图片和语音,并合成为包含画面、字幕和声音的视频。应用了 stable-diffusion 和 edge-tts 技术,支持 Docker 一键启动和 macOS 本地开发。该工具还支持生成高质量的绘图提示词,利用 huggingface 的开源模型和 ffmpeg 进行音视频合成,操作简便,效果显著。
ComfyUI-InstantID - InstantID for ComfyUI 的非官方实现,支持姿势参考图和多种风格
ComfyUIInstantID模型加载姿势参考图huggingfaceGithub开源项目
ComfyUI-InstantID 是对 InstantID 的非官方实现,支持姿势参考图和多种风格。该项目提供了从 Huggingface hub 和本地加载基础模型、InsightFace 模型和 ID ControlNet 模型的功能,完美兼容各种提示词和风格。V2.0 版本新增了姿势参考图功能,并进行了代码优化和兼容性修复。详细的安装和使用指南,从配置下载到模型路径设置,确保用户可以快速部署并享受优化体验。
gemma-2-2b-it-GGUF - Gemma 2B-it模型的多种量化版本及使用指南
模型GGUF开源项目HuggingfaceGemmahuggingfaceGithubLLM量化模型
本项目提供Google Gemma 2B-it模型的11种量化版本,使用llama.cpp处理。量化级别从F32到IQ3_M,文件大小1.39GB至10.46GB。详细介绍各版本特点、使用场景和选择建议,并提供下载方法、提示词格式等说明。适合不同硬件配置的轻量级Gemma模型部署需求。
MicroLlama - 预算内的大规模语言模型构建:300M Llama模型的探索
开源项目huggingface模型Github开源Huggingface文本生成MicroLlama语言模型
该项目在有限预算内,通过全面开源的方法构建了一个300M Llama语言模型。尽管性能不及更大型的模型,但以不到500美元的投入,在多数据集上表现出色,并在与类似参数的BERT模型比较时展现优势。项目使用Vast.ai的计算资源和AWS S3存储,对TinyLlama模型进行了调整,重点优化Slimpajama数据集。这一项目展示了低成本大规模模型开发的潜力,并为细化应用如轻量级聊天机器人提供了坚实基础。
Grok-1-GGUF - Grok-1 GGUF量化支持llama.cpp的最新特性
模型下载huggingfacellama.cpp量化HuggingfaceGithub开源项目Grok-1模型
Grok-1 GGUF量化文件提供对llama.cpp的支持,通过简化的流程提升模型运行效率。可通过llama.cpp从Huggingface直接下载和运行分片文件,支持包括Q2_K、IQ3_XS、Q4_K和Q6_K在内的多种版本,推荐使用IQ3_XS版本。
granite-3.0-8b-instruct-GGUF - 文本生成模型的量化优化与性能提升
huggingface量化HuggingfaceGithub开源项目模型数据集文本生成granite-3.0
项目通过llama.cpp对granite-3.0-8b-instruct模型进行量化优化,适用于低内存环境的高效运行。根据硬件资源,用户可以从多种量化模型中选择,实现性能与质量的最佳平衡。项目支持代码生成、数学推理和多语言处理等任务,并提升了在IFEval、AGI-Eval等数据集上的表现。提供了从高质量全权重到ARM架构优化模型的多种选择,加速模型推断过程,展示了在文本生成领域的有效实践。
Configurable-Hermes-2-Pro-Llama-3-8B - 多任务文本生成与可配置安全性的集成模型
安全性huggingfaceGithubConfigurable-Hermes-2-Pro-Llama-3-8B文本生成开源项目Huggingface多任务配置模型
本项目展示了一种多任务文本生成模型,采用了可配置安全调优(CST)方法。模型以Vicgalle的数据集为基础,在IFEval、BBH和MATH等多个基准上测试并取得了有价值的结果。此模型支持多样化的系统提示,以适应不同场景需求,包括无害帮助与无审查内容的生成。其表现已在开放LLM排行榜中有所体现,尤其是在严格准确性方面。更多详情和源代码可在GitHub和相关文献中查阅。
llama-2-ko-7b - 韩语文本生成模型与优化的词汇扩展
Github机器学习开源项目huggingface模型Huggingface韩语模型文本生成Llama-2-Ko
Llama-2-Ko是基于Llama-2的语言模型,使用韩语语料库进行预训练,增强了文本生成功能。该模型提供从7B到70B参数的版本,尤其7B版本适配Hugging Face Transformers。Llama-2-Ko优化了变压器结构,增加了韩语词汇,有效生成高质量文本。项目由Junbum Lee领导,支持多参数与微调版本,应用广泛。