项目介绍:WizardLM Uncensored SuperCOT Storytelling 30B - GGUF
项目背景
WizardLM Uncensored SuperCOT Storytelling 30B-GGUF 是一个由YellowRoseCx创建的人工智能模型。此模型是在原始的WizardLM Uncensored SuperCOT Storytelling 30B的基础上发展而来的。它是为故事讲述和复杂任务的自然语言处理而设计的,现以GGUF格式提供。
GGUF 格式
GGUF格式是由llama.cpp团队于2023年8月21日引入的,是GGML格式的升级和替代。支持GGUF格式的客户端和库很多,例如:
- llama.cpp:提供命令行接口和服务器选项。
- text-generation-webui:功能众多,支持GPU加速的网页UI。
- KoboldCpp:全面的网页UI,支持各种平台和GPU架构,尤其适用于讲故事。
- LM Studio:易于使用的Windows和macOS(Silicon)的本地GUI。
- LoLLMS Web UI:一个具有许多独特功能的网页UI。
- Faraday.dev:基于角色的聊天GUI,适用于Windows和macOS(Silicon和Intel)。
- ctransformers:带有GPU加速功能的Python库。
- llama-cpp-python:支持LangChain和OpenAI兼容API服务器的Python库。
模型文件的下载与使用
项目提供多种用于不同推理和算子优化的模型文件。这些文件适用于各种硬件条件,包括GPU和CPU。用户可以根据需要,选择适合的模型下载和使用。下载方式包括通过命令行工具huggingface-cli
上传或借助各类支持工具的下载功能。
使用指南
用户可以通过以下几种方式来使用这些模型:
-
文本生成Web界面:通过输入模型库名称和文件名即可下载与使用。
-
Python接口:可以使用llama-cpp-python或ctransformers库来实现Python环境下的模型调用,比如:
from ctransformers import AutoModelForCausalLM llm = AutoModelForCausalLM.from_pretrained("TheBloke/WizardLM-Uncensored-SuperCOT-StoryTelling-30B-GGUF", model_file="WizardLM-Uncensored-SuperCOT-Storytelling.Q4_K_M.gguf", model_type="llama", gpu_layers=50) print(llm("AI is going to"))
-
聊天应用集成:通过创建适合的Prompt来实现高质量的互动对话。
兼容性与量化方法
GGUFv2文件自2023年8月27日的llama.cpp更新后与许多第三方UI和库兼容。量化方法新增加了多种方式,例如2-bit到8-bit量化方法,以提高计算效率和内存使用的灵活性。不同的量化方式适用于不同的场景,从内存受限的设备到需要高精度的应用环境应有尽有。
贡献与社区
最后,项目由社区支持和贡献,同时作者鼓励并欢迎更多的贡献者加入,共同推动AI模型的开发和应用。用户可以通过Discord或其他平台与开发者交流,讨论在使用中的问题与新功能的开发。