#参数
MidJourney-Styles-and-Keywords-Reference - MidJourney风格与关键词全面参考手册
MidJourney风格比较页面参数图像分辨率Github开源项目
此项目作为MidJourney风格与关键词的详尽参考资源,提供丰富的指南和对比分析,支持用户从基础到高级所有层面的创作需求,包括风格细化、参数配置及其复杂比对等。
mixture-of-experts - 稀疏门控专家混合模型的Pytorch实现
Sparsely Gated Mixture of ExpertsPytorch语言模型计算参数Github开源项目
基于Pytorch实现的稀疏门控专家混合模型,可以在保持计算量不变的情况下大幅增加语言模型的参数量。项目参考了TensorFlow的实现,并进行了增强。还包含ST Mixture of Experts的使用指南,安装和使用示例,以及自定义专家网络的支持。
h2o-danube3-4b-base - 高效大语言模型支持离线运行
Github模型模型架构开源项目h2o-danube3-4bHuggingface大语言模型H2O.ai参数
h2o-danube3是H2O.ai构建的基础大语言模型,具有40亿参数,支持在手机上本地和离线运行。该模型采用Llama 2架构调整,集成Mistral tokenizer,拥有32,000词汇和8,192上下文长度。模型兼容transformers库,提供量化和分片方案,适用于多GPU设备。其在Open LLM Leaderboard的Hellaswag测试中获得79.84高分。建议用户负责地使用该模型,审慎评估生成内容。
qwen2.5-7b-ins-v3-GGUF - 量化优化AI模型的多样化选择指南
quantizationHuggingface参数嵌入权重模型Github开源项目Qwen2.5-7b-ins-v3
该项目利用llama.cpp的b3901版本和imatrix选项对AI模型进行量化优化,支持各种硬件的量化格式下载。在LM Studio中运行这些模型,可通过缩小文件大小实现更高效的部署。K-quant格式在低资源环境中表现突出,而I-quants则在某些情况下显示出其新方法的优越性能,尤其建议ARM芯片用户选择Q4_0_X_X以获取更快速的响应。
h2o-danube3-4b-chat - H2O.ai推出支持离线运行的4亿参数聊天模型
使用注意事项Huggingface参数h2o-danube3-4b-chatGithub开源项目模型transformers语言模型
h2o-danube3-4b-chat是由H2O.ai推出的4亿参数聊天模型,采用Llama 2架构,并经过H2O LLM Studio微调。该模型支持在手机设备上离线运行,使用Mistral tokenizer,支持32,000词汇量和8,192上下文长度。其在🤗 Open LLM Leaderboard上的表现具竞争力,并支持量化和多GPU分片,便于加载与使用。
TinyLlama-1.1B-intermediate-step-955k-token-2T - 探讨紧凑型1.1B参数模型的高效预训练
计算Huggingface参数模型Github开源项目TinyLlama预训练
TinyLlama项目目标是在3万亿标记上预训练一个具备1.1B参数的Llama模型。通过优化技术,该项目可在90天内使用16个A100-40G GPU完成训练。采用与Llama 2相同的架构和分词器,确保与其他开源项目的兼容性。TinyLlama的紧凑设计适合计算和内存受限的应用。该项目于2023年9月1日启动,计划在2023年12月1日前完成,并会逐步发布中间检查点。详细信息请查看TinyLlama GitHub页面。
Yi-Ko-6B - 多语言大规模自动回归模型优化文本生成性能
Github模型开源项目Yi-Ko-6B语言模型Huggingface文本生成自回归模型参数
Yi-Ko-6B项目通过引入韩语和英语语料库,以及扩展词汇,实现对预训练模型的增强。该模型基于Llama-2优化的transformer架构,并拥有6亿参数,专注于文本生成任务。在AI2 Reasoning Challenge、HellaSwag和MMLU等多项基准测试中,模型展现了突出的多语言处理能力。此外,它还能高效执行韩语句子的词分段与生成。
TinyMistral-248M - 使用小规模数据集进行高效模型预训练
Github微调Mistral 7B模型开源项目语言模型Huggingface评估结果参数
TinyMistral-248M基于Mistral 7B模型,参数减少至约2.48亿,专为下游任务微调设计。预训练使用了748.8万个实例,支持文本生成功能,拥有约32,768个token的上下文长度。模型在InstructMix评估中的平均困惑度为6.3,未来将在多数据集上增加训练周期,验证无需大数据集即可进行有效预训练的可能性,并在多个指标测试中表现良好。
xglm-564M - 提升跨语言AI技术的多语言自回归语言模型
多语言Github模型开源项目语言模型XGLM-564M少样本学习Huggingface参数
XGLM-564M是一个多语言自回归语言模型,具有5.64亿参数,在30种语言的平衡语料库上训练,涉及5000亿子标记。该模型适用于跨语言少样本学习,支持多语言自然语言处理,并在COPA任务上实现零样本评估。有兴趣的用户可查看model card以获取更多使用信息。