#训练数据集
tacotron - 端到端文本转语音合成模型实现
Github开源项目TensorFlow语音合成文本到语音Tacotron训练数据集
基于TensorFlow的Tacotron模型,是一个全面的端对端文本转语音合成系统。该模型涵盖多种数据集,运用现代深度学习与注意力机制优化文本到语音的高质量转换,适用于学术研究与商业应用。
daclip-uir - 利用视觉语言模型控制实现通用图像修复
Github开源项目AI技术训练数据集DA-CLIP视觉语言模型图像恢复
DA-CLIP模型通过视觉语言控制实现通用图像修复。用户可以通过多种方式使用预训练模型,如Gradio应用测试图像,或通过提供的代码示例和数据准备步骤进行训练和评估。该项目提供解决多种真实世界图像退化问题的方法,并提供多种预训练模型供下载。功能和性能的持续更新显著提升了其在图像修复中的适用性。
Platypus2-13B - LLaMA2架构下通过指令微调优化的模型及其表现
人工智能Github开源项目机器学习语言模型模型Huggingface训练数据集Platypus2-13B
该模型基于LLaMA2-13B架构进行指令微调,具备自动回归功能。使用STEM和逻辑数据集进行训练,在ARC和HellaSwag等任务中表现优异。开发者应在应用前进行安全测试,以验证适用性并减轻可能的偏见。
Swallow-MX-8x7b-NVE-v0.1 - 跨语言文本生成模型,强化日语能力
Github开源项目语言模型模型Huggingface训练数据集模型性能Swallow-MX-8x7b-NVE-v0.1日语数据
Swallow-MX-8x7b-NVE-v0.1基于Mixtral-8x7B-Instruct持续预训练,增加了日语数据模块,提升了多语言文本生成性能。该模型在日文常识问答和翻译任务中表现突出,发布于Apache-2.0开源许可证下。该版本仍在开发中,提醒注意输出的安全性。项目由ABCI计划支持,适用于多语言自然语言处理任务。
COKAL-DPO_test-v2-13b - 采用LLaMA2架构的13B规模自动回归语言模型
Github开源项目语言模型模型模型开发transformersHuggingface训练数据集COKAL-DPO_test-v2
模型由韩国公司Media Group Saramwa Soop与Marker合作开发,基于LLaMA2变压器架构,具备文本生成能力。基础模型为COKAL_pre_DPO_Test_v1-13b,采用DPO及SFT私有数据集训练,适用于多种文本生成任务。该研究项目由韩国科学技术信息通信部和光州广域市资助,旨在推动人工智能产业集群发展。
stablelm-2-1_6b-chat - 1.6亿参数的对话模型
Github开源项目语言模型模型性能评估Huggingface训练数据集使用限制StableLM 2 Chat 1.6B
StableLM 2 Chat 1.6B由Stability AI创建,是基于transformer解码器架构的自然语言模型,专为对话场景设计。模型使用多种公开和合成数据集训练,并运用直接偏好优化算法。OpenLLM排行榜上的出色表现使其适用于对话应用,建议配置输入输出分类器以提升安全性和降低偏误,适合非商业用途。
Swallow-7b-instruct-hf - 日语与英语双支持的Swallow模型,带来高效文本推理
Github开源项目模型Llama 2Huggingface模型发布训练数据集JapaneseSwallow
Swallow模型加入日语数据进行持续预训练,支持日语和英语。项目推出不同版本的指令调优模型,如Swallow-7b-instruct-v0.1,以提升日语任务表现。通过广泛的词汇表和较少的tokens,模型在文本生成、机器翻译和阅读理解任务中表现优异,提供快速而精确的文本推理。
OLMo-7B - 专注于语言模型科学的开放模型
Github开源项目语言模型模型Huggingface训练数据集模型性能OLMo
OLMo系列模型由Allen Institute for AI开发,旨在推进语言模型科学。该系列模型使用Dolma数据集进行训练,提供诸如OLMo 7B等多种版本及详细的训练检查点和代码支持。这些模型可用于英文学术研究,并可在Hugging Face平台上获取。项目获得哈佛大学、Databricks、AMD等机构支持,并在MMLU测试中显示出明显的性能提升。
dolphin-2.9.3-mistral-nemo-12b - AI助理与编程功能结合的多样化模型
Github开源项目模型Huggingface训练数据集功能调用Dolphin 2.9.3无偏见apache 2.0许可
Dolphin 2.9.3由Eric Hartford和Cognitive Computations开发,基于mistralai/Mistral-Nemo-Base-2407,并使用ChatML格式。这个模型集成了多种指令跟随、对话和编程能力,涵盖初步代理功能和函数调用。数据集经过过滤,以去除对齐与偏见,增强模型的合规性。由于模型未进行内容审查,建议在对外服务前实施自定义对齐层。使用此模型需要自行承担责任。它在Apache 2.0许可下发布,允许多种用途,包括商业用途。
mamba-2.8b-zephyr - HuggingFace优化的AI模型Direct Preference Optimization方法提升性能
Github开源项目模型微调模型HuggingFaceHuggingface训练数据集超参数mamba-2.8b-zephyr
mamba-2.8b-zephyr是对xiuyul/mamba-2.8b-ultrachat的增强版,在HuggingFaceH4/ultrafeedback_binarized数据集上通过Direct Preference Optimization方法进行训练。它在性能评价中表现优异,奖励准确率为0.7857,奖励边际值为1.1582。在多GPU分布式环境中,通过Adam优化器和线性学习率调度进行训练,提高了模型的稳定性和预测精准度,具备广泛的应用潜力。
distilbert-base-fallacy-classification - 适用于识别14种逻辑谬误的文本分类模型
Github开源项目模型Huggingface文本分类训练数据集超参数distilbert-base-fallacy-classification逻辑谬误
模型基于Logical Fallacy Dataset微调,支持识别14种逻辑谬误,如人身攻击、诉诸大众、情感诉求、以及循环论证等。通过transformers库的pipeline,简化文本分类过程,提升文本分析的准确率,助力识别常见推理谬误。
Qwen2.5-7B-Instruct-GGUF - Qwen2.5-7B-Instruct的多样化量化方案增强模型适应性
Github开源项目性能优化模型量化Huggingface训练数据集ARM芯片Qwen2.5-7B-Instruct
项目采用llama.cpp的最新量化方案对Qwen2.5-7B-Instruct模型进行优化,提供灵活的量化格式以匹配各类硬件环境。更新的上下文长度管理与先进的分词器,无论选择传统的Q-K量化还是新兴的I-quant,各种档次的文件都能帮助设备实现性能与速度的平衡。尤其是对ARM架构的专门优化,即便在低RAM环境下,用户也能凭借有限的资源获得可行的使用体验。
llama-3-2-1b-sft - 超大规模对话数据集的精细调优AI模型
Github开源项目微调模型Huggingface训练数据集超参数超大规模语言模型llama-3-2-1b-sft
该项目将NousResearch的Llama-3.2-1B模型进行精细调优,使用HuggingFaceH4/ultrachat_200k数据集以提高对话处理性能。在多GPU分布式训练中,使用Adam优化器和余弦学习率调度策略,该模型在验证集上的损失率降低至1.2759。适用于广泛的自然语言处理应用,特别是在对话生成和交互式AI领域中。
OpenOrca-Platypus2-13B - 人工智能模型OpenOrca-Platypus2-13B的合并与性能分析
Github开源项目文本生成神经网络模型模型评估Huggingface训练数据集OpenOrca-Platypus2-13B
OpenOrca-Platypus2-13B融合了Platypus2-13B和OpenOrcaxOpenChat-Preview2-13B,采用LoRA技术进行微调,在MMLU、ARC、HellaSwag等基准测试中表现突出,相较初版模型,尤其在LSAT逻辑推理中有显著提升。用户可通过Nomic Atlas查阅完整数据集,并使用特定框架重现基准测试结果。建议开发者在应用之前进行安全测试与调整,以优化部署效果。