#语言模型
opus-mt-tc-big-ar-en - 高效的阿拉伯语到英语神经机器翻译模型,实现精准的跨语言转换
HuggingfaceOPUS-MT阿拉伯语翻译开源项目模型Github机器翻译语言模型自然语言处理
OPUS-MT项目开发的opus-mt-tc-big-ar-en是一款阿拉伯语到英语的神经机器翻译模型。该模型使用Marian NMT框架训练,支持现代标准阿拉伯语及其方言。在多个测试集上,模型展现出优秀性能,BLEU评分介于42.6至47.3之间。模型已转换为PyTorch格式,可通过Hugging Face的transformers库轻松使用。
NeuralMonarch-7B - 基于Mistral架构的7B参数大语言模型在多项基准测试中展现卓越性能
人工智能模型NeuralMonarch-7B深度学习自然语言处理HuggingfaceGithub开源项目模型语言模型
NeuralMonarch-7B是基于Monarch-7B开发的开源语言模型,通过DPO技术微调并使用LazyMergekit整合多个基础模型。在Nous基准测试中获得62.73分的平均成绩,支持8k上下文窗口,专注于指令理解和逻辑推理能力。模型提供GGUF量化版本,可用于聊天及推理等多种应用场景。
bert-fa-base-uncased - 波斯语领域预训练的单语言Transformer模型
开源项目情感分析模型ParsBERTGithubHuggingface命名实体识别预训练语言模型
ParsBERT是一个基于Transformer架构的波斯语单语言模型,通过大规模波斯语料库预训练,能够处理情感分析、文本分类及命名实体识别等任务。ParsBERT v2.0通过词汇表重构和新波斯语料库微调,在多项任务中表现优于多语言BERT和其他模型,提升了波斯语语言处理的效果。该模型支持掩码语言建模和后续任务微调,用户可在Hugging Face平台获取不同任务的微调版本。
Tiger-Gemma-9B-v3-GGUF - Gemma-9B大语言模型优化版 移除限制支持GGUF格式
语言模型Tiger Gemma 9B救助流浪猫模型解密Github开源项目GGUFHuggingface
Tiger-Gemma-9B-v3是基于Gemma-9B的优化模型,通过新数据集移除了原模型的限制。模型已转换为GGUF格式,便于本地部署。项目开源于Hugging Face平台,为开发者提供了更自由的大语言模型选择。模型命名源自作者收养的猫咪Tiger,体现了对AI表达自由的追求。
open-calm-3b - 基于日语数据集的解码器语言模型
日本语开源项目模型GithubHuggingfaceCyberAgentTransformerOpenCALM-3B语言模型
OpenCALM是由CyberAgent开发的语言模型,利用日语数据集进行训练,支持文本生成和自然语言处理。该模型使用GPT-NeoX库编写,提供多种规模的架构选择,如small、medium和large。open-calm-3b版本拥有2.7B参数,采用Transformer架构,提升了语言生成质量,适用于大规模日语语料库处理。
opus-mt-tc-base-en-sh - 多语言神经机器翻译模型,支持英-塞尔维亚-克罗地亚语转换
语言模型神经网络OPUS-MTMarianNMTGithub模型开源项目机器翻译Huggingface
该项目提供的神经机器翻译模型,支持从英语到塞尔维亚-克罗地亚语及其他语言的翻译。采用Marian NMT框架训练,使用transformers库转换为pyTorch格式。此模型由赫尔辛基大学开发,数据集来自OPUS项目,并采用SentencePiece进行预处理。适用于文本翻译和生成,包含代码示例与评估细节,遵循CC-BY-4.0许可。
NeuralDaredevil-8B-abliterated - 优秀的开源8B参数量大语言模型,在Open LLM排行榜中领先
深度学习HuggingfaceNeuralDaredevil-8B人工智能开源项目模型Github语言模型模型评估
NeuralDaredevil-8B-abliterated是一个经过DPO微调的8B参数量大语言模型。该模型通过abliteration过程和orpo-dpo-mix-40k数据集训练,成功恢复并提升了性能。在Open LLM Leaderboard上,其MMLU得分领先同级别模型。模型支持GGUF、EXL2、AWQ等多种量化版本,适用于角色扮演等无需对齐的应用场景。在AGIEval、GPT4All等多项评测中,NeuralDaredevil-8B-abliterated均展现出优异表现,是目前表现最佳的开源8B参数量语言模型之一。
reward-model-deberta-v3-large-v2 - 人类反馈训练奖励模型 提升问答评估和强化学习效果
Github模型DeBERTa开源项目语言模型RLHFHuggingface人工智能奖励模型
这个开源项目开发了一种基于人类反馈的奖励模型(RM),能够评估给定问题的答案质量。该模型在多个数据集上进行训练,可应用于问答系统评估、强化学习人类反馈(RLHF)奖励计算,以及有害内容检测等场景。项目提供了详细的使用说明、性能对比和代码示例。其中,DeBERTa-v3-large-v2版本在多项基准测试中展现出优异性能。
tamil-llama-7b-instruct-v0.1 - 改进泰米尔文本生成的高性能语言模型
机器学习Github模型开源项目NLP语言模型Huggingface文本生成Tamil LLaMA
Tamil LLaMA 7B Instruct v0.1在泰米尔语处理方面取得关键进展。作为优化后的GPT模型,它在文本生成中表现出色,并可通过微调适应特定的NLP任务。模型基于16,000个泰米尔词汇,并集成顶尖数据集,如AI2 Reasoning Challenge和HellaSwag,提供高精度的多领域能力。
SecureBERT_Plus - 网络安全领域的增强版语言模型
SecureBERT+机器学习HuggingfaceGithub开源项目模型网络安全数据集语言模型
该模型在网络安全数据上进行训练,提升了9%的MLM性能,使用8xA100 GPU进行大规模训练,目前已上传至Huggingface平台,供用户访问和使用。
saiga2_13b_gguf - Llama.cpp支持的GGUF格式俄语对话模型
Llama.cpp自然语言处理HuggingfaceGithub开源项目模型模型量化俄语数据集语言模型
saiga2_13b_gguf是一个GGUF格式的俄语对话模型,基于多个俄语数据集训练,支持Llama.cpp部署。模型提供q4_K和q8_K两种量化版本,运行内存需求分别为10GB和18GB RAM。通过模型文件和交互脚本的配合,可实现命令行环境下的对话功能。
llama-3-youko-8b-instruct - Llama 3架构日英双语指令模型集成多种优化技术
语言模型日英双语神经网络训练Llama3模型Github开源项目自然语言处理Huggingface
Llama-3架构的8B参数指令模型通过监督微调(SFT)、Chat Vector与直接偏好优化(DPO)技术训练而成。模型整合OpenAssistant、MetaMathQA等数据集,支持日英双语交互,采用32层4096隐藏层transformer架构。通过参数合并和DPO优化增强了指令理解能力,可应用于自然语言交互场景。
Llama-3SOME-8B-v1-GGUF - 经过小说写作训练优化的轻量级语言模型
语言模型炼丹人工智能模型Github开源项目Llama 3SOME文本生成Huggingface
Llama-3SOME-8B-v1是基于Llama-3-Soliloquy-8B训练的语言模型,主要专注于小说创作。模型支持角色对话、场景叙述等多种写作形式,能保持长文本的连贯性和故事性。提供8bpw、6bpw、4bpw等多种量化版本,满足不同设备的运行需求。
indobert-base-uncased - 印尼语BERT模型提升NLP任务表现
语言模型情感分析IndoBERT印尼语模型Github开源项目句法分析Huggingface
IndoBERT是为印尼语开发的BERT模型,经过2.4百万步的训练,使用了超过2.2亿字的数据来源于印尼维基百科与新闻和网络语料库。该模型在词性标注、命名实体识别等印尼语NLP任务中表现优异,表现高于其他模型。IndoBERT的卓越性能在印尼语基准测试IndoLEM中得到验证,并可通过transformers库加载使用。
SmolLM-360M - 3.6亿参数的高效语言模型 专注常识推理和知识理解
Github神经网络模型训练模型开源项目语言模型SmolLMHuggingface人工智能
SmolLM-360M是一款拥有3.6亿参数的高效语言模型,基于Cosmo-Corpus数据集训练而成。该模型利用Cosmopedia v2合成教材、Python-Edu教育样本和FineWeb-Edu网络教育资源等高质量数据,在常识推理和世界知识等多项基准测试中表现出色。SmolLM-360M支持CPU/GPU部署,并提供8位和4位量化版本以优化内存使用。这款模型主要面向英语内容生成和理解,可作为AI辅助工具在多种场景中应用。
wav2vec2-xls-r-300m-mixed - wav2vec2模型在多语言环境下的创新语音识别解决方案
KerasGithub开源项目评估数据集模型语言模型Huggingface语音识别wav2vec2-xls-r-300m-mixed
wav2vec2-xls-r-300m-mixed项目在马来语、Singlish和普通话三种语言上进行了微调。依托单GPU(RTX 3090 Ti)完成训练,结合语言模型在CER和WER等指标上表现优异,尤其在普通话识别中取得了最低WER 0.075。这为多语言语音识别的研究与优化提供了一个有效路径。
Laravel-11-Llama-3.2-1B-Instruct-GGUF - 用于Laravel 11文档查询的Llama 3.2定制模型
Laravel 11Github代码生成开源项目文档辅助模型模型微调语言模型Huggingface
此模型是Meta的Llama 3.2 1B Instruct的定制版本,专为Laravel 11文档查询而设计。能快速回应简单问题,并提供复杂问题的分步骤指导。可通过LM Studio、Jan、vLLM、llama.cpp等工具本地运行,适合经常处理Laravel 11的开发者。建议交叉验证重要信息,以减轻长文本处理中可能的偏差。
LaMini-Flan-T5-248M - 通过微调优化文本生成能力
限制评估开源项目指令微调模型语言模型HuggingfaceGithubLaMini-LM
LaMini-Flan-T5-248M属于LaMini-LM模型系列,基于Flan-T5进行微调,并利用包含258万条样本的LaMini指令数据集进行优化。该模型主要用于提高自然语言处理任务中的文本生成能力,能够响应人类自然语言指令。经过自动评估和用户导向的人类评估,模型性能优异,并提供多种架构和参数配置,满足不同需求。可通过HuggingFace的pipeline工具进行便捷操作。
Gemma-2-9B-It-SPPO-Iter3 - 通过自我游戏偏好优化增强语言模型 alignment
自我博弈偏好优化Gemma-2-9B-It-SPPO-Iter3语言模型开源项目合成数据集模型GithubHuggingface超参数
Gemma-2-9B-It-SPPO-Iter3以google/gemma-2-9b-it为基础,经过第三次自我游戏偏好优化迭代开发,结合openbmb/UltraFeedback数据集微调。在合成数据集中展现了出色的性能,LC.获胜率达到53.27%,在AlpacaEval排行榜上表现优良。项目主要使用英语,遵循Apache-2.0许可,适用于多种自然语言处理场景。
Qwen2-0.5B-Instruct-GGUF - 高性能轻量级开源语言模型 支持多种量化等级
自然语言处理开源项目量化模型Qwen2GithubHuggingface模型语言模型GGUF格式
Qwen2-0.5B-Instruct模型提供多种GGUF格式量化版本,从q2_k到q8_0不等。模型基于Transformer架构,使用SwiGLU激活和改进的分组查询注意力,支持多语言及代码处理。经过大规模预训练和监督微调,可通过llama.cpp部署,支持OpenAI API兼容调用。在WikiText困惑度测试中表现优秀,为轻量级开源语言模型应用提供了便利选择。
Qwen2.5-14B-Instruct-GGUF - 提升语言生成能力支持多语言的14B指令微调模型
Github长上下文支持模型开源项目语言模型多语言支持Huggingface指令调整Qwen2.5
Qwen2.5-14B-Instruct-GGUF 模型在编码、数学和多语言支持方面表现卓越,能够生成最高达8K tokens的长文本,并支持128K的上下文长度。该模型适用于聊天与角色扮演,优化的指令跟随和结构化输出,覆盖29种语言,多语言能力强劲。为用户提供良好的长文本生成与结构化数据处理体验。
Llama-3-8b-sft-mixture - 基于多样化高质量数据集训练的大语言模型微调检查点
语言模型RLHFHuggingface人工智能LLaMA3-SFT模型Github开源项目机器学习
Llama-3-8b-sft-mixture是基于Meta-Llama-3-8B模型训练的SFT检查点,通过对ShareGPT、Evol-Instruct等九个高质量数据集进行混合训练而成。该模型经过1个epoch的训练,尚未经过RLHF,可作为RLHF研究的理想起点。模型适用于强化学习研究,详细参数可参考相关技术报告。
StableBeluga-7B - Llama2基础上的稳定新型语言模型
语言模型Stable Beluga 7BHuggingFace Transformers培训数据集模型Github开源项目Stability AIHuggingface
StableBeluga-7B是基于Llama2 7B的改进语言模型,由Stability AI开发。模型通过Orca风格数据集的监督学习进行训练,并采用BF16和AdamW优化器进行优化。这一高效模型兼容HuggingFace Transformers库,适用于广泛的AI对话应用。开发者应在使用时注意潜在的伦理与限制问题,确保应用的安全性和可靠性。
opt-30b - Meta AI开发的开源预训练语言模型GPT-3替代方案
Huggingface机器学习人工智能开源项目模型Github语言模型自然语言处理OPT
OPT是Meta AI推出的Transformer语言模型系列,最大规模达175B参数。模型基于800GB数据训练,包含BookCorpus、CC-Stories等多个数据集,支持文本生成和下游任务微调。其开源性质使研究人员能够深入研究大规模语言模型的性能表现、伦理影响及安全性问题。
CausalLM-7B-GGUF - 基于CausalLM 7B的双语语言模型量化优化方案
GGUFHuggingface量化开源项目模型CausalLMGithub语言模型llama.cpp
CausalLM 7B模型GGUF格式转换项目提供多种量化版本实现。该模型支持中英双语能力,基于多个数据集训练。项目包含2比特到8比特的不同量化方案,适配各类硬件环境。完整的部署文档和兼容性说明确保模型可快速应用。
Llama-3.2-1B-Instruct-Uncensored-GGUF - Llama小型无审查语言模型的量化实现
Llama开源项目量化模型transformersGithubGGUFHuggingface模型语言模型
这是针对Llama-3.2-1B-Instruct-Uncensored模型的GGUF量化项目,提供从Q2_K到f16在内的多种量化版本。模型文件大小范围在0.7GB至2.6GB之间,通过不同的量化方案平衡了性能与存储空间。项目包含完整的性能对比数据和使用文档,方便开发者根据实际需求选择合适的模型版本。
madlad400-3b-mt - 多语言翻译模型,支持450+种语言的实时翻译
语言模型HuggingfaceMADLAD-400模型Github开源项目T5模型机器翻译多语言
MADLAD-400-3B-MT是基于T5架构的多语言机器翻译模型,在1万亿个涵盖450多种语言的标记上训练而成。模型采用32层3B参数的共享架构,使用256k标记的Sentence Piece模型进行编解码。尽管规模较小,其翻译性能可媲美大型模型,特别适合处理低资源语言的自然语言任务。
opus-mt-fi-de - 基于Transformer架构的芬兰语德语机器翻译模型在Tatoeba测试集达到45.2 BLEU分数
语言模型Huggingface芬德翻译BLEU评分Github模型开源项目机器翻译opus-mt
Helsinki-NLP基于transformer-align架构开发的芬兰语德语机器翻译模型,在OPUS数据集训练完成。模型使用normalization和SentencePiece预处理方法,在Tatoeba测试集获得45.2 BLEU分数和0.637 chr-F值。模型权重与测试数据已通过OPUS-MT-models平台开放获取
Lexora-Medium-7B - 面向意大利语的数理推理开源语言模型
代码示例语言模型HuggingfaceLexora-Medium-7B模型Github开源项目自然语言处理模型使用
Lexora-Medium-7B是一个专注于意大利语和英语的开源语言模型,基于DeepMount00数据集训练,在数学推理和问答任务中表现出色。模型采用Transformers架构,支持Python快速部署,可应用于多样化的自然语言处理场景。
Llama-3.1-8b-ITA - 意大利语优化版Llama-3.1语言模型实现79.17%测试精确度
Llama-3.1-8b-ITA自然语言处理Huggingface模型评估模型意大利语语言模型Github开源项目
Llama-3.1-8b-ITA是一个专注意大利语优化的大型语言模型,采用Meta-Llama-3.1-8B-Instruct架构。模型在IFEval零样本测试达到79.17%准确率,支持Python环境部署,可用于文本生成。在Open LLM排行榜中,BBH测试达30.93%,MMLU-PRO达31.96%,整体表现稳定。
ctrl - 条件Transformer语言模型的功能与应用
语言模型GithubCTRL开源项目文本生成偏见和限制Huggingface训练数据模型
CTRL模型由Salesforce Research开发,是基于Transformer的语言模型,可以通过控制码实现文本的可控生成。模型适用于创意写作、自动化写作任务及特定格式文本的生成,并可通过微调优化其他自然语言处理应用。其训练数据包括来自多个领域的140GB文本数据,使用TPU v3 Pod及Adagrad优化器进行训练,并评估了环境影响。
Mono-InternVL-2B - 原生多模态大语言模型融合视觉与文本能力
InternLM2Github多模态大语言模型模型视觉识别开源项目语言模型原生模型Huggingface
Mono-InternVL是一个融合视觉编码和文本解码的原生多模态大语言模型。它通过专家混合机制和内生视觉预训练方法优化视觉理解能力,同时保持强大的语言能力。该模型基于InternLM2构建,拥有1.8B激活参数,在多项视觉语言基准测试中表现优异,并将首个token的延迟降低67%,大幅提升了部署效率。
visualglm-6b - 中英文图像交互的多模态对话模型
语言模型Huggingface多模态对话预训练模型Github图像生成开源项目VisualGLM-6B
VisualGLM-6B是一个多模态对话模型,支持中文、英文和图像交互。基于ChatGLM-6B,有78亿参数,通过BLIP2-Qformer桥接视觉和语言模型。此模型使用CogView数据集进行预训练,并在长视觉问答数据上微调,以生成符合人类偏好的回答。用户可用Python代码简便调用模型,同时提供命令行、网页示例及模型量化的详细说明。
text2vec-base-chinese - 基于LERT的中文句子相似度模型
Apache-2.0开源项目模型transformersGithubHuggingface语言模型text2vec句子相似度
text2vec-base-chinese 是一个中文自然语言处理模型,通过将MacBERT替换为LERT实现改进,用于提升句子相似度计算的精确性。该项目在保持其他训练条件不变的情况下,确保了模型性能的稳定性,对需要进行高效特征提取和相似度计算的用户尤其有帮助。2024年6月25日,该项目的onnxruntime版本已发布,以支持更广泛的应用,让开发者能够更高效地构建智能应用。
Llama3-8B-Chinese-Chat-GGUF-4bit - 支持中英文交流的跨语言模型功能
Llama3-8B-Chinese-ChatHuggingface升级模型功能语言模型Github开源项目
Llama3-8B-Chinese-Chat提供了优化的语言模型,以支持中英文用户的交互。最新的v2.1版本的模型提升了角色扮演、函数调用和数学计算功能,并减少了中文回答中夹杂英文的现象。用户可以通过GitHub和HuggingFace平台获取使用指南,提供在线演示和多种模型版本以满足不同用户的需求。
Infinity-Instruct-3M-0625-Llama3-8B - 开源调优模型,无RLHF实现性能突破
语言模型北京人工智能学会Infinity Instruct无监督学习模型Github开源项目数据集Huggingface
Infinity-Instruct-3M-0625-Llama3-8B是由北京智源研究院推出的开源模型,通过无RLHF调整实现卓越性能。该模型在Infinity-Instruct数据集上微调,有效提升Llama3-8B的算术和编程能力,形成强大的对话功能。在AlpacaEval 2.0和MT-Bench测试中表现出色。此项目仅用于学术研究,商业使用受限,模型输出内容准确性不受保证。
相关文章