#多语言

xglm-564M - 提升跨语言AI技术的多语言自回归语言模型
多语言Github模型开源项目语言模型XGLM-564M少样本学习Huggingface参数
XGLM-564M是一个多语言自回归语言模型,具有5.64亿参数,在30种语言的平衡语料库上训练,涉及5000亿子标记。该模型适用于跨语言少样本学习,支持多语言自然语言处理,并在COPA任务上实现零样本评估。有兴趣的用户可查看model card以获取更多使用信息。
bge-reranker-v2-gemma - 多语言支持的轻量级文本重排工具
FlagEmbedding模型列表HuggingfaceGithub相似性评分开源项目Reranker模型多语言
bge-reranker-v2-gemma项目提供了一种轻量级的多语言文本重排器,具备快速推理能力和出色的英语及多语言应用表现。通过输入查询和文档,模型能够输出相似度得分,并将结果映射为0到1之间的值。用户可以根据具体需求选择适合的模型,适用于多语言环境下的高效文本重排。该工具提供性能和效率的优化选项,便于模型的迭代与升级。
bert-multilingual-go-emtions - 多语言情感分类模型,支持高效识别28种情感
多语言Github模型GoEmotions开源项目模型性能HuggingfaceBERT情感分类
该BERT模型经过微调,可在GoEmotions数据集上进行中英跨语言情感分类,支持28种情感类别,如喜悦、愤怒、爱等。模型在验证集上表现出85.95%的高准确率,训练过程结合了英语和机器翻译的中文样本,通过两阶段方法提升性能,包含初始训练和高置信度样本回馈再训练。
MiniCPM-V-2_6-GGUF - 使用imatrix量化优化模型性能
MiniCPM-V-2_6多语言Github量化transformers模型开源项目视觉处理Huggingface
项目应用llama.cpp的imatrix量化方法,优化模型的文本性能。提供多种量化文件,适配不同硬件配置,尤其适合低RAM环境。这一技术允许根据系统RAM和GPU VRAM选择合适的模型,实现性能与速度的平衡。支持多模态图像-文本转换和多语言处理,可在LM Studio中运行,为开源社区提供多样化的工具和使用选择。
Llama-3.2-1B-Instruct-GGUF - 多语言大型语言模型提升对话与摘要任务表现
社区许可协议HuggingfaceLlama 3.2Meta模型Github开源项目大语言模型多语言
Meta的多语言大模型Llama 3.2支持多种语言,优化对话与摘要任务。模型提供1B和3B版本,通过监督微调和人类反馈强化学习提升互动有用性与安全性。采用优化的Transformer架构,并利用Grouped-Query Attention提升推理能力。开发者可以根据需求进行模型微调。模型发布于2024年9月25日,采用商用许可协议,建议在商业与研究中谨慎使用。
gemma-2-2b-it-GGUF - 一种专为低功耗设备优化,适合多种语言和代码生成的模型
Github自动补全生成模型开源项目多语言谷歌HuggingfaceGemma模型
Gemma 2 2b是Google推出的一款模型,基于Gemini技术,能有效处理多种语言、编程和数学文本。其2b参数设计适合用于低功耗边缘设备,通过优化词汇量和训练比例,提升模型性能,利用量化技术降低计算需求。适合作为自动完成功能和草稿生成工具,支持在LM Studio平台上使用。感谢Georgi Gerganov及团队的技术支持。
gliner_large-v2.5 - 利用双向变压器编码器的通用命名实体识别模型
语言模型Github开源项目命名实体识别GLiNER双向Transformer编码器多语言Huggingface模型
GLiNER是一款通用命名实体识别模型,基于BERT风格的双向变压器编码器,能够识别广泛的实体类型,如人名、奖项和日期等。与传统模型相比,它无需预定义实体,且在资源受限的环境中比大型语言模型更具实用性和经济性。通过安装GLiNER Python库,即可轻松加载并预测实体。最新版在基准测试中表现出色。
gliner_large-v2.1 - 通用命名实体识别模型,适合资源有限的应用场景
开源Huggingface开源项目多语言模型命名实体识别Github双向TransformerGLiNER
GLiNER是使用双向Transformer编码器的通用命名实体识别模型,能够识别多种实体类型。相比于传统NER模型和体积庞大的语言模型,GLiNER在资源有限的情况下表现出卓越的灵活性和效率。最新的GLiNER v2.1版本支持单语和多语模型,性能表现依旧出色。用户可以通过安装GLiNER Python库,将其方便地集成到项目中,适用于多种语言的文本预测任务。
bloom - 提升多语言文本生成的大规模语言模型
BLOOM开源项目模型GithubHuggingface文本生成多语言BigScience语言模型
BLOOM是一个自回归大规模语言模型,使用工业级计算资源训练,能够以46种语言和13种编程语言生成逼真的文本。该模型不仅胜任特定的任务,同时也能转换文本生成其他未明确训练的任务。BLOOM的设计强调多语言文本生成,对于公共研究提供了重要支持,其在法国的超级计算机上训练,以减少环境影响。