#机器学习

HuggingfaceGemma人工智能模型Github开源项目大语言模型自然语言处理机器学习

Gemma-2-27b是Google基于Gemini技术推出的开源语言模型,采用解码器架构设计。模型支持问答、摘要、推理等多种文本生成任务,能在笔记本电脑等资源受限环境运行。模型参数量为270亿,采用130亿token训练数据,在MMLU等多项基准测试中表现优异。该项目开源了预训练和指令微调两个版本,并提供完整的部署和使用文档。

bert-base-turkish-128k-uncased - 土耳其BERTurk无标记语言模型

机器学习Github模型开源项目BERTurkHuggingface数据库土耳其语自然语言处理

土耳其BERTurk模型由德国巴伐利亚州立图书馆的MDZ团队开发，并得到土耳其NLP社区的支持。此无标记BERT模型使用包含土耳其语OSCAR语料库、维基百科、OPUS语料库及Kemal Oflazer提供的语料进行训练，总语料量为35GB。模型在Google的TPU v3-8上通过TensorFlow Research Cloud训练了200万步，词汇量为128k，目前支持PyTorch-Transformers。

CLIP-convnext_base_w-laion_aesthetic-s13B-b82K - LAION-5B训练的ConvNeXt-Base CLIP模型

数据集ConvNext开源项目模型Github机器学习HuggingfaceCLIP图像分类

ConvNeXt-Base架构的CLIP模型在LAION-5B子集上完成训练，支持256x256和320x320两种图像分辨率。在ImageNet零样本分类评测中取得70.8%-71.7%的top-1准确率，样本效率超过同规模ViT-B/16模型。该模型主要用于研究领域，可执行零样本图像分类和图文检索等任务。

deepseek-coder-7b-instruct-v1.5 - 基于2T代码数据训练的4K上下文智能编程模型

机器学习Github模型开源项目代码生成Huggingface大语言模型人工智能DeepSeek Coder

DeepSeek Coder是一个开源的代码生成语言模型，通过2T代码数据预训练和2B指令数据微调，具备4K上下文窗口。该模型支持代码生成与理解功能，开发者可通过Hugging Face平台便捷部署，并允许商业应用场景。

Meta-Llama-Guard-2-8B - 基于Llama 3的先进内容安全模型

责任限制知识产权Meta Llama 3Huggingface使用政策模型Github开源项目机器学习

该模型基于Llama 3开发，旨在有效分类和识别输入和输出中的不安全内容。通过风险分析和可信赖的分数，为内容合规和安全提供支持。适用于识别包括暴力、非暴力和性相关犯罪在内的11种风险类别，改善LLM用户的安全使用体验。

omdet-turbo-swin-tiny-hf - 实时开放词汇目标检测模型支持批量多任务处理

目标检测Github开源项目零样本分类图像识别OmDet-TurboHuggingface机器学习模型

这是一款基于Transformer的开放词汇目标检测模型。它支持零样本检测，能够识别指定的任意类别目标。该模型的特色在于支持批量处理多张图像，允许为每张图像设置不同的检测类别和任务描述。通过简洁的API接口，该模型可以方便地集成到各种计算机视觉应用中，实现高效的实时目标检测。

gliner_small-v2.1 - 基于双向Transformer的轻量级通用实体识别模型

模型训练命名实体识别Huggingface模型GLiNERGithub开源项目自然语言处理机器学习

gliner_small-v2.1是一个基于双向Transformer架构的命名实体识别模型，具备识别任意类型实体的能力。这款模型采用166M参数规模，在保持较小资源占用的同时提供灵活的实体识别功能。模型支持英语处理，采用Apache-2.0许可证开源发布。相比传统NER模型的固定实体类型限制和大语言模型的高资源消耗，该模型提供了一个平衡的解决方案。

gpt2 - 预训练语言模型与自然语言生成技术

预训练模型机器学习Github模型开源项目GPT-2Huggingface文本生成自然语言处理

这是一个由OpenAI开发的大规模预训练语言模型，基于Transformer架构，通过自监督学习方式在英文语料上训练。模型核心功能是预测文本序列中的下一个词，可用于文本生成及其他自然语言处理任务。支持ONNX部署，便于开发者进行实际应用开发和模型微调。

twitter-roberta-base - 社交媒体推文特化的RoBERTa基础模型

机器学习Github模型开源项目Twitter-roBERTa-baseHuggingface特征提取数据预处理推文分析

该模型在经过5800万推文数据训练后基于原始RoBERTa基础模型优化，旨在提高其对Twitter数据的自然语言处理性能。用户可通过TweetEval官方仓库评估该模型，示例功能包括文本预处理、掩码语言模型、推文嵌入及特征提取，适用于情感分析及文本相似度判定等用途。

Bielik-7B-Instruct-v0.1 - 波兰语语言模型的优化与训练方法

波兰语Bielik-7B-Instruct-v0.1大型计算机器学习HuggingfaceGithub开源项目模型语言模型

Bielik-7B-Instruct-v0.1 是一种微调的波兰语语言模型，利用高性能计算提升语言理解能力。该模型通过权重损失和自适应学习率等技术进行优化，显著提高了性能，并提供多种精简版本。

calme-2.2-llama3-70b - 采用DPO精调提升文本生成基于Meta-Llama-3-70B-Instruct的高效量化模型

Huggingface文本生成模型Github开源项目Meta-Llama-3-70B-Instruct自然语言处理模型微调机器学习

模型通过DPO精调优化文本生成，基于Meta-Llama-3-70B-Instruct开发，性能在多个基准测试中表现杰出，如IFEval 82.08、HellaSwag 86.22及GSM8k 88.25分。其量化特性提升效能，适宜多种应用场景。

mistral-7b-instruct-v0.2-bnb-4bit - 使用Unsloth技术优化模型微调，显著提升性能并减少内存占用

Mistral性能优化机器学习HuggingfaceGithub开源项目模型Unsloth数据集

该项目介绍了一种运用Unsloth技术的模型微调方法，使Mistral、Gemma、Llama等模型实现2-5倍的速度提升，并减少70%的内存使用。用户可通过在Google Colab或Kaggle运行免费笔记本，轻松获得经过优化的模型。工具初学者友好，支持多种微调和导出格式，如GGUF、vLLM，及上传至Hugging Face，满足不同用户的需求。

glm-4-9b-chat-1m - 广泛语言支持与长文本处理能力的先进预训练模型

Huggingface机器学习开源项目GLM-4-9B长文本能力多语言支持预训练模型模型Github

GLM-4-9B-Chat-1M 是智谱 AI 开发的先进预训练模型，具备网页浏览、代码执行和长文本推理等功能，支持 26 种语言，适用于需要大规模上下文处理的应用场景。最新更新提升了处理能力，支持长达 1M 上下文长度。

gpt2-alpaca - 介绍GPT2在Alpaca数据集上的指令微调实例

模型微调机器学习HuggingfaceGithub开源项目模型AlpacaGPT2语言生成

gpt2-alpaca 是在 Alpaca 数据集上进行指令微调的 GPT2 模型，展示了如健康饮食建议、诗歌创作及外星人视角评论等不同生成示例。在 TruthfulQA 和 Winogrande 等多项评测中取得优异成绩，并提供在 Hugging Face 开放 LLM 排行榜上的详细分析，适合研究生成模型表现的人员参考。

llama-2-ko-7b - 韩语文本生成模型与优化的词汇扩展

Github机器学习开源项目huggingface模型Huggingface韩语模型文本生成Llama-2-Ko

Llama-2-Ko是基于Llama-2的语言模型，使用韩语语料库进行预训练，增强了文本生成功能。该模型提供从7B到70B参数的版本，尤其7B版本适配Hugging Face Transformers。Llama-2-Ko优化了变压器结构，增加了韩语词汇，有效生成高质量文本。项目由Junbum Lee领导，支持多参数与微调版本，应用广泛。

Ray: 统一框架助力AI和Python应用扩展

2024年08月29日

SQLFlow: 融合SQL与AI的创新技术

2024年08月30日

Efficient-AI-Backbones: 华为诺亚方舟实验室开发的高效AI骨干网络

2024年08月30日

Netron: 强大的神经网络和机器学习模型可视化工具

2024年08月30日

DVC: 开源数据版本控制系统助力数据科学和机器学习项目

2024年08月30日

SynapseML:简单而强大的分布式机器学习库

2024年08月30日

TensorWatch: 微软开源的机器学习调试与可视化工具

2024年08月30日

AI专家路线图2024:成为人工智能专家的学习指南

2024年08月30日

Ray ：用于扩展 AI 和 Python 应用程序的统一框架

2024年08月03日

使用协议隐私政策广告服务

投诉举报邮箱: service@vectorlightyear.com