#机器学习

gemma-2-9b-it - 优化模型微调,降低内存使用,提升处理性能
内存优化量化模型机器学习HuggingfaceGithub开源项目模型transformers免费调优
采用Unsloth技术,通过4bit量化实现Gemma 2 (9B)模型在低内存环境下的高效微调。Google Colab笔记本适合初学者,便于用户添加数据集和运行,获得性能提升至2倍的微调模型,支持导出为GGUF、vLLM或上传至Hugging Face,并减少内存使用达63%。
Hiring Studio by Metaview - 招聘面试题智能生成工具
AI工具Metaview招聘工具AI生成问题面试问题生成机器学习
Hiring Studio by Metaview 是一款为招聘团队设计的面试题生成工具,它基于特定领域微调的大型语言模型(LLM),能够快速生成岗位面试题。通过输入工作描述,工具可以提供定制化的面试题建议,提升招聘效率和面试质量。适合不同行业用来扩充面试题库,简化招聘流程。
Bio_Discharge_Summary_BERT - 改进电子健康记录分析的Bio_Discharge_Summary_BERT模型
ClinicalBERTHuggingfaceMIMIC III电子健康记录模型Github开源项目自然语言处理机器学习
Bio_Discharge_Summary_BERT模型基于BioBERT进行初始化,专注于分析MIMIC III数据库的出院小结文本。经过专业的数据预处理和基于Google BERT的训练,该模型在医疗文本处理任务中展现出优异表现,可以通过transformers库加载,用于医疗研究和实际应用。
openchat-3.6-8b-20240522 - 基于Llama 3架构的混合数据训练语言模型
机器学习HuggingfaceGithub开源项目模型人工智能开源技术OpenChat 3.6语言模型
OpenChat-3.6-8b-20240522是基于Llama 3架构开发的8B参数规模语言模型。模型采用混合质量数据训练方法,支持8192个上下文长度,可通过OpenChat包或OpenAI兼容API部署。适用场景包括代码开发、对话交互等通用任务,在基准测试中显示出相对同规模模型的性能优势。模型在复杂推理、数学运算等方面存在一定局限,且可能出现信息幻觉现象。
gpt2-lora-random - GPT2模型LoRA微调框架 提升语言模型性能的开源项目
peft机器学习Github开源项目Huggingface深度学习框架模型训练gpt2模型
gpt2-lora-random项目利用PEFT框架实现GPT2模型的LoRA微调。通过Low-Rank Adaptation技术,该项目降低了模型训练的资源需求和参数量。它为开发者提供了一个用于自然语言处理任务优化的灵活框架。项目文档涵盖了模型训练流程和环境影响评估指南,适合研究人员和工程师使用。
kcbert-base - 基于韩语评论数据构建的KcBERT模型实现性能优化
数据清洗Github开源项目한국语情绪分析HuggingfaceKcBERT机器学习模型
KcBERT项目通过解析与处理韩语口语化评论数据,构建了专注于口语文本的预训练BERT模型。该模型在情感分析与实体识别等多项任务中表现优异,具备良好的适应性。通过Huggingface Transformers,用户无需额外下载文档即可使用并微调模型,同时KcBERT提供多种优化策略和数据集下载方式,以适应不同需求。
nerkor-cars-onpp-hubert - 匈牙利语命名实体识别模型实现30余类实体智能检测
语料库标注OntoNotesHuggingface机器学习NerKor开源项目模型命名实体识别Github
这款匈牙利语命名实体识别模型基于SZTAKI-HLT/hubert-base-cc架构开发,具备多样化的实体识别能力。模型可识别人名、地点、组织机构等基础实体,同时支持日期、时间、货币等数值型实体,总计超过30种实体类型。通过NerKor+CARS-ONPP语料库训练,最大处理序列长度为448,能够有效完成匈牙利语文本中的实体分析工作。
SWE-Llama-7b - GitHub软件工程问题解决模型变体优化
SWE-LlamaHuggingface机器学习软件工程SWE-bench开源项目模型GitHubGithub
项目基于CodeLlama模型变体,优化针对GitHub问题和请求的处理。在SWE-bench基准测试中,SWE-Llama模型通过微调19,000个来自37个热门Python代码库的案例,专注生成问题解决补丁。训练过程中使用LoRA方法微调注意力矩阵,7b和13b版本在oracle情境检索下分别实现了3.0%和4.0%的解决率。这一模型可有效提升软件工程任务的解决效率。
Tarsier-7b - 开源大规模视频语言模型,提升视频描述和理解能力
视频描述开源项目人工智能模型Github机器学习Huggingface计算机视觉Tarsier
Tarsier-7b是一个开放源代码的视频语言模型,专注于视频描述和理解。该模型使用两阶段的训练策略以增强性能,能够生成高质量的视频描述。训练过程包括多任务预训练和多粒度微调,并通过多种数据集进行评估,从而保证出色性能。适合从事计算机视觉与自然语言处理研究的研究人员和爱好者使用,可在相关平台获取更多信息。
occiglot-7b-it-en-instruct - 支持英语和意大利语的多语言生成语言模型
Huggingface机器学习文本生成开源项目模型Occiglot-7B-it-en-InstructGithubApache许可证多语言模型
Occiglot-7B-it-en-Instruct是一款多语言生成模型,具备70亿参数,覆盖欧盟五大语言,如英语和意大利语。其通过160M多语言和代码指令进行训练,由Occiglot Research Collective开发。项目未进行安全对齐,可能生成有问题的内容,欢迎多语言模型研究者参与合作。
Llama-3-8B-Instruct-v0.8 - 高效文本生成的先进开源模型
Llama-3-8B-InstructGithub开源项目文本生成Open LLM Leaderboard量化Huggingface机器学习模型
本页面介绍了Llama-3-8B-Instruct-v0.8模型,该模型是在MaziyarPanahi的Llama-3-8B-Instruct-v0.4基础上开发的,专注于高效的文本生成。它在AI2推理挑战、HellaSwag等多个基准测试中表现出色,是前五名8B模型之一。量化的GGUF变体使其在多种应用场景下性能更高效,详细的评价结果请参考开放LLM排行榜。
multilingual-MiniLMv2-L6-mnli-xnli - 轻量级多语言自然语言推理与分类模型
多语言翻译MiniLMv2机器学习零样本分类HuggingfaceGithub开源项目自然语言推理模型
MiniLMv2是一款支持100多种语言的自然语言推理模型,采用知识蒸馏技术从XLM-RoBERTa-large模型优化而来。经过XNLI和MNLI数据集的微调训练,该模型在XNLI测试集达到71.3%的平均准确率。相比原始模型,具备更低的资源消耗和更快的运行速度,适合跨语言迁移学习应用。
gemma-2-27b - Google开源的轻量级高性能语言模型Gemma
HuggingfaceGemma人工智能模型Github开源项目大语言模型自然语言处理机器学习
Gemma-2-27b是Google基于Gemini技术推出的开源语言模型,采用解码器架构设计。模型支持问答、摘要、推理等多种文本生成任务,能在笔记本电脑等资源受限环境运行。模型参数量为270亿,采用130亿token训练数据,在MMLU等多项基准测试中表现优异。该项目开源了预训练和指令微调两个版本,并提供完整的部署和使用文档。
bert-base-turkish-128k-uncased - 土耳其BERTurk无标记语言模型
机器学习Github模型开源项目BERTurkHuggingface数据库土耳其语自然语言处理
土耳其BERTurk模型由德国巴伐利亚州立图书馆的MDZ团队开发,并得到土耳其NLP社区的支持。此无标记BERT模型使用包含土耳其语OSCAR语料库、维基百科、OPUS语料库及Kemal Oflazer提供的语料进行训练,总语料量为35GB。模型在Google的TPU v3-8上通过TensorFlow Research Cloud训练了200万步,词汇量为128k,目前支持PyTorch-Transformers。
CLIP-convnext_base_w-laion_aesthetic-s13B-b82K - LAION-5B训练的ConvNeXt-Base CLIP模型
数据集ConvNext开源项目模型Github机器学习HuggingfaceCLIP图像分类
ConvNeXt-Base架构的CLIP模型在LAION-5B子集上完成训练,支持256x256和320x320两种图像分辨率。在ImageNet零样本分类评测中取得70.8%-71.7%的top-1准确率,样本效率超过同规模ViT-B/16模型。该模型主要用于研究领域,可执行零样本图像分类和图文检索等任务。
deepseek-coder-7b-instruct-v1.5 - 基于2T代码数据训练的4K上下文智能编程模型
机器学习Github模型开源项目代码生成Huggingface大语言模型人工智能DeepSeek Coder
DeepSeek Coder是一个开源的代码生成语言模型,通过2T代码数据预训练和2B指令数据微调,具备4K上下文窗口。该模型支持代码生成与理解功能,开发者可通过Hugging Face平台便捷部署,并允许商业应用场景。
Meta-Llama-Guard-2-8B - 基于Llama 3的先进内容安全模型
责任限制知识产权Meta Llama 3Huggingface使用政策模型Github开源项目机器学习
该模型基于Llama 3开发,旨在有效分类和识别输入和输出中的不安全内容。通过风险分析和可信赖的分数,为内容合规和安全提供支持。适用于识别包括暴力、非暴力和性相关犯罪在内的11种风险类别,改善LLM用户的安全使用体验。
omdet-turbo-swin-tiny-hf - 实时开放词汇目标检测模型 支持批量多任务处理
目标检测Github开源项目零样本分类图像识别OmDet-TurboHuggingface机器学习模型
这是一款基于Transformer的开放词汇目标检测模型。它支持零样本检测,能够识别指定的任意类别目标。该模型的特色在于支持批量处理多张图像,允许为每张图像设置不同的检测类别和任务描述。通过简洁的API接口,该模型可以方便地集成到各种计算机视觉应用中,实现高效的实时目标检测。
gliner_small-v2.1 - 基于双向Transformer的轻量级通用实体识别模型
模型训练命名实体识别Huggingface模型GLiNERGithub开源项目自然语言处理机器学习
gliner_small-v2.1是一个基于双向Transformer架构的命名实体识别模型,具备识别任意类型实体的能力。这款模型采用166M参数规模,在保持较小资源占用的同时提供灵活的实体识别功能。模型支持英语处理,采用Apache-2.0许可证开源发布。相比传统NER模型的固定实体类型限制和大语言模型的高资源消耗,该模型提供了一个平衡的解决方案。
gpt2 - 预训练语言模型与自然语言生成技术
预训练模型机器学习Github模型开源项目GPT-2Huggingface文本生成自然语言处理
这是一个由OpenAI开发的大规模预训练语言模型,基于Transformer架构,通过自监督学习方式在英文语料上训练。模型核心功能是预测文本序列中的下一个词,可用于文本生成及其他自然语言处理任务。支持ONNX部署,便于开发者进行实际应用开发和模型微调。
twitter-roberta-base - 社交媒体推文特化的RoBERTa基础模型
机器学习Github模型开源项目Twitter-roBERTa-baseHuggingface特征提取数据预处理推文分析
该模型在经过5800万推文数据训练后基于原始RoBERTa基础模型优化,旨在提高其对Twitter数据的自然语言处理性能。用户可通过TweetEval官方仓库评估该模型,示例功能包括文本预处理、掩码语言模型、推文嵌入及特征提取,适用于情感分析及文本相似度判定等用途。
Bielik-7B-Instruct-v0.1 - 波兰语语言模型的优化与训练方法
波兰语Bielik-7B-Instruct-v0.1大型计算机器学习HuggingfaceGithub开源项目模型语言模型
Bielik-7B-Instruct-v0.1 是一种微调的波兰语语言模型,利用高性能计算提升语言理解能力。该模型通过权重损失和自适应学习率等技术进行优化,显著提高了性能,并提供多种精简版本。
calme-2.2-llama3-70b - 采用DPO精调提升文本生成基于Meta-Llama-3-70B-Instruct的高效量化模型
Huggingface文本生成模型Github开源项目Meta-Llama-3-70B-Instruct自然语言处理模型微调机器学习
模型通过DPO精调优化文本生成,基于Meta-Llama-3-70B-Instruct开发,性能在多个基准测试中表现杰出,如IFEval 82.08、HellaSwag 86.22及GSM8k 88.25分。其量化特性提升效能,适宜多种应用场景。
mistral-7b-instruct-v0.2-bnb-4bit - 使用Unsloth技术优化模型微调,显著提升性能并减少内存占用
Mistral性能优化机器学习HuggingfaceGithub开源项目模型Unsloth数据集
该项目介绍了一种运用Unsloth技术的模型微调方法,使Mistral、Gemma、Llama等模型实现2-5倍的速度提升,并减少70%的内存使用。用户可通过在Google Colab或Kaggle运行免费笔记本,轻松获得经过优化的模型。工具初学者友好,支持多种微调和导出格式,如GGUF、vLLM,及上传至Hugging Face,满足不同用户的需求。
glm-4-9b-chat-1m - 广泛语言支持与长文本处理能力的先进预训练模型
Huggingface机器学习开源项目GLM-4-9B长文本能力多语言支持预训练模型模型Github
GLM-4-9B-Chat-1M 是智谱 AI 开发的先进预训练模型,具备网页浏览、代码执行和长文本推理等功能,支持 26 种语言,适用于需要大规模上下文处理的应用场景。最新更新提升了处理能力,支持长达 1M 上下文长度。
gpt2-alpaca - 介绍GPT2在Alpaca数据集上的指令微调实例
模型微调机器学习HuggingfaceGithub开源项目模型AlpacaGPT2语言生成
gpt2-alpaca 是在 Alpaca 数据集上进行指令微调的 GPT2 模型,展示了如健康饮食建议、诗歌创作及外星人视角评论等不同生成示例。在 TruthfulQA 和 Winogrande 等多项评测中取得优异成绩,并提供在 Hugging Face 开放 LLM 排行榜上的详细分析,适合研究生成模型表现的人员参考。
llama-2-ko-7b - 韩语文本生成模型与优化的词汇扩展
Github机器学习开源项目huggingface模型Huggingface韩语模型文本生成Llama-2-Ko
Llama-2-Ko是基于Llama-2的语言模型,使用韩语语料库进行预训练,增强了文本生成功能。该模型提供从7B到70B参数的版本,尤其7B版本适配Hugging Face Transformers。Llama-2-Ko优化了变压器结构,增加了韩语词汇,有效生成高质量文本。项目由Junbum Lee领导,支持多参数与微调版本,应用广泛。