#语言模型

rust-tokenizers - Rust实现的高性能自然语言处理分词器
rust-tokenizers语言模型分词器性能优化自然语言处理Github开源项目
rust-tokenizers是一个为现代自然语言处理模型设计的分词器库。该项目支持WordPiece、BPE和Unigram等分词算法,适用于BERT、GPT、RoBERTa等Transformer架构。库提供单线程和多线程处理,并具有Python接口,可用于各类NLP项目的文本预处理。
transformerlab-app - 多功能大语言模型实验平台 支持本地操作和微调
Transformer Lab语言模型人工智能模型训练开源软件Github开源项目
Transformer Lab是一个功能丰富的大语言模型实验平台。该应用支持一键下载多种流行模型、跨硬件微调、RLHF优化等功能。平台提供模型聊天、评估和RAG等交互方式,并具备REST API、云端运行和插件系统。Transformer Lab适用于多种操作系统,为AI研究和开发提供了便捷的工具。
KoAlpaca - 开源韩语大语言模型,支持多种规模和部署方式
KoAlpaca自然语言处理深度学习语言模型人工智能Github开源项目
KoAlpaca是基于Stanford Alpaca训练方法的韩语大语言模型项目。该项目提供多种规模模型,包括基于Polyglot-ko和LLAMA的版本,支持全量微调和LoRA等训练方式。KoAlpaca开放网页聊天界面和Hugging Face上的模型,便于研究人员和开发者使用及改进韩语大语言模型。
medical-chatgpt - 基于ChatGPT的医疗AI模型研究与应用
ChatGPT医疗应用语言模型人工智能医学教育Github开源项目
此项目探索ChatGPT技术在基层医疗领域的应用。研究重点是开发一个专门用于收集病史和生成初步诊断的AI模型。尽管在复杂诊断方面存在局限性,但该模型在记录常见病例方面显示出潜力。研究团队正考虑利用专业医学数据库进行进一步微调,以增强模型的专科知识。这一创新尝试为医疗AI的未来发展提供了宝贵见解。
LongWriter - 将长文本生成推向新高度 超越传统模型局限
LongWriter长文本生成自然语言处理人工智能语言模型Github开源项目
LongWriter项目旨在突破大语言模型长文本生成的限制。该模型可生成超10,000字的连贯长文,并开源了自动化超长输出数据构建流水线AgentWrite。项目在长文本生成质量和长度上均有显著进展,为长篇内容生成应用开辟新途径。
LongForm - 反向指令法优化长文本生成模型
LongForm指令调优自然语言处理长文本生成语言模型Github开源项目
LongForm项目开发了一种反向指令方法,利用多样化语料库创建指令数据集。该项目发布了LongForm-C数据集和多个预训练模型,在长文本生成任务中展现出优异性能。研究表明,LongForm模型不仅提升了自然语言生成能力,还在语言理解任务中取得了显著进展。尽管如此,该模型在结构化预测任务和幻觉问题方面仍存在一定局限性。项目采用MIT许可证,并严格遵守相关数据和模型的使用限制。
ava - 离线运行AI语言模型的开源跨平台应用
Ava PLS语言模型本地运行桌面应用开源软件Github开源项目
Ava PLS是一款开源跨平台应用,支持在本地计算机上离线运行AI语言模型。该应用可执行文本生成、语法纠正、改写、摘要和数据提取等多种语言任务。Ava PLS采用Zig、C++、Swift UI和SQLite等技术开发,适用于macOS、Windows和Linux系统。作为离线虚拟助手和个人语言服务器,Ava PLS为用户提供了一个功能全面的本地化AI语言处理解决方案。
VoxPoser - 使用语言模型的3D机器人操作轨迹合成系统
VoxPoser机器人操作语言模型3D价值地图轨迹合成Github开源项目
VoxPoser是一个3D机器人操作轨迹合成系统,结合大型语言模型和视觉语言模型实现零样本任务执行。该项目在RLBench环境中实现,无需训练数据即可生成复杂操作轨迹。系统通过语言模型程序(LMPs)递归生成代码,分解指令并为子任务组合价值图。VoxPoser包含接口、规划器和控制器等核心组件,用于规划和执行机器人操作任务。
doremi - 创新算法提升语言模型训练效率
DoReMi语言模型数据混合优化分布鲁棒优化代理模型Github开源项目
DoReMi是一种优化语言模型数据集混合的算法。它通过分布鲁棒优化调整数据混合,适应不同目标分布。算法训练小型代理模型动态调整各领域数据权重,并利用预训练参考模型避免对高熵领域过于悲观。DoReMi显著提高大型模型训练效率,如280M代理模型可使8B参数模型达到基线性能的速度提高2.6倍。项目提供PyTorch实现,包含快速可恢复的数据加载器和下游评估工具。
FrozenBiLM - 创新视频问答模型在零样本和少样本场景中表现优异
VideoQAFrozenBiLMzero-shot语言模型多模态Github开源项目
FrozenBiLM是一种基于冻结双向语言模型的视频问答模型。该模型在零样本和少样本场景下表现优异,同时在标准数据集上也具有竞争力。FrozenBiLM采用跨模态训练方法,可处理填空题和开放式问答等多种视频问答任务。此外,该模型适用于无监督学习和下游任务微调,展现出较强的灵活性和适应性。
ai-comic-factory - AI驱动的漫画创作平台 简化创意表达过程
AI Comic Factory开源项目图像生成语言模型API配置Github
AI Comic Factory是一个开源的AI漫画创作平台,通过输入文字提示即可生成漫画作品。该项目结合了大型语言模型和图像生成技术,为创作者提供便捷的创作工具。平台支持多种配置选项,包括不同的语言模型和渲染引擎,可满足各类创作需求。AI Comic Factory简化了漫画创作流程,使得将创意转化为视觉故事变得更加容易。项目使用开源技术,包括Hugging Face的text-generation-inference和stabilityai的stable-diffusion-xl模型。用户可根据需求选择不同的语言模型引擎,如INFERENCE_API、INFERENCE_ENDPOINT、OPENAI、GROQ或ANTHROPIC。渲染引擎选项包括INFERENCE_API、INFERENCE_ENDPOINT、REPLICATE、VIDEOCHAIN和OPENAI。AI Comic Factory支持多种配置,可适应不同的应用场景和技术需求。
rci-agent - 智能代理利用语言模型解决计算机任务
RCI AgentMiniWoB++语言模型计算机任务自然语言Github开源项目
RCI Agent是一个基于预训练语言模型的智能代理,专门用于执行MiniWoB++基准测试中的计算机任务。该项目采用RCI提示方案优化输出,在样本效率方面表现出色。相比其他模型,RCI Agent使用更少的样本即可达到仅次于CC-Net的性能。这一研究成果展示了大型语言模型在解决通用计算机任务中的潜力,为克服专家演示获取和奖励函数定义等挑战提供了新思路。
Multi-Agents-Debate - 多智能体辩论框架激发大语言模型发散思维能力
Multi-Agent Debate大语言模型语言模型AI辩论认知行为Github开源项目
该项目提出创新的多智能体辩论框架,激发大语言模型发散思维能力。通过模拟辩论过程,有效克服自我反思中可能出现的思维退化问题。实验显示,此方法在反直觉问答和常识机器翻译等任务中带来显著持续改进。项目探索大语言模型间交互和辩论能力,为人工智能领域开辟新研究方向。
SuperCLUE - 中文大模型综合能力评估基准
SuperCLUE中文大模型评测基准人工智能语言模型Github开源项目
SuperCLUE是针对中文大语言模型的综合评测基准,从语言理解生成、专业知识、智能体和安全四个维度评估12项基础能力。包含开放问题、客观题测评及AI Agent能力评估,为中文大模型发展提供全面客观的参考标准。
filco - 优化检索增强生成的上下文过滤方法
FilCo检索增强生成上下文过滤语言模型数据集处理Github开源项目
FilCo项目开发了一种新型上下文过滤方法,旨在改进检索增强生成(RAG)系统。该方法通过筛选最相关的上下文信息来提高生成质量。项目开源了完整代码,涵盖上下文评分、数据处理、模型训练和评估等功能。研究人员可以复现实验并将此技术应用于问答和对话等RAG任务中。
xmc.dspy - Infer-Retrieve-Rank方法revolutionizing大规模多标签分类
Infer-Retrieve-Rank多标签分类极端多类别上下文学习语言模型Github开源项目
Infer-Retrieve-Rank (IReRa)是一种创新的多标签分类方法,专门针对具有大量类别的任务。这个通用且模块化的程序通过预训练语言模型和检索器的交互,高效处理复杂的分类问题。IReRa仅需少量标记示例即可优化性能,无需模型微调。该项目提供完整文档,包括安装、数据处理、运行指南等,方便研究人员在各种语言模型推理和检索任务中应用。
gpt2-medium-chinese - 中文文本生成的可靠选择
语言模型Github开源项目文本生成GPT2-MediumHuggingfacewiki2019zh_corpus中文模型
GPT2-Medium中文版本是1.2GiB的语言模型,使用wiki2019zh_corpus训练,适合中文文本生成。该模型提供了详细的源代码和使用说明,支持中文内容创作,特别适合需要文本生成的项目。用户可以在Colab上进行试验,以简化文本生成过程。
SecureBERT - 网络安全专用的语言模型,提升文本分析和信息处理能力
文本分类问答开源项目SecureBERT模型语言模型Huggingface网络安全Github
SecureBERT基于RoBERTa构建,是专用于处理网络安全文本的领域特定语言模型。经过海量的网络安全文本训练,它表现出在文本分类、命名实体识别等任务中的卓越性能,并在填空预测上优于模型如RoBERTa和SciBERT,保持对通用英语的良好理解。SecureBERT已在Huggingface平台上线,可作为下游任务的基础模型,以实现更精准的文本分析和处理。
KULLM3 - 高性能韩语指令跟踪与对话模型
NLP&AI LabKULLM3Huggingface韩国大学开源项目模型transformersGithub语言模型
KULLM3是由NLP&AI Lab开发的语言模型,专注于韩语的指令跟随和流畅对话。基于upstage/SOLAR-10.7B-v1.0优化训练,适用于多种场景。利用66000多个训练样例,KULLM3在仿效GPT-3.5-turbo指令方面表现突出。在符合道德和法律标准的前提下提供自然互动,适合研究和商业用途。采用Apache 2.0许可,开放源码,详情可参阅KULLM的GitHub页面。
switch-base-32 - 高效稀疏性提升了大规模语言模型训练速度
HuggingfaceSwitch Transformers开源项目模型Masked Language ModelingGithub专家模型语言模型T5
Switch Transformers通过混合专家模型提高了屏蔽语言模型任务的训练速度,相较于T5,其微调任务表现更佳。该模型使用稀疏MLP替代传统前馈层,并在Colossal Clean Crawled Corpus上预训练,实现了4倍训练加速。研究还探讨了其环境影响并提供详细技术细节及源代码链接。
camembert-base-legacy - 基于RoBERTa的法语语言模型在多任务中的应用
预训练Hugging FaceCamemBERTHuggingfaceGithub开源项目模型法语语言模型
CamemBERT是一种先进的法语语言模型,基于RoBERTa,提供多种可选变体,可满足不同的自然语言处理需求。通过Hugging Face库,用户能够轻松集成和应用其强大的掩码填充和上下文特征提取功能。
umberto-wikipedia-uncased-v1 - UmBERTo模型专注意大利语NLP任务
UmBERTo词汇表标记HuggingfaceGithub开源项目模型意大利语语言模型
UmBERTo Wikipedia Uncased是基于Roberta的意大利语语言模型,利用SentencePiece和Whole Word Masking技术进行训练。该模型展示出在命名实体识别和词性标注任务中的高表现,尤其是在F1和精确度指标上。模型训练于小规模的意大利语Wikipedia语料库,为意大利语应用提供支持。可以在huggingface平台上获取并进行应用测试。
Lexora-Lite-3B - 意大利语指令生成与自动化对话模型
语言模型神经网络transformers预训练模型Github开源项目自然语言处理Huggingface
Lexora-Lite-3B通过深度学习与自然语言处理技术提供意大利语的文本生成与对话自动化,依托transformers库及Sonnet-3.5-ITA-INSTRUCTION与Sonnet-3.5-ITA-DPO数据集,以高效处理语料指令与自动生成对话为核心,适用于多场景文本交互需求,简化任务管理。
v3_1_pt_ep1_sft_5_based_on_llama3_1_8b_final_data_20241019 - 探索先进的自然语言处理开源模型及其实际应用
语言模型训练细节transformers环境影响模型Github开源项目模型卡Huggingface
了解先进自然语言处理开源模型的信息,包括用途、评估方法及风险提示。虽然详细信息未完全披露,但以上内容可为开发和应用提供重要参考。
rut5-base-absum - 结合多任务训练的俄语文本抽象摘要模型
数据集Github模型开源项目语言模型Russian summarizationPyTorchHuggingface模型微调
该模型基于cointegrated/rut5-base-multitask,为俄语文本的抽象摘要进行了优化,微调时使用了四个数据集。通过指定文本和参数,如词数、压缩率及最大长度,生成简明准确的摘要,适用于多种长度和复杂程度的文本。模型在提高摘要效率和内容相关性方面表现优异,特别适合需要简化信息的场合。
leandojo-lean4-retriever-byt5-small - 利用检索增强模型改进定理证明技术
LeanDojo开源项目检索增强模型Github语言模型定理证明NeurIPSHuggingface
LeanDojo项目应用检索增强的语言模型,旨在提升数学与逻辑推理中的自动化水平。通过自然语言处理和机器学习的结合,LeanDojo为定理证明提供了高效创新的解决方案,显著提高了检索精度并加速了复杂问题的求解。目前,该项目正在NeurIPS会议的Datasets and Benchmarks Track中评审,适用于研究人员扩大在数学领域应用机器学习的探索。详情请访问LeanDojo官方网站。
SmolLM-1.7B-Instruct - SmolLM-1.7B-Instruct 模型的技术特性与应用场景分析
数据集Github微调模型开源项目语言模型性能优化SmolLMHuggingface
SmolLM-1.7B-Instruct 是一款包含135M、360M和1.7B参数的小型语言模型,通过高质量数据集微调而成。v0.2版本在主题保持和回答提示方面表现优越。支持多种应用方式,包括本地和浏览器演示。但需注意,该模型可能并非完全精准,建议作为辅助工具应用于常识问答、创造性写作和基础编程等场景。
DeepSeek-Coder-V2-Lite-Base - 强大开源语言模型,支持代码与数学任务
Github数学推理模型开源开源项目语言模型代码智能DeepSeek-Coder-V2Huggingface
DeepSeek-Coder-V2-Lite-Base是一种先进的开源Mixture-of-Experts代码语言模型,专门用于代码和数学推理任务。它支持338种编程语言,拥有128K上下文长度,与DeepSeek-Coder-33B相比,在多领域性能显著提升。通过Huggingface平台,用户可轻松访问并进行推理,非常适合开发者和研究人员。
Platypus2-13B - LLaMA2架构下通过指令微调优化的模型及其表现
机器学习Github模型Platypus2-13B开源项目语言模型训练数据集Huggingface人工智能
该模型基于LLaMA2-13B架构进行指令微调,具备自动回归功能。使用STEM和逻辑数据集进行训练,在ARC和HellaSwag等任务中表现优异。开发者应在应用前进行安全测试,以验证适用性并减轻可能的偏见。
Swallow-MX-8x7b-NVE-v0.1 - 跨语言文本生成模型,强化日语能力
模型性能HuggingfaceSwallow-MX-8x7b-NVE-v0.1开源项目模型训练数据集Github语言模型日语数据
Swallow-MX-8x7b-NVE-v0.1基于Mixtral-8x7B-Instruct持续预训练,增加了日语数据模块,提升了多语言文本生成性能。该模型在日文常识问答和翻译任务中表现突出,发布于Apache-2.0开源许可证下。该版本仍在开发中,提醒注意输出的安全性。项目由ABCI计划支持,适用于多语言自然语言处理任务。
jobbert_knowledge_extraction - 该项目通过优秀的AI模型进行英文职位发布中的技能提取
SkillSpan技能提取硬技能Huggingface软技能开源项目模型Github语言模型
该项目旨在从英文职位发布中提取硬技能和软技能,利用创新的数据集和标注指南填补当前的空白。项目通过SKILLSPAN提供了大量经过专家标注的数据,结合各种先进的模型,如BERT基线和长文本优化模型,表现出显著优势。研究结果表明,经过领域适应的模型显著提高了技能提取的准确性,同时单任务学习比多任务学习更为有效。
bertweet-large - 大规模英语推文预训练模型,面向社交媒体文本
Huggingface开源项目模型预训练Github语言模型English TweetsBERTweetCOVID-19
BERTweet是首个面向英语推文的大规模预训练模型,基于RoBERTa程序开发,语料库包含2012至2019年间的8.45亿条推文及500万条涉及COVID-19的推文。在任务性能上,BERTweet在词性标注、命名实体识别、情感分析以及讽刺检测等方面表现出色,是分析推文内容的有效工具。
gpt2-small-portuguese - 葡萄牙语NLP高效精调模型的详细解析
GPorTuguese-2葡萄牙语HuggingfaceGithubNLP任务开源项目模型微调语言模型
研究展示了如何在有限资源下使用Hugging Face和fastai v2对英语GPT-2进行精调,构建出葡萄牙语语言模型。该模型基于GPT-2 small,经过一天训练获得37.99%的准确率和23.76的困惑度,显示了其在葡萄牙语文本生成及其他NLP任务中的表现。研究指出,迁移学习可在任何语言的前沿语言模型开发中发挥作用。
gemma-2-9b-it-GGUF - Gemma 2 Instruct模型,支持多语言与复杂文本生成
编程语言语言模型Github开源项目文本生成HuggingfaceGemmaGoogle模型
Google推出的Gemma 2 Instruct是全新文本生成模型,旨在高效处理多语言和编程任务。训练基于8万亿令牌,数据量较前代提升30%,覆盖网络文档、代码和数学等数据集,支持复杂文本生成与逻辑推理。模型参数仅9亿,对硬件要求较低,适合内存有限的用户,同时具备多语言和代码生成能力。
Flux-Prompt-Enhance - 文本生成技术提升Prompts表现
google-t5/t5-base语言模型模型检查点开源项目模型transformersGithubHuggingfacetext2text-generation
该项目通过整合transformers库和Google T5模型,强化了Prompts的生成效果。使用gokaygokay的Flux-Prompt-Enhance模型,加强了文本的丰富性和描述性,尤其适合创意与内容生成领域。支持多语言能力,依据前缀指令生成详尽自然的文本,适用于研究者与开发者在自然语言处理任务中的应用,推动AI内容生成的创新。
RWKV-Runner - 一款全自动化轻量级RWKV管理和启动工具并提供与OpenAI API兼容的接口
RWKV Runner语言模型自动化OpenAI API部署Github开源项目
RWKV-Runner项目通过一个轻量级的可执行程序,简化了大型语言模型的使用,并提供与OpenAI API兼容的接口,使每个ChatGPT客户端都能作为RWKV客户端使用。项目支持多语言本地化,提供用户友好界面,自动安装依赖,包含一键启动、模型管理、前后端分离等功能。支持多级VRAM配置和CUDA加速,适用于大多数计算机。提供简单的部署示例、内置模型转换工具和远程模型检查功能。