#分类任务
Multimodal-Toolkit - 通用多模态数据与文本特征融合工具包
Multimodal TransformersHuggingFace TransformersPython分类任务回归任务Github开源项目
一个用于分类和回归任务的工具包,结合HuggingFace Transformers的文本特征与表格数据,生成多模态特征以提高模型性能。该工具包支持多种模型和组合方法,提供详尽的示例和数据集,包括BERT、ALBERT等模型,以及电商评论、Airbnb数据和宠物领养预测等实际应用。
GIST-Embedding-v0 - 高性能句子嵌入模型支持多种自然语言处理任务
模型分类任务Github句子相似度sentence-transformers检索任务特征提取开源项目Huggingface
GIST-Embedding-v0是一个句子嵌入模型,适用于多种自然语言处理任务。该模型在MTEB基准测试中展现出良好性能,特别是在英语文本处理方面。它支持分类、检索和聚类等应用,为开发者提供了一个灵活的文本表示解决方案。
GIST-large-Embedding-v0 - 多语言句子嵌入模型 GIST-large 支持广泛NLP应用
特征提取GIST-large-Embedding-v0Huggingface模型Github开源项目分类任务MTEB评测句子相似度
GIST-large-Embedding-v0是一个多功能句子嵌入模型,在分类、检索、聚类和语义相似度等NLP任务中表现出色。该模型支持多语言处理,擅长特征提取,适用于文本分析、信息检索和语义搜索等领域。作为sentence-transformers库的组成部分,GIST-large为开发者提供了提升NLP应用性能的有力工具。
GIST-small-Embedding-v0 - 轻量级嵌入模型实现高效句子相似度和语义搜索
模型聚类任务分类任务Githubsentence-transformers检索任务开源项目Huggingface语义相似度
GIST-small-Embedding-v0是一款针对句子相似度和语义搜索优化的小型嵌入模型。该模型在MTEB多项基准测试中展现出优异性能,涵盖分类、检索、聚类和语义文本相似度等任务。其特点是在保持模型轻量化的同时,提供高效准确的文本嵌入能力,适用于需要快速处理的各类应用场景。
snowflake-arctic-embed-l - 高性能句子嵌入模型在自然语言处理任务中的应用
特征提取Huggingface模型GithubMTEB开源项目sentence-transformers分类任务句子相似度
snowflake-arctic-embed-l是一个用于句子相似度和检索任务的嵌入模型。该模型在MTEB基准测试的多个任务中表现优异,包括分类、检索、聚类和语义文本相似度。它支持多语言处理,可应用于问答系统、文档检索和文本分类等多种自然语言处理场景。在AmazonReviews等数据集上,该模型展现出较高的准确率和F1值。
bge-base-en - 英语文本嵌入模型在多任务基准测试中展现优异性能
模型排序任务聚类任务分类任务GithubMTEB检索任务Huggingface开源项目
bge-base-en是一个英语文本嵌入模型,在MTEB多任务评估基准中表现优异。该模型在分类、检索、聚类等多种自然语言处理任务中均取得良好结果,尤其在问答和语义相似度任务上表现突出。作为一个多功能的文本表示工具,bge-base-en可应用于多种自然语言处理场景。
snowflake-arctic-embed-s - 开源语义搜索模型实现文本匹配分类与相似度分析
Huggingface开源项目模型GithubMTEB模型评估机器学习数据集分类任务
snowflake-arctic-embed-s是一个开源语义搜索模型,用于文本匹配、分类和相似度计算。模型通过MTEB基准测试评估,覆盖Amazon评论分类、问答检索和文本聚类等场景。支持多语言处理,适用于搜索引擎、推荐系统和文本分析等应用场景。
roberta-base-CoLA - RoBERTa模型在CoLA任务上的微调和性能分析
分类任务TextAttackGithub模型自然语言处理机器学习开源项目Huggingface模型训练
本项目展示了roberta-base模型在GLUE数据集的CoLA任务上的微调过程。模型经过5轮训练,使用32批量大小、2e-05学习率和128最大序列长度。采用交叉熵损失函数,模型在首轮训练后即达到85%的评估集准确率。这一结果凸显了RoBERTa模型在语言可接受性判断任务中的出色表现。
GPT-JT-6B-v1 - 优化文本分类的先进语言模型
GPT-JTGithubUL2模型分类任务开源项目Huggingface文本生成开放数据集
GPT-JT-6B-v1采用去中心化训练和开放数据集,提升文本分类表现。结合UL2训练目标等先进技术,使其在计算效率上具有优势,优于大多数百亿参数模型。在多样化数据集如自然指令和P3上,GPT-JT利用标记和双向上下文学习,增强推断能力和语言处理功能。
ja_classification - 准确率达98.47%的日语文本分类模型
模型训练HuggingfaceAdam超参数优化模型Github开源项目分类任务机器学习
该日语文本分类模型经过优化训练,在评估数据集上取得98.47%的综合性能指标,包括准确率、精确率、召回率和F1值。模型采用Adam优化器训练,经过10轮迭代后性能稳定,可用于各类日语文本分类任务。