#多任务学习

StreamSpeech入门学习资料 - "全能"语音识别、翻译与合成模型

2 个月前

StreamSpeech 语音识别语音翻译多任务学习实时合成 Github 开源项目

2 个月前

中文命名实体识别(NER)技术发展与应用

3 个月前

中文NER 深度学习模型命名实体识别多任务学习词汇增强 Github 开源项目

3 个月前

CAIL2019:中国法律人工智能挑战赛相似案例匹配数据集及其应用

3 个月前

BERT模型多任务学习数据预处理集成模型问答系统 Github 开源项目

3 个月前

Multi-Task Transformer:强大的场景理解多任务Transformer模型

3 个月前

多任务学习场景理解 Transformer 计算机视觉深度学习 Github 开源项目

3 个月前

UniTS: 构建统一时间序列模型的突破性研究

3 个月前

UniTS 时间序列模型多任务学习迁移学习零样本学习 Github 开源项目

3 个月前

TD-MPC2: 可扩展、稳健的连续控制世界模型

3 个月前

TD-MPC2 强化学习连续控制模型训练多任务学习 Github 开源项目

3 个月前

ComfyUI-Florence2：将微软强大的视觉语言模型整合到AI艺术创作中

3 个月前

Florence2 ComfyUI 视觉基础模型多任务学习 DocVQA Github 开源项目

3 个月前

IP-Adapter-Instruct：利用指令提示解决基于图像条件的歧义问题

3 个月前

IP Adapter Instruct 图像生成条件控制扩散模型多任务学习 Github 开源项目

3 个月前

X-Decoder: 一个通用的像素、图像和语言解码模型

3 个月前

X-Decoder 图像分割计算机视觉多任务学习开放词汇分割 Github 开源项目

3 个月前

Awesome Multi-Task Learning: 探索机器学习的多任务学习前沿

3 个月前

多任务学习机器学习神经网络计算机视觉自然语言处理 Github 开源项目

3 个月前

相关项目

yolor

该项目实现了一个新型多任务统一网络，基于最新论文支持多任务并在COCO数据集中的实时对象检测上表现出色。优化后的YOLOR模型在测试和验证中均显示出较高的AP值和运行速度，适用于多种实时应用场景。项目提供了详细的安装、训练和测试指南，支持Docker和Colab环境，适合研究人员和开发者在复杂场景中进行高效的对象检测。

LibMTL

LibMTL是一个基于PyTorch的开源库，专为多任务学习（MTL）设计。它提供了一致的代码库和评估流程，支持多种架构和优化策略，涵盖多个领域的基准数据集。LibMTL采用模块化设计，允许用户灵活添加自定义组件或调整现有算法，方便开发新策略或应用于新场景。详尽的文档确保不同经验水平的开发者都能轻松使用。

GiT

GiT是一种通用视觉Transformer模型,采用单一ViT架构处理多种视觉任务。该模型设计简洁,无需额外视觉编码器和适配器。通过统一语言接口,GiT实现了从目标检测到图像描述等多任务能力。在多任务训练中,GiT展现出任务间协同效应,性能超越单任务训练且无负迁移。GiT在零样本和少样本测试中表现优异,并随模型规模和数据量增加而持续提升性能。

CAGrad

CAGrad是一种多任务学习算法，专注于解决梯度冲突问题。该方法通过冲突避免策略平衡各任务目标，在图像预测和强化学习领域表现出色。CAGrad实现简洁，适用于复杂的多任务场景，为相关研究提供新思路。该项目已被NeurIPS 2021接收，并提供了完整的源代码和实验指南。

YOLOv8-multi-task

YOLOv8-multi-task项目提出了一种轻量级神经网络模型，可同时执行目标检测、可行驶区域分割和车道线检测等多任务。该模型使用自适应拼接模块和通用分割头设计，在提高性能的同时保持高效率。实验表明，该模型在推理速度和可视化效果方面优于现有方法，适用于需要实时处理的多任务场景。

MiniGPT-4

MiniGPT-4是一个视觉语言理解项目，整合了Llama 2和Vicuna模型以增强多模态能力。它支持图像描述、视觉问答和多任务学习，能够处理复杂的视觉理解任务。项目的开源性和灵活架构为研究人员和开发者提供了探索视觉语言AI的工具。

awesome-multi-task-learning

此项目汇集了多任务学习(MTL)领域的精选资源,包含数据集、代码库和研究论文。涉及计算机视觉、自然语言处理、强化学习等多个领域的MTL基准测试和数据集。另外还收录了MTL架构、优化方法和任务关系学习等相关研究。对于研究人员和工程师深入学习和应用MTL技术而言,这是一个极具参考价值的资源库。

X-Decoder

X-Decoder是一个通用解码模型,可生成像素级分割和标记级文本。该模型在多个数据集上实现了开放词汇分割和指代分割的最佳结果,在分割和视觉语言任务上表现出色。X-Decoder支持语义、实例和全景分割,以及图像描述、图像-文本检索等多种任务。此外,它还能进行区域检索、指代描述、图像编辑等零样本任务组合。

StreamSpeech

StreamSpeech通过一个整合的模型，在线和实时翻译中展现行业领先水平，支持多达8种包括语音识别和语音转换任务。提供Web GUI演示，允许用户在浏览器中直接体验。探索StreamSpeech的功能和实例。

使用协议隐私政策广告服务

投诉举报邮箱: service@vectorlightyear.com