#自监督学习

AI-Optimizer - 涵盖从无模型到基于模型,从单智能体到多智能体的多种算法的多功能深度强化学习平台
Github开源项目深度强化学习AI-Optimizer多智能体强化学习离线强化学习自监督学习
AI-Optimizer是一款多功能深度强化学习平台,涵盖从无模型到基于模型,从单智能体到多智能体的多种算法。其分布式训练框架高效便捷,支持多智能体强化学习、离线强化学习、迁移和多任务强化学习、自监督表示学习等,解决维度诅咒、非平稳性和探索-利用平衡等难题,广泛应用于无人机、围棋、扑克、机器人控制和自动驾驶等领域。
monodepth2 - 基于自监督学习的单目深度估计实现
Github开源项目PyTorch计算机视觉自监督学习Monodepth2深度估计
本项目提供了PyTorch实现的代码,用于训练和测试深度估计模型。代码采用自监督学习方法,支持单目和立体图像的深度预测。提供多种预训练模型和自定义数据集,兼容不同的图像分辨率。适用于研究和非商业用途,包含详细的设置指南、训练和评估说明。用户可通过此项目高效开发和优化深度估计模型。
DALLE2-pytorch - Pytorch实现的OpenAI DALL-E 2
Github开源项目神经网络文本到图像Pytorch自监督学习DALL-E 2
DALL-E 2的Pytorch实现由OpenAI开发,采用先进的神经网络技术将文本描述转化为高质量图像。本版本特别优化扩散先验网络,提供高性能的模型变体。开源项目鼓励开发者通过GitHub和Hugging Face参与贡献,并在Discord社区进行交流和支持。
awesome-self-supervised-learning - 自监督学习资源精选与理论实用指南
人工智能Github开源项目深度学习自监督学习对比学习视觉特征学习
精选自监督学习资源,覆盖理论研究与各领域实际应用,如计算机视觉、机器学习等。本项目常更新,已成为AI领域必备的研究与教学资源。
Awesome-MIM - 掩码图像建模在自监督表示学习中的应用与发展
Github开源项目深度学习计算机视觉Transformer自监督学习Masked Image Modeling
该项目汇总了掩码图像建模(MIM)及相关的自监督学习方法。涵盖了从2008年以来的主要自监督学习研究,并展示了其在自然语言处理和计算机视觉领域的发展历程和关键节点。所有内容按时间顺序排列并定期更新,包括相关论文、代码和框架的详细信息,旨在帮助研究者深入理解和应用MIM方法。欢迎贡献相关文献或修正建议。
Awesome-Denoise - 图像与视频去噪技术的最新研究分类
Github开源项目自监督学习视频降噪Awesome-Denoise图像降噪基准数据集
本项目汇总了图像与视频去噪领域的多项最新研究,通过色彩空间、图像类型和噪声模型进行分类。包含RGB、Raw以及两者兼顾的色彩空间,单张图像、连拍和视频的图像类型,以及多种噪声模型如加性白高斯噪声、泊松高斯噪声和基于生成对抗网络的噪声模型。此外,项目还整理了多个基准数据集和自监督去噪的研究论文,为研究人员提供全面的参考资源。
S3Gaussian - 自监督3D高斯模型提升自动驾驶动态场景解析
Github开源项目自监督学习无人驾驶S3Gaussian3D高斯场景分解
S3Gaussian使用3D高斯模型进行自监督动态街景解析,增强了自动驾驶的场景分解和渲染效果。该项目采用多分辨率hexplane编码器和多头高斯解码器,将4D网格编码为特征平面,并解码为4D高斯模型。无需额外注释即可优化模型。最新代码和评估已发布,详细介绍了环境配置、数据准备、训练和可视化过程。
lightly - 简单易用的自监督学习工具,支持自定义骨干模型和分布式训练
Github开源项目PyTorch计算机视觉多模型支持自监督学习Lightly
这个开源项目提供简单易用的自监督学习工具,支持自定义骨干模型和分布式训练。通过模块化设计,用户可以自由调整损失函数和模型头。项目还提供商业版本,包含用于嵌入、分类、检测和分割任务的预训练模型。此外,平台集成了主动学习和数据策划功能,适用于大规模数据处理和强大算法的应用。
solo-learn - 使用自监督学习进行无监督视觉表征的方法与技巧
Github开源项目PyTorch Lightning自监督学习solo-learn视觉表示学习无监督
solo-learn库基于PyTorch Lightning,提供多种自监督方法用于无监督视觉表征学习。该库包含全面的训练技巧和多种数据处理、评估方式,以提高训练效果和可重复性。其主要特点有快速的数据处理、自定义模型检查点、线上和线下的K-NN评估。库内包含灵活的数据增强、可视化功能,并不断更新方法和改进教程,使模型训练和调试更加高效简便。
EasyCV - 基于PyTorch的全能计算机视觉工具箱,支持自监督学习和Transformer模型
Github开源项目PyTorch目标检测图像分类自监督学习EasyCV
EasyCV是基于PyTorch的全能计算机视觉工具箱,专注于自监督学习、Transformer模型和主要视觉任务,包括图像分类、度量学习、目标检测和姿态估计。该工具箱提供了最先进的自监督算法如SimCLR、MoCO V2、Swav、DINO和基于掩码图像建模的MAE。它拥有简单综合的推理接口,并支持多种预训练模型。EasyCV支持多GPU和多工作者训练,利用DALI优化数据处理,使用TorchAccelerator和fp16加速训练,并通过PAI-Blade优化推理性能。
similarity - 用于度量学习的库,支持自监督和对比学习
Github开源项目自监督学习对比学习TensorFlow Similarity相似性学习度量学习
TensorFlow Similarity 是一个用于度量学习的库,支持自监督和对比学习。该库提供先进的算法,可用于研究、训练、评估和部署基于相似性和对比的模型,包含模型、损失函数、指标、采样器、可视化工具和索引子系统。最新版本支持分布式训练,增加了多模态嵌入和新的检索指标。可在未标记数据上进行预训练以提高准确性,或构建模型找到并聚类相似示例。了解更多请查看文档和示例。
byol-pytorch - 实现超越SimCLR的简化自监督学习新方法
Github开源项目PyTorch图像处理自监督学习BYOLUNLABELLED_IMAGE_DATA
这个开源项目提供了一种无需对比学习和负样本分配的自监督学习方法,其性能超过了SimCLR。它支持轻松集成任何基于图像的神经网络,并利用未标记数据提升模型性能。该项目还支持批量规范化和组规范化替代方案,适用于定制化和分布式训练。
awesome-self-supervised-gnn - 自监督学习在图神经网络中的研究论文总汇
Github开源项目论文图神经网络自监督学习对比学习GNN
本仓库收录了自监督学习在图神经网络(GNNs)领域的研究论文,按年份进行分类。我们会定期更新,若发现错误或遗漏,欢迎通过issue或pull request反馈。热门论文以火焰符号标注。
EVA - 推进大规模视觉表示学习的前沿
Github开源项目多模态学习CLIP自监督学习EVA视觉表示
EVA是北京智源人工智能研究院开发的视觉表示学习模型系列。它包括多个子项目,如EVA-01和EVA-CLIP,致力于探索大规模掩码视觉表示学习的极限和改进CLIP训练技术。这些模型在主流平台上提供,为计算机视觉研究提供了有力支持。EVA项目涵盖基础模型、自监督学习和多模态学习等前沿领域。
speech-resynthesis - 基于离散解耦自监督表示的语音重合成技术
Github开源项目语音合成自监督学习语音重合成表示学习语音编码
该项目开发了一种新型语音重合成方法,采用自监督学习的离散表示技术,分别提取语音内容、韵律信息和说话人特征。这种方法实现了可控的语音合成,在重建质量和特征解耦方面表现优异。此外,该技术还可应用于超轻量级语音编解码,以365比特/秒的低比特率提供高质量语音输出。项目提供完整的训练和推理流程,兼容多种数据集和自监督学习方法。
vid2avatar - 自监督场景分解实现野外视频3D人物重建
Github开源项目视频处理自监督学习场景分解Vid2Avatar3D头像重建
Vid2Avatar是一个开源项目,采用自监督场景分解方法从未处理的野外视频中重建3D人物模型。该方法无需额外监督,通过分离人物和背景实现精确建模。项目包含完整代码、预处理数据集和使用说明,适用于复杂场景的人物建模。
ZMM-TTS - 零样本多语言多说话人语音合成技术创新
Github开源项目语音合成多语言自监督学习ZMM-TTS多说话人
ZMM-TTS是一个多语言多说话人语音合成框架,基于大规模预训练自监督模型的量化语音表示。该项目首次将文本和语音自监督学习模型的表示应用于多语言语音合成。实验表明,ZMM-TTS在六种高资源语言中,对已知和未知说话人都能生成自然度高、相似度好的语音。即使对缺乏训练数据的新语言,也能合成清晰且与目标说话人相似的音频。
dinov2 - 通过无监督学习构建强大视觉特征的先进方法
Github开源项目计算机视觉DINOv2自监督学习Vision Transformer视觉特征
DINOv2是一种先进的无监督视觉特征学习方法,在1.42亿张未标注图像上预训练后生成高性能、鲁棒的通用视觉特征。这些特征可直接应用于多种计算机视觉任务,仅需简单线性分类器即可实现优异效果。DINOv2提供多种预训练模型,包括带寄存器的变体,在ImageNet等基准测试中表现卓越。
Segment-Any-Point-Cloud - 视觉基础模型驱动的通用点云序列分割框架
Github开源项目神经网络计算机视觉自监督学习Seal点云分割
Seal是一种自监督学习框架,通过利用视觉基础模型的知识来分割多样化的点云序列。该框架在表示学习阶段强调空间和时间一致性,实现了高效的跨模态知识迁移。Seal无需依赖2D或3D标注,直接从视觉模型中提取知识,展现出优秀的可扩展性、一致性和泛化能力。它可应用于各类点云数据集,包括真实与合成、高低分辨率、大小规模以及干净和受损数据。
UNI - 革新计算病理学的通用自监督模型
Github开源项目自监督学习UNI计算病理学全幻灯片图像病理AI
UNI是一款为计算病理学开发的通用自监督模型。它利用超过10万张H&E染色全扫描图像进行预训练,在34项代表性任务中表现卓越。UNI具备分辨率无关的组织分类、少样本玻片分类和多种癌症类型分类等能力,为病理学AI模型开发开辟新途径。
awesome-contrastive-self-supervised-learning - 对比自监督学习论文和资源汇总
Github开源项目深度学习自监督学习对比学习视觉模型表示学习
该项目收录了对比自监督学习领域的重要论文和资源,覆盖从2017年至今的研究成果。内容包括综述、算法、应用等,按年份分类整理。研究人员可通过此项目快速了解该领域发展历程和最新动态,是深入研究对比学习的重要参考资料。
vissl - 自监督视觉学习框架 促进计算机视觉研究
Github开源项目PyTorch计算机视觉自监督学习模型库VISSL
VISSL是一个计算机视觉库,专注于自监督学习研究。它实现了最新的自监督方法,提供全面的基准测试,采用简便的配置系统和模块化设计,并支持大规模训练。VISSL致力于加快自监督任务的设计和评估过程,为研究人员提供实用且灵活的工具。
Real3D - 基于真实图像的大规模3D重建模型
Github开源项目深度学习计算机视觉自监督学习3D重建Real3D
Real3D是一种创新的大规模3D重建模型系统,首次实现了使用单视图真实图像进行训练。该系统采用自训练框架,结合3D/多视图合成数据和单视图真实图像,并引入两种无监督损失函数,实现像素和语义层面的模型监督。在包含真实和合成数据、域内和域外形状的四种评估场景中,Real3D均显著优于现有方法。
rcg - RCG框架实现突破性无条件图像生成性能
Github开源项目PyTorch神经网络图像生成自监督学习RCG
RCG是一种创新的自监督图像生成框架,在ImageNet 256x256数据集上达到了无条件图像生成的最佳性能。该框架缩小了无条件和有条件图像生成之间的性能差距。项目提供基于PyTorch的GPU实现,包含表示扩散模型(RDM)以及MAGE、DiT、ADM和LDM等多种像素生成器的训练和评估代码。同时提供预训练模型和可视化工具,便于研究人员复现和拓展相关工作。
HistoSSLscaling - 病理组织图像自监督学习新方法
Github开源项目自监督学习ViT组织病理学掩码图像建模Phikon
HistoSSLscaling项目开发了基于掩码图像建模的自监督学习方法,用于病理组织图像分析。该项目的Phikon模型在4000万张全癌种病理切片上预训练,在多项下游任务中表现出色。项目提供了预训练模型、代码和数据集特征,为计算病理学研究提供支持。
Awesome-Remote-Sensing-Foundation-Models - 遥感基础模型论文代码数据集综合资源库
Github开源项目计算机视觉预训练多模态自监督学习遥感基础模型
该项目汇集遥感基础模型相关论文、数据集、基准测试、代码和预训练权重。内容涵盖视觉、视觉-语言、生成式、视觉-位置、视觉-音频等多类型遥感基础模型,以及特定任务模型和遥感智能体。另外还包含大规模预训练数据集等资源,为遥感领域研究和开发提供全面支持。
HighResCanopyHeight - AI驱动的高分辨率森林冠层高度制图技术
Github开源项目DINOv2Meta AI自监督学习卫星图像树冠高度图
HighResCanopyHeight项目运用自监督视觉转换器和卷积解码器,将RGB卫星影像转化为高分辨率森林冠层高度图。通过大规模预训练和针对性微调,该技术展现出跨地理区域和影像类型的适应性。这一创新方法在精确度和细节呈现上超越传统技术,为森林监测和生态研究提供了有力支持。
bassl - BaSSL算法推动视频场景分割性能提升
Github开源项目微调预训练自监督学习BaSSL视频场景分割
BaSSL是一种针对视频场景分割的自监督学习算法。它利用伪边界和边界感知预训练任务,最大化场景内相似性并最小化场景间差异。通过在预训练阶段学习边界间的上下文转换,BaSSL显著提升了视频场景分割性能。该算法在MovieNet-SSeg数据集上的测试结果表明,它具有优越的分割效果。
BCL - 利用记忆效应的对比学习算法提升长尾数据表示
Github开源项目自监督学习对比学习长尾识别记忆效应BCL
BCL项目开发了一种创新的自监督学习方法,利用神经网络的记忆效应来增强对比学习中样本视图的信息差异。这种方法从数据角度出发,无需标签就能有效提升长尾分布数据的表示学习能力。在多个基准数据集上的实验表明,BCL的性能超过了现有的最先进方法,为处理现实世界中的长尾分布数据提供了新的自监督学习思路。
jepa - 先进的自监督视频表征学习方法
Github开源项目视频处理自监督学习视觉表示V-JEPA特征预测
V-JEPA是一种创新的视频联合嵌入预测架构,专为自监督学习而设计。该方法仅通过观察VideoMix2M数据集的视频像素进行训练,不依赖预训练图像编码器、文本信息、负样本、人工标注或像素级重建。V-JEPA生成的视觉表征具有多功能性,能够在各种下游视频和图像任务中实现优异性能,无需对模型参数进行微调。其特征预测展现出良好的时空一致性,并可通过条件扩散模型转化为可解释的像素表示。
Awesome-SSL4TS - 自监督学习在时间序列分析中的应用资源
Github开源项目自监督学习时间序列对比学习表示学习生成式方法
这个项目汇总了时间序列数据自监督学习的最新研究资源,包括相关论文、代码和数据集。资源分为生成式和对比式两大类方法,涵盖了自回归预测、自编码重构、扩散模型生成、采样对比、预测对比和增强对比等技术。该资源列表为时间序列自监督学习研究提供了全面的参考材料。
control-flag - 自监督系统检测代码控制结构异常
Github开源项目GitHub异常检测自监督学习代码分析ControlFlag
control-flag是一种自监督异常模式检测系统,通过挖掘开源代码库中C/C++等高级语言的控制结构,学习典型模式并检测用户代码中的异常。该系统包含模式挖掘和异常扫描两个阶段,可用于发现拼写错误、缺失NULL检查等问题,有助于识别代码潜在缺陷并提升软件质量。
DenseCL - 改进密集预测任务的视觉预训练方法
Github开源项目自监督学习对比学习密集预测DenseCL视觉预训练
DenseCL是一种自监督视觉预训练方法,通过密集对比学习提升模型在密集预测任务中的表现。该方法实现简洁,核心部分仅需10行代码,适配多种数据增强技术。实验表明,DenseCL在目标检测和语义分割任务中性能显著提升,同时保持训练效率。项目开源了预训练模型和使用指南,便于研究者在视觉任务中应用。
TS-TCC - 创新的时间序列无监督表示学习方法
Github开源项目自监督学习时间序列对比学习表示学习IJCAI
TS-TCC是一种无监督时间序列表示学习框架,利用时间和上下文对比从未标记数据中学习表示。该方法在多个真实数据集上表现优异,适用于少量标记数据和迁移学习场景。TS-TCC还扩展到半监督设置(CA-TCC),相关研究发表于IEEE TPAMI。这一方法为时间序列分析提供了有效的表示学习工具,推动了该领域的发展。
MultimodalRecSys - 多模态推荐系统资源与研究进展汇总
Github开源项目深度学习图神经网络自监督学习多模态推荐系统推荐算法
本项目汇总了多模态推荐系统领域的精选资源,包括最新研究论文、开源框架和数据集。内容涵盖通用多模态推荐、基于文本和图像的推荐等方向,并提供详细的文献综述和技术分类。项目重点关注代码实现,为研究人员和开发者提供了深入了解该领域的重要参考。资源列表持续更新,反映多模态推荐系统的最新进展。
Awesome-Pretraining-for-Graph-Neural-Networks - 图神经网络预训练技术论文资源库
Github开源项目预训练图神经网络自监督学习对比学习生成式预训练
该资源库全面收集了图神经网络预训练相关论文,按发表年份、图类型、预训练策略、调优策略和应用领域分类。内容涵盖静态图、动态图、异构图等图类型,以及生成式、对比学习、多任务学习等预训练策略。同时包含prompt tuning等调优方法,并涉及推荐系统、生物学等应用领域。资源库不断更新,为图神经网络预训练研究提供重要参考。