CoreNet: 用于训练深度神经网络的库
CoreNet是一个深度神经网络工具包,允许研究人员和工程师训练各种任务的标准和新型小型及大规模模型,包括基础模型(如CLIP和LLM)、目标分类、目标检测和语义分割。
目录
新特性
- 2024年4月: CoreNet库0.1.0版本包括
- OpenELM
- CatLIP
- MLX示例
Apple使用CoreNet的研究成果
以下是使用CoreNet的Apple发表的论文列表。此外,训练和评估方法以及预训练模型的链接可以在projects文件夹中找到。有关更多详细信息,请参阅该文件夹。
- OpenELM: 具有开放训练和推理框架的高效语言模型系列
- CatLIP: 在网络规模图像-文本数据上实现2.7倍更快预训练的CLIP级视觉识别准确率
- 强化数据,倍增影响: 通过数据集强化提高模型准确性和鲁棒性
- CLIP遇见模型动物园专家: 用于视觉增强的伪监督
- FastVit: 使用结构重参数化的快速混合视觉Transformer
- 字节即所需: 直接在文件字节上操作的Transformers
- MobileOne: 改进的一毫秒移动骨干网络
- RangeAugment: 使用范围学习的高效在线增强
- 用于移动视觉Transformers的可分离自注意力(MobileViTv2)
- CVNets: 高性能计算机视觉库, ACM MM'22
- MobileViT: 轻量级、通用和移动友好的视觉Transformer, ICLR'22
安装
您需要Git LFS(说明如下)来运行测试和Jupyter笔记本(安装说明见此处),并为此存储库做贡献,因此我们建议您首先安装并激活它。
在Linux上,我们建议使用Python 3.10+和PyTorch(版本 >= v2.1.0),在macOS系统上Python 3.9+应该足够。
请注意,如果您想做出贡献和/或运行测试,下面列出的可选依赖项是必需的。
对于Linux(将apt
替换为您的包管理器):
sudo apt install git-lfs
git clone git@github.com:apple/corenet.git
cd corenet
git lfs install
git lfs pull
# 以下venv命令是可选的,但建议使用。或者,您可以创建并激活conda环境。
python3 -m venv venv && source venv/bin/activate
python3 -m pip install --editable .
安装音频和视频处理的可选依赖项:
sudo apt install libsox-dev ffmpeg
对于macOS,假设您使用Homebrew:
brew install git-lfs
git clone git@github.com:apple/corenet.git
cd corenet
cd \$(pwd -P) # 见下面的注释
git lfs install
git lfs pull
# 以下venv命令是可选的,但建议使用。或者,您可以创建并激活conda环境。
python3 -m venv venv && source venv/bin/activate
python3 -m pip install --editable .
安装音频和视频处理的可选依赖项:
brew install sox ffmpeg
请注意,在macOS上文件系统是不区分大小写的,大小写敏感性可能会导致Git问题。您应该像访问大小写敏感的路径一样访问磁盘上的存储库,即使用与列出目录时看到的相同的大小写ls
。您可以使用cd $(pwd -P)
命令切换到这样的路径。
目录结构
本节提供对重要CoreNet目录的快速访问和简要描述。
描述 | 快速访问 |
---|---|
入门使用示例是开始使用CoreNet的简单方法。 | └── tutorials ├── train_a_new_model_on_a_new_dataset_from_scratch.ipynb ├── guide_slurm_and_multi_node_training.md ├── clip.ipynb ├── semantic_segmentation.ipynb └── object_detection.ipynb |
训练方法除了`projects/`目录中列出的出版物的预训练模型权重和检查点外,CoreNet还提供可重现的训练方法。出版物项目目录通常包含以下内容:
| └── projects ├── byteformer ├── catlip (*) ├── clip ├── fastvit ├── mobilenet_v1 ├── mobilenet_v2 ├── mobilenet_v3 ├── mobileone ├── mobilevit ├── mobilevit_v2 ├── openelm (*) ├── range_augment ├── resnet └── vit |
MLX示例MLX示例演示了如何在Apple Silicon上高效运行CoreNet模型。 请在相应示例目录中的`README.md`文件中查找更多信息。 | └──mlx_example ├── clip └── open_elm |
模型实现模型按任务组织(例如"分类")。您可以在相应的任务文件夹中找到每个任务的所有模型实现。每个模型类都用 | └── corenet └── modeling └── 模型 ├── 音频分类 ├── 分类 ├── 检测 ├── 语言建模 ├── 多模态图像文本 └── 分割 |
数据集与模型类似,数据集也按任务进行分类。 | └── corenet └── data └── 数据集 ├── 音频分类 ├── 分类 ├── 检测 ├── 语言建模 ├── 多模态图像文本 └── 分割 |
其他关键目录在本节中,我们重点介绍了其余关键目录,这些目录实现了与YAML配置中引用的名称相对应的类。 | └── corenet ├── 损失函数 ├── 指标 ├── 优化器 │ └── 调度器 ├── 训练评估流程 ├── 数据 │ ├── 整理函数 │ ├── 采样器 │ ├── 文本分词器 │ ├── 转换 │ └── 视频读取器 └── 建模 ├── 层 ├── 模块 ├── 神经增强器 └── 文本编码器 |
维护者
该代码由Sachin开发,现由Sachin、Maxwell Horton、Mohammad Sekhavat和Yanzi Jin维护。
前任维护者
为CoreNet做贡献
我们欢迎社区提交PR!你可以在我们的贡献文档中找到有关为CoreNet做贡献的信息。
请记住遵守我们的行为准则。
许可证
有关许可证详细信息,请参阅LICENSE。
与CVNets的关系
CoreNet从CVNets演变而来,以涵盖计算机视觉之外更广泛的应用范围。它的扩展促进了基础模型的训练,包括大型语言模型。
引用
如果您发现我们的工作有用,请引用以下论文:
@inproceedings{mehta2022cvnets,
author = {Mehta, Sachin and Abdolhosseini, Farzad and Rastegari, Mohammad},
title = {CVNets: High Performance Library for Computer Vision},
year = {2022},
booktitle = {Proceedings of the 30th ACM International Conference on Multimedia},
series = {MM '22}
}