vision-lstm
Vision-LSTM (ViL)是一个将LSTM技术创新应用于计算机视觉的开源项目。它提供了简洁的架构实现和完整的训练流程,在ImageNet-1K等视觉任务上表现优异。ViL支持多种模型配置,并提供预训练权重。项目采用双向LSTM结构,支持不同尺寸的模型(如tiny、small、base等),并提供了适用于长序列的fine-tuning版本。包含详细文档和示例,方便研究人员和开发者探索LSTM在视觉领域的应用。