UMATO
两阶段优化的均匀流形近似
两阶段优化的均匀流形近似(UMATO)是一种降维技术,可以同时保留高维数据的全局和局部结构。大多数现有的降维算法只关注这两个方面中的一个,然而,这种不足可能导致忽视或误解数据中重要的全局模式。此外,现有算法还存在不稳定的问题。
为了解决这些问题,UMATO提出了一个两阶段优化:全局优化和局部优化。首先,我们通过选择和优化枢纽点来获得全局结构。接下来,我们使用最近邻图来初始化和优化其他点。我们对一个合成数据集和三个真实世界数据集进行的实验表明,UMATO在准确性、稳定性和可扩展性方面都优于基准算法,如PCA、t-SNE、Isomap、UMAP、LAMP和PacMAP。
系统要求
- Python 3.9或更高版本
- scikit-learn
- numpy
- scipy
- numba
- pandas(用于读取csv文件)
安装
UMATO可通过pip安装。
pip install umato
import umato
from sklearn.datasets import load_iris
X, y = load_iris(return_X_y=True)
emb = umato.UMATO(hub_num=50).fit_transform(X)
有关算法和参数使用的详细信息,请查看Wiki中列出的API。
研究发现
支持我们在准确性和可扩展性分析中发现的详细统计数据在下面的图表中呈现:
图1:降维技术之间的准确性分析
九种降维技术在准确性分析中获得的平均分数。对于每个质量指标,排名第一至第四的降维技术以蓝色突出显示,其中我们为更好的技术分配更高的不透明度。同样,排名第六至第九的技术以红色突出显示,其中较差的技术具有更高的不透明度。UMATO在全局指标方面显著优于基准,同时稍微牺牲了局部指标分数。请注意,我们对原始数据和投影进行了标准化,以最大程度地减少缩放的影响。
图2:局部和全局指标排名
图3:大型数据集的可扩展性
图4:投影子集分析
我们准确性分析中生成的投影子集。颜色表示每个数据集的类别标签。分析结果验证了UMATO在准确保留全局结构方面优于竞争对手,同时在描述局部结构方面保持竞争力。
图5:小型数据集的可扩展性
引用
UMATO可以按以下方式引用:
@inproceedings{jeon2022vis,
title={Uniform Manifold Approximation with Two-phase Optimization},
author={Jeon, Hyeon and Ko, Hyung-Kwon and Lee, Soohyun and Jo, Jaemin and Seo, Jinwook},
booktitle={2022 IEEE Visualization and Visual Analytics (VIS)},
pages={80--84},
year={2022},
organization={IEEE}
}
Jeon, H., Ko, H. K., Lee, S., Jo, J., & Seo, J. (2022, October). Uniform Manifold Approximation with Two-phase Optimization. In 2022 IEEE Visualization and Visual Analytics (VIS) (pp. 80-84). IEEE.