#聚类算法
pytextclassifier
PyTextClassifier是一款高性能的Python工具库,提供多种文本分类和聚类算法,支持二分类、多分类、多标签分类和Kmeans聚类。适用于情感分析和文本风险分类,设计简明易用,算法高效清晰。支持句子和文档级的文本任务,兼容英文和中文文本。包含FastText、TextCNN、TextRNN和BERT等深度学习模型,适合各类生产环境。
dtwclust
dtwclust是一个用于时间序列聚类的R语言包,实现了多种聚类算法,包括传统方法和新型的k-Shape、TADPole等。该包支持分区、层次和模糊聚类,提供DTW、GAK、软DTW等距离度量,并针对DTW进行了优化。它还包含聚类有效性指数、多变量支持和并行计算功能。dtwclust设计灵活,允许用户自定义距离度量和质心计算方法,适用于各类时间序列聚类任务。
cuvs
cuVS是一个开源的GPU向量搜索和聚类框架,专注于提供高性能的近似最近邻搜索和聚类功能。它支持C、C++、Python和Rust等多种编程语言,实现了CAGRA等先进算法。开发者可以直接使用cuVS,也可将其集成到其他系统中,从而在向量相似度搜索和聚类任务中充分利用GPU加速能力。
k-means-constrained
k-means-constrained库为K均值聚类算法引入了簇大小约束功能。它巧妙地将簇分配问题转化为最小成本流问题,并借助Google OR-Tools的C++实现高效求解。作为scikit-learn KMeans的扩展,该库保持了兼容的API设计,适合需要精确控制簇规模的聚类应用场景。支持Python 3.8+环境,可通过pip便捷安装。