#聚类算法

pytextclassifier - PyTextClassifier:支持多种文本分类和聚类算法的高性能工具库
Github开源项目开源工具包文本分类PyTextClassifier聚类算法自适应文本分析
PyTextClassifier是一款高性能的Python工具库,提供多种文本分类和聚类算法,支持二分类、多分类、多标签分类和Kmeans聚类。适用于情感分析和文本风险分类,设计简明易用,算法高效清晰。支持句子和文档级的文本任务,兼容英文和中文文本。包含FastText、TextCNN、TextRNN和BERT等深度学习模型,适合各类生产环境。
cuvs - 高性能GPU向量搜索与聚类框架
Github开源项目GPU向量搜索聚类算法RAPIDScuVS
cuVS是一个开源的GPU向量搜索和聚类框架,专注于提供高性能的近似最近邻搜索和聚类功能。它支持C、C++、Python和Rust等多种编程语言,实现了CAGRA等先进算法。开发者可以直接使用cuVS,也可将其集成到其他系统中,从而在向量相似度搜索和聚类任务中充分利用GPU加速能力。
CC5205 - 综合数据挖掘与机器学习课程资源
Github开源项目神经网络机器学习数据分析数据挖掘聚类算法
智利大学计算机科学系的开源数据挖掘课程,结合理论与实践。课程资源丰富,包括视频、幻灯片和补充材料,全面覆盖从数据分析到机器学习算法的各个方面。特别关注数据隐私和伦理,为学习者提供全方位的数据科学教育。通过实践项目和丰富的学习资源,帮助学生和专业人士深入掌握数据挖掘和机器学习技能。
hdbscan - 灵活高效的层次密度聚类算法
Github开源项目机器学习数据分析聚类算法HDBSCAN密度聚类
HDBSCAN是一种高性能的层次密度聚类算法,能够处理不同密度的聚类并对参数选择更加稳健。该算法主要参数直观易选,无需复杂调优,适合探索性数据分析。HDBSCAN具有快速可靠的特点,能返回有意义的聚类结果。此外,它还支持异常检测和分支检测,并提供可视化工具辅助理解聚类结果。该开源项目在GitHub上提供详细文档和示例,支持Python 2和3版本。
dtwclust - R语言时间序列聚类工具包 支持多种算法和距离度量
Github开源项目聚类算法R语言包时间序列聚类动态时间规整DTW
dtwclust是一个用于时间序列聚类的R语言包,实现了多种聚类算法,包括传统方法和新型的k-Shape、TADPole等。该包支持分区、层次和模糊聚类,提供DTW、GAK、软DTW等距离度量,并针对DTW进行了优化。它还包含聚类有效性指数、多变量支持和并行计算功能。dtwclust设计灵活,允许用户自定义距离度量和质心计算方法,适用于各类时间序列聚类任务。
k-means-constrained - K均值聚类算法的约束优化实现
Github开源项目Python机器学习数据挖掘聚类算法k-means
k-means-constrained库为K均值聚类算法引入了簇大小约束功能。它巧妙地将簇分配问题转化为最小成本流问题,并借助Google OR-Tools的C++实现高效求解。作为scikit-learn KMeans的扩展,该库保持了兼容的API设计,适合需要精确控制簇规模的聚类应用场景。支持Python 3.8+环境,可通过pip便捷安装。