#聚类

ML Hacks: 机器学习实用技巧与最佳实践

2 个月前

探索机器学习领域的实用技巧和最佳实践,帮助开发者提升模型性能和工作效率

机器学习算法聚类深度学习数据分析 Github 开源项目

2 个月前

100天机器学习编码挑战：踏上人工智能之旅

2 个月前

本文详细介绍了#100DaysofMLCode挑战,这是一项旨在帮助编程者系统学习机器学习和人工智能的活动。文章分享了参与挑战的方法、学习路径和资源,以及参与者的经验与收获。

机器学习数据预处理回归分类聚类 Github 开源项目

2 个月前

CBTM: 一种新型的大规模语言模型训练方法

2 个月前

CBTM(Cluster-Branch-Train-Merge)是一种创新的语言模型训练方法,通过无监督领域发现和专家模型训练来扩展语言模型能力。本文详细介绍了CBTM的原理、实现流程和评估结果。

c-BTM 语言模型聚类专家模型评估 Github 开源项目

2 个月前

TEXTOIR: 开创性的文本开放意图识别平台

2 个月前

TEXTOIR是首个集成化的文本开放意图识别平台,为研究人员提供了便捷的工具包来复现最新的开放分类和聚类方法。该平台包含开放意图检测和开放意图发现两大模块,集成了多种最先进的算法和基准数据集,为文本开放意图识别领域的研究提供了重要支持。

TEXTOIR 意图识别开放集分类聚类自然语言处理 Github 开源项目

2 个月前

dtaidistance: 高效的动态时间规整算法实现

2 个月前

dtaidistance是一个用于时间序列距离计算的Python库,提供了高效的动态时间规整(DTW)算法实现。本文将介绍该库的主要功能、使用方法及其在时间序列分析中的应用。

时间序列动态时间规整 DTW 距离计算聚类 Github 开源项目

2 个月前

UMAP: 一种强大的无监督降维和数据可视化技术

2 个月前

UMAP (Uniform Manifold Approximation and Projection) 是一种新型的降维算法,可用于数据可视化和通用非线性降维。它在保持数据全局结构的同时,还能高效处理大规模高维数据集,成为近年来机器学习和数据科学领域备受关注的技术。

UMAP 降维数据可视化机器学习聚类 Github 开源项目

2 个月前

相关项目

faiss

Faiss是一个开源的高性能向量搜索和聚类库，专为大规模数据集设计。它支持多种索引方法，能够在搜索速度、结果质量和内存使用之间实现平衡。Faiss适用于推荐系统、图像检索等机器学习应用，可处理从小型到超大规模的向量数据。该库由Meta AI研究团队开发，提供C++和Python接口，支持CPU和GPU计算，为高维向量处理提供了高效解决方案。

umap

UMAP是一种高效的非线性降维和数据可视化算法。它能处理大规模高维数据,支持多种距离度量,可用于监督和半监督学习。UMAP在保持数据全局结构方面表现优异,运行速度快,理论基础扎实。该项目还包含densMAP功能,可在降维同时保留局部密度信息。作为t-SNE的有力替代,UMAP适用于多种机器学习场景。

Lilac

Lilac是一款专为大型语言模型(LLM)数据质量提升设计的分析工具。它集成了数据搜索、量化和编辑功能，提供语义聚类、关键词检索和字段比较等分析方法。Lilac可在20分钟内完成百万级数据点的聚类和标题生成，每分钟可嵌入5亿个标记，实现快速处理大规模数据集、识别数据概念，并筛选适合特定任务的数据。此外，Lilac还支持PII检测和重复数据识别等特性。凭借高效的数据处理能力和直观的操作界面，Lilac成为数据科学家和AI从业者优化产品的重要助手。

cbtm

Cluster-Branch-Train-Merge (c-BTM)项目提出了一种通过无监督领域发现技术扩展专家语言模型的方法。该项目包含完整的训练评估流程，涵盖数据准备、聚类、模型训练和评估等步骤。c-BTM旨在提升大规模语言模型在特定领域的性能，为自然语言处理研究提供新思路。

dtaidistance

dtaidistance是一个高效的时间序列距离计算Python库。它提供纯Python和优化的C实现,支持动态时间规整(DTW)等算法。该库与NumPy和Pandas兼容,避免了不必要的数据复制。支持多维时间序列、子序列搜索和聚类。dtaidistance为时间序列分析和机器学习提供了快速的距离计算工具,是处理时序数据的理想选择。

100DaysofMLCode

100DaysofMLCode是一个为期100天的机器学习编程挑战项目，涵盖数据预处理、回归、分类、聚类、强化学习、自然语言处理和深度学习等主题。项目提供代码示例和日志记录，适合不同水平的开发者学习和实践机器学习技术。作为开源项目，它欢迎社区贡献。

TEXTOIR

TEXTOIR是一个专注于开放式意图检测和发现的综合工具包。它集成了最新算法,提供可扩展接口和统一数据设置,便于研究人员进行公平可复现的实验。该项目支持多个基准数据集,持续更新模型和方法,并配有可视化平台。TEXTOIR致力于推动文本开放意图识别领域的研究进展。

ml_hacks

ml_hacks项目是一个机器学习资源库，收录了多种算法实现和教程。内容涵盖参数调优、集成学习、异常检测等实践示例，以及机器学习入门、数据分析等基础教程。项目还包括核方法、类别不平衡等专题研究，并提供深度学习和PyTorch相关材料，适合不同水平的学习者参考。

使用协议隐私政策广告服务

投诉举报邮箱: service@vectorlightyear.com