Logo

#聚类

ML Hacks: 机器学习实用技巧与最佳实践

2 个月前
Cover of ML Hacks: 机器学习实用技巧与最佳实践

100天机器学习编码挑战:踏上人工智能之旅

2 个月前
Cover of 100天机器学习编码挑战:踏上人工智能之旅

CBTM: 一种新型的大规模语言模型训练方法

2 个月前
Cover of CBTM: 一种新型的大规模语言模型训练方法

TEXTOIR: 开创性的文本开放意图识别平台

2 个月前
Cover of TEXTOIR: 开创性的文本开放意图识别平台

dtaidistance: 高效的动态时间规整算法实现

2 个月前
Cover of dtaidistance: 高效的动态时间规整算法实现

UMAP: 一种强大的无监督降维和数据可视化技术

2 个月前
Cover of UMAP: 一种强大的无监督降维和数据可视化技术

相关项目

Project Cover
faiss
Faiss是一个开源的高性能向量搜索和聚类库,专为大规模数据集设计。它支持多种索引方法,能够在搜索速度、结果质量和内存使用之间实现平衡。Faiss适用于推荐系统、图像检索等机器学习应用,可处理从小型到超大规模的向量数据。该库由Meta AI研究团队开发,提供C++和Python接口,支持CPU和GPU计算,为高维向量处理提供了高效解决方案。
Project Cover
umap
UMAP是一种高效的非线性降维和数据可视化算法。它能处理大规模高维数据,支持多种距离度量,可用于监督和半监督学习。UMAP在保持数据全局结构方面表现优异,运行速度快,理论基础扎实。该项目还包含densMAP功能,可在降维同时保留局部密度信息。作为t-SNE的有力替代,UMAP适用于多种机器学习场景。
Project Cover
Lilac
Lilac是一款专为大型语言模型(LLM)数据质量提升设计的分析工具。它集成了数据搜索、量化和编辑功能,提供语义聚类、关键词检索和字段比较等分析方法。Lilac可在20分钟内完成百万级数据点的聚类和标题生成,每分钟可嵌入5亿个标记,实现快速处理大规模数据集、识别数据概念,并筛选适合特定任务的数据。此外,Lilac还支持PII检测和重复数据识别等特性。凭借高效的数据处理能力和直观的操作界面,Lilac成为数据科学家和AI从业者优化产品的重要助手。
Project Cover
cbtm
Cluster-Branch-Train-Merge (c-BTM)项目提出了一种通过无监督领域发现技术扩展专家语言模型的方法。该项目包含完整的训练评估流程,涵盖数据准备、聚类、模型训练和评估等步骤。c-BTM旨在提升大规模语言模型在特定领域的性能,为自然语言处理研究提供新思路。
Project Cover
dtaidistance
dtaidistance是一个高效的时间序列距离计算Python库。它提供纯Python和优化的C实现,支持动态时间规整(DTW)等算法。该库与NumPy和Pandas兼容,避免了不必要的数据复制。支持多维时间序列、子序列搜索和聚类。dtaidistance为时间序列分析和机器学习提供了快速的距离计算工具,是处理时序数据的理想选择。
Project Cover
100DaysofMLCode
100DaysofMLCode是一个为期100天的机器学习编程挑战项目,涵盖数据预处理、回归、分类、聚类、强化学习、自然语言处理和深度学习等主题。项目提供代码示例和日志记录,适合不同水平的开发者学习和实践机器学习技术。作为开源项目,它欢迎社区贡献。
Project Cover
TEXTOIR
TEXTOIR是一个专注于开放式意图检测和发现的综合工具包。它集成了最新算法,提供可扩展接口和统一数据设置,便于研究人员进行公平可复现的实验。该项目支持多个基准数据集,持续更新模型和方法,并配有可视化平台。TEXTOIR致力于推动文本开放意图识别领域的研究进展。
Project Cover
ml_hacks
ml_hacks项目是一个机器学习资源库,收录了多种算法实现和教程。内容涵盖参数调优、集成学习、异常检测等实践示例,以及机器学习入门、数据分析等基础教程。项目还包括核方法、类别不平衡等专题研究,并提供深度学习和PyTorch相关材料,适合不同水平的学习者参考。
投诉举报邮箱: service@vectorlightyear.com
@2024 懂AI·鲁ICP备2024100362号-6·鲁公网安备37021002001498号