#相似度计算

Synonyms - 中文近义词自然语言处理工具包
Synonyms中文近义词自然语言处理相似度计算分词Github开源项目
Synonyms是一个开源的中文近义词工具包,用于自然语言处理任务。它支持文本对齐、相似度计算、语义偏移和关键词提取等功能。该工具包基于大规模词向量模型,覆盖43万余词汇,适用于聊天机器人、问答系统、推荐系统等场景。Synonyms提供词语和句子相似度计算API,可用于多种NLP应用。
textdistance - Python文本距离和相似度计算库
TextDistancePython库字符串比较算法相似度计算Github开源项目
TextDistance是一个计算序列距离和相似度的Python库。它实现了30多种算法,包括编辑距离、基于令牌、基于序列、基于压缩和语音等类型。该库支持纯Python实现,可比较多个序列,并提供NumPy加速选项。TextDistance接口简单灵活,适用于各种文本分析和字符串比较任务。
geocoding - Java地址标准化与相似度计算库
地理编码地址标准化相似度计算行政区域地址解析Github开源项目
Geocoding是一个Java开源库,专注于地址标准化和相似度计算。它可以将不规范的文本地址标准化,并计算地址间的相似度。该项目采用国家标准地址库,结合倒排索引和最大长度优先匹配等技术,实现高效准确的地址处理。Geocoding使用IK Analyzer进行分词,采用余弦相似度算法计算地址相似度。它支持自定义地址文件和设置,适用于物流、电商等需要大规模地址数据处理的领域。
PolyFuzz - 多功能模糊字符串匹配与评估框架
PolyFuzz字符串匹配模糊匹配相似度计算自然语言处理Github开源项目
PolyFuzz是一个综合性Python库,整合了多种字符串匹配技术,包括编辑距离、TF-IDF、词嵌入和Transformer模型。该框架提供模糊字符串匹配、分组和评估功能,支持自定义模型和生产环境部署。PolyFuzz还具备可视化能力,通过精确率-召回率曲线展示不同模型的性能比较。其简洁API设计使得开发者能够轻松实现复杂的字符串处理任务。
RecSys_Course_AT_PoliMi - 推荐系统算法库与评估框架
推荐系统机器学习协同过滤矩阵分解相似度计算Github开源项目
该项目提供多种推荐系统算法实现,包括协同过滤KNN、矩阵分解和图模型等。框架集成了评估模块、数据处理功能,便于快速构建和测试推荐系统。采用Python和Cython开发,注重性能优化,适合推荐系统的教学与研究使用。
vec4ir - 基于词嵌入的开源信息检索框架
Vec4IR信息检索词嵌入评估框架相似度计算Github开源项目
Vec4IR是一个开源的信息检索框架,专注于实际应用场景。它原生支持词嵌入技术,与gensim无缝集成。框架提供内置评估功能,API设计参考sklearn,便于扩展新模型。核心组件包括匹配和相似度评分,还支持查询扩展等高级特性。Vec4IR适合研究人员评估检索模型,也可帮助数据科学家选择最佳方案。框架核心功能包括文档匹配和相似度评分。它还提供查询扩展、伪相关反馈等高级特性,可满足复杂的检索需求。Vec4IR采用模块化设计,便于研究人员快速实现和评估新的检索算法。对于数据科学家,该框架也是比较不同检索模型性能的理想工具。
NoInstruct-small-Embedding-v0 - 小型嵌入模型在MTEB基准测试中展现卓越性能
模型文本分类嵌入模型相似度计算Githubsentence-transformersHuggingface开源项目信息检索
NoInstruct-small-Embedding-v0是一个小型嵌入模型,在MTEB基准测试中展现出优秀性能。该模型在文本相似度、分类和检索任务上表现突出,特别是在亚马逊评论分类中。基于sentence-transformers库开发,支持特征提取、句子相似度计算等多种NLP任务。在多个数据集上的出色表现体现了其在实际应用中的潜力。
gte-small - 基于ONNX权重的Transformers.js模型嵌入及余弦相似度计算
Github开源项目特征提取相似度计算JavaScriptHuggingfaceTransformers.jsONNX模型
本项目介绍了使用ONNX权重与Transformers.js库计算模型嵌入和余弦相似度的过程。通过安装Transformers.js库,可以轻松地创建特征提取管道,并进行句子嵌入和相似度计算。项目默认采用8位量化模型,同时支持全精度版本。ONNX模型为未来的WebML应用做好了准备,建议通过Optimum工具进行ONNX格式转换以实现网络兼容。