#相似度计算

Vec4IR: 面向信息检索的词嵌入框架

2 个月前

Vec4IR 信息检索词嵌入评估框架相似度计算 Github 开源项目

2 个月前

PolyFuzz: 全面的模糊字符串匹配、分组和评估框架

2 个月前

PolyFuzz 字符串匹配模糊匹配相似度计算自然语言处理 Github 开源项目

2 个月前

米兰理工大学推荐系统课程:培养推荐算法人才的优质资源

2 个月前

推荐系统机器学习协同过滤矩阵分解相似度计算 Github 开源项目

2 个月前

TextDistance: 强大的Python文本距离计算库

2 个月前

TextDistance Python库字符串比较算法相似度计算 Github 开源项目

2 个月前

深入探讨Synonyms:中文近义词工具包的原理与应用

3 个月前

Synonyms 中文近义词自然语言处理相似度计算分词 Github 开源项目

3 个月前

相关项目

Synonyms

Synonyms是一个开源的中文近义词工具包,用于自然语言处理任务。它支持文本对齐、相似度计算、语义偏移和关键词提取等功能。该工具包基于大规模词向量模型,覆盖43万余词汇,适用于聊天机器人、问答系统、推荐系统等场景。Synonyms提供词语和句子相似度计算API,可用于多种NLP应用。

textdistance

TextDistance是一个计算序列距离和相似度的Python库。它实现了30多种算法,包括编辑距离、基于令牌、基于序列、基于压缩和语音等类型。该库支持纯Python实现,可比较多个序列,并提供NumPy加速选项。TextDistance接口简单灵活,适用于各种文本分析和字符串比较任务。

geocoding

Geocoding是一个Java开源库，专注于地址标准化和相似度计算。它可以将不规范的文本地址标准化，并计算地址间的相似度。该项目采用国家标准地址库，结合倒排索引和最大长度优先匹配等技术，实现高效准确的地址处理。Geocoding使用IK Analyzer进行分词，采用余弦相似度算法计算地址相似度。它支持自定义地址文件和设置，适用于物流、电商等需要大规模地址数据处理的领域。

PolyFuzz

PolyFuzz是一个综合性Python库，整合了多种字符串匹配技术，包括编辑距离、TF-IDF、词嵌入和Transformer模型。该框架提供模糊字符串匹配、分组和评估功能，支持自定义模型和生产环境部署。PolyFuzz还具备可视化能力，通过精确率-召回率曲线展示不同模型的性能比较。其简洁API设计使得开发者能够轻松实现复杂的字符串处理任务。

RecSys_Course_AT_PoliMi

该项目提供多种推荐系统算法实现,包括协同过滤KNN、矩阵分解和图模型等。框架集成了评估模块、数据处理功能,便于快速构建和测试推荐系统。采用Python和Cython开发,注重性能优化,适合推荐系统的教学与研究使用。

vec4ir

Vec4IR是一个开源的信息检索框架,专注于实际应用场景。它原生支持词嵌入技术,与gensim无缝集成。框架提供内置评估功能,API设计参考sklearn,便于扩展新模型。核心组件包括匹配和相似度评分,还支持查询扩展等高级特性。Vec4IR适合研究人员评估检索模型,也可帮助数据科学家选择最佳方案。框架核心功能包括文档匹配和相似度评分。它还提供查询扩展、伪相关反馈等高级特性,可满足复杂的检索需求。Vec4IR采用模块化设计,便于研究人员快速实现和评估新的检索算法。对于数据科学家,该框架也是比较不同检索模型性能的理想工具。

NoInstruct-small-Embedding-v0

NoInstruct-small-Embedding-v0是一个小型嵌入模型，在MTEB基准测试中展现出优秀性能。该模型在文本相似度、分类和检索任务上表现突出，特别是在亚马逊评论分类中。基于sentence-transformers库开发，支持特征提取、句子相似度计算等多种NLP任务。在多个数据集上的出色表现体现了其在实际应用中的潜力。

gte-small

本项目介绍了使用ONNX权重与Transformers.js库计算模型嵌入和余弦相似度的过程。通过安装Transformers.js库，可以轻松地创建特征提取管道，并进行句子嵌入和相似度计算。项目默认采用8位量化模型，同时支持全精度版本。ONNX模型为未来的WebML应用做好了准备，建议通过Optimum工具进行ONNX格式转换以实现网络兼容。

使用协议隐私政策广告服务

投诉举报邮箱: service@vectorlightyear.com