项目概述
PatentSBERTa是一个基于深度自然语言处理(NLP)的混合模型,专门用于专利距离计算和专利分类。该项目由奥尔堡大学商学院AI: Growth-Lab开发,是在SBERT(Sentence-BERT)基础上的创新性扩展应用。
技术特点
该模型具有以下主要特点:
- 能够将句子和段落映射为768维的密集向量空间
- 基于sentence-transformers框架开发
- 采用MPNet作为底层Transformer模型
- 支持最大512个词元的序列长度
- 使用CLS令牌池化方式进行句子表示
应用场景
PatentSBERTa主要应用于:
- 专利文本的语义相似度计算
- 专利文档的聚类分析
- 专利检索和分类
- 专利创新性分析
使用方法
该模型提供了两种使用方式:
- 通过sentence-transformers库使用:
- 安装简单,只需通过pip安装sentence-transformers
- 代码实现简洁,几行代码即可完成文本编码
- 适合快速开发和原型验证
- 通过HuggingFace Transformers库使用:
- 提供更底层的实现方式
- 允许更灵活的自定义配置
- 适合深度开发和性能优化
训练细节
模型训练采用了以下关键配置:
- 批次大小为16
- 使用AdamW优化器
- 学习率为2e-05
- 采用余弦相似度损失函数
- 包含100步的预热训练
- 使用权重衰减防止过拟合
学术价值
该项目已发表于arXiv预印本平台,为专利分析领域提供了创新的解决方案。该模型通过结合深度学习和自然语言处理技术,为专利研究和分析提供了更准确和高效的工具。
开源贡献
项目完全开源,托管在GitHub平台,欢迎研究人员和开发者参与贡献。模型预训练权重可通过HuggingFace模型仓库直接获取,便于社区使用和改进。