项目介绍:pyresparser
pyresparser 是一个用于从简历中提取信息的简单解析工具,为广泛使用的快速便捷的处理方案由热爱技术与咖啡的 Omkar Pathak 构建。
功能特点
pyresparser 提供了一系列强大的功能,能够有效提取出以下信息:
- 姓名
- 电子邮件
- 手机号码
- 技能
- 总经验
- 大学名称
- 学位
- 职称
- 公司名称
安装流程
安装 pyresparser 非常简单,可以通过以下命令完成安装:
pip install pyresparser
此外,该项目使用了 spaCy 和 nltk 进行自然语言处理(NLP),可以通过以下命令进行安装:
# 安装 spaCy
python -m spacy download en_core_web_sm
# 安装 nltk
python -m nltk.downloader words
python -m nltk.downloader stopwords
支持的文件格式
pyresparser 支持在所有操作系统上处理 PDF 和 DOCx 格式的简历文件。若需解析 DOC 格式的文件,只需为操作系统(Linux 或 MacOS)安装 textract
即可实现兼容。
使用方法
在 Python 项目中使用 pyresparser 非常简单,以下是一个示例代码:
from pyresparser import ResumeParser
data = ResumeParser('/path/to/resume/file').get_extracted_data()
命令行界面 (CLI)
pyresparser 提供了一个命令行界面,可以用于简历信息的提取:
usage: pyresparser [-h] [-f FILE] [-d DIRECTORY] [-r REMOTEFILE]
[-re CUSTOM_REGEX] [-sf SKILLSFILE] [-e EXPORT_FORMAT]
可选参数说明:
-f FILE, --file FILE 需要提取的简历文件
-d DIRECTORY, --directory DIRECTORY 包含需要提取的所有简历的目录
-r REMOTEFILE, --remotefile REMOTEFILE 需要提取的简历文件的远程路径
-re CUSTOM_REGEX, --custom-regex CUSTOM_REGEX 定制的正则表达式,用于解析手机号码
-sf SKILLSFILE, --skillsfile SKILLSFILE 定制技能 CSV 文件,用于技能匹配
-e EXPORT_FORMAT, --export-format EXPORT_FORMAT 信息导出格式(如 json)
注意事项
在 Windows 系统上运行该应用时只能提取 .docs
和 .pdf
文件。
输出结果
使用 pyresparser 提取出的信息将以字典对象列表的形式呈现,示例如下:
[
{
'college_name': ['Marathwada Mitra Mandal’s College of Engineering'],
'company_names': None,
'degree': ['B.E. IN COMPUTER ENGINEERING'],
'designation': ['Manager', 'TECHNICAL CONTENT WRITER', 'DATA ENGINEER'],
'email': 'omkarpathak27@gmail.com',
'mobile_number': '8087996634',
'name': 'Omkar Pathak',
'no_of_pages': 3,
'skills': ['Operating systems', 'Linux', 'Github', 'Testing', 'Content', 'Automation', 'Python', 'Css', 'Website', 'Django', 'Opencv', 'Programming', 'C', ...],
'total_experience': 1.83
}
]
参考和鸣谢
该项目的一些核心概念来自 Language_Processing 项目,作者 Priya 在信息提取领域的分享功不可没。在此特别感谢 dataturks 提供了其标注的数据集。
捐赠
如果你发现了该软件的价值,并愿意支持作者 Omkar Pathak 创作更多软件,可以通过 PayPal 或 INR 捐款。
pyresparser 是一个简单而高效的简历信息解析工具,方便用户快速有效地处理简历信息,从而节省大量时间与精力。