paperetl
paperetl是一个处理医学和科学论文的ETL库,支持PDF、XML、CSV等多种输入格式和COVID-19研究数据集。可将处理后的文章数据输出至SQLite、Elasticsearch、JSON或YAML文件。该工具安装简便,提供详细示例,有助于研究人员高效管理和分析大量学术文献。