项目介绍:ArxivDigest
ArxivDigest 项目旨在为科研人员提供一个个性化的每天更新的 arXiv 论文摘要服务,利用大语言模型(LLM)根据用户的研究兴趣和自然语言描述进行相关性评分,让用户更轻松地获取与自己研究方向相关的新论文。
项目背景
arXiv 是一个提供众多学科论文的开放性存储平台,其中每天都有大量的新论文发布。为了跟上这一庞大信息流,研究人员通常需要花费大量时间阅读并筛选出对自己有用的论文。虽然 arXiv 提供了官方的每日摘要服务,但对于如计算机科学中的人工智能这样的大类,每天可能有50到100篇论文出版,人工判断其是否相关非常耗时。
为了更高效地筛选论文,ArxivDigest 项目利用大语言模型,从用户定义的研究兴趣出发,首先对论文进行相关性评分,然后生成每日摘要,甚至可以通过电子邮件通知用户。
如何使用 ArxivDigest
-
运行 GitHub Action(推荐):
- 用户可以通过分叉(fork)本项目到自己的 GitHub 账户,并在
config.yaml
文件中填写自己的研究兴趣和 arXiv 主题类目。 - 设置必要的 API 密钥(OpenAI 和 SendGrid)以及发送和接收邮件的地址。
- 手动触发或等待自动触发 GitHub Action 来获取每日摘要。
- 用户可以通过分叉(fork)本项目到自己的 GitHub 账户,并在
-
通过用户界面(UI)运行:
- 安装项目所需的依赖并启动本地服务器,然后通过浏览器访问本地链接以查看和生成论文摘要。
- 使用
.env
文件来存储 API 密钥和电子邮件信息,注意不要将.env
文件上传到版本控制系统中。
项目特色与演示
在 Hugging Face 上提供了一个演示版本,用户可以通过 OpenAI API Key 在其上进行个性化配置,并查看相应的论文推荐结果。
实例结果
-
某一配置实例:
- 主题/领域:计算机科学
- 类别:人工智能、计算与语言
- 兴趣点:大型语言模型的预训练与微调、多模态机器学习,对特定应用(如信息抽取、摘要)无兴趣,也不关心关注特定语言的论文。
-
生成的结果:展示相关论文的一个清单,使用户直接从相关性最高的论文中开始阅读。
项目未来计划
- 增强个性化推荐功能。
- 提供更多邮件发送服务的选项。
- 研发一个能够优先排序特定作者内容的功能。
- 支持使用开源模型进行推荐,如 LLaMA, Vicuna 等。
- 对开源模型进行微调,以更好支持论文排名并保持与最新研究概念的一致。
如何参与与贡献
用户可以根据自身需求对项目代码进行修改,若这些修改对他人也可能有帮助,欢迎提交 Pull Request,以便和更广泛的社区分享。修改内容可以包括提示词的变化、不同语言模型的使用或是摘要的递送方式等。
ArxivDigest 项目通过提供使用大语言模型进行个性化论文推荐的工具,有效节省研究人员筛选论文的时间,让研究人员将更多精力专注于研究工作。