将任意arxiv.org链接前置'talk2'以将论文加载到响应式RAG聊天应用程序中(例如www.arxiv.org/pdf/1706.03762.pdf -> www.talk2arxiv.org/pdf/1706.03762.pdf)。
Talk2Arxiv是一个专门为学术论文PDF构建的开源RAG(检索增强生成)系统。由talk2arxiv-server驱动。
安装
只需运行yarn
,然后运行yarn run dev
。
特性
- PDF解析:利用GROBID实现高效的PDF文本提取。
- 分块算法:自定义算法,实现最佳文本分块。按逻辑部分(介绍、摘要、作者等)分块,并利用递归细分分块(按512字符、然后256、再128字符...)。
- 文本嵌入:使用Cohere的EmbedV3模型来实现精确的文本嵌入。
- 向量数据库集成:使用Qdrant存储和查询嵌入。这也可以缓存研究论文,因此一篇论文只需要嵌入一次。
- 上下文相关性:通过重新排序过程选择基于用户输入的最相关内容。
使用技术
前端:使用Typescript、ReactJS、TailwindCSS和NextJS开发。 后端:由talk2arxiv-server驱动,使用Flask、Gunicorn和Nginx。
路线图
- 改进的分块策略
- 切换到提取源LaTeX代码,以提高符号数学公式和非标准文本元素的检索效果
- 还使用视觉理解LLM模型
- 基于账户的个性化
已知问题
- 后端无法处理任何级别的扩展,在大量并发请求时,它会因单线程处理而停滞。