Project Icon

ollama-ebook-summary

基于Python的电子书摘要生成工具

ollama-ebook-summary是一个基于Python的开源项目,用于生成电子书和长文本的要点摘要。该工具可自动提取章节,将内容分割成小块,并利用大语言模型生成摘要。支持epub和pdf格式,兼容Ollama和Hugging Face模型。除生成摘要外,还能针对文本特定部分回答问题,适用于快速浏览大量研究论文或书籍。

要点笔记书籍摘要

使用工具:Python 3.11.9

您可以查看已弃用的演练和排名,了解我在LLM方面的一些学习过程以及我如何做出某些决定。

注意:这段代码是我在开始开发网页应用程序(即将推出)时分叉出来的原型。因此,它并不是很完善,只是能够正常工作!

要点笔记摘要

这个项目为书籍和其他长文本(特别是包含目录元数据的epub和pdf)创建要点笔记摘要。

当电子书包含适当的元数据时,我们可以轻松地自动从大多数书籍中提取章节,并将它们分割成约2000个标记的块,如果您的文档没有这些内容,还有备用方案。

主要思路

这个项目的主要思路是,我们不想一次性与整个文档对话,而是将其分割成许多小块,并对这些小块提问,以提高响应的精细度。我们不想要整本书的一页摘要,而是想要书中每个小节的摘要。此外,我们可以对这些部分提出任意问题。对文本的每个部分提出相同的问题,而不是一次性对整个文本提一个问题。

目录

使用工具

Ollama.com:

Huggingface.co:

使用说明

  1. pip install requirements.txt
  2. python3 book2text.py ebook_name.{epub|pdf} -> ebook_name_processed.csv
  3. python3 sum.py model_name ebook_name_processed.csv -> ebook_name_processed_sum.md
  4. 更新sum.py以更改问题并使用您喜欢的非要点笔记模型
  • python3 sum.py obook_summary ebook_name_processed.csv

sum.py:

def process_file(input_file, model):
    prompt = "根据提供的文本写出全面的要点笔记。"
    ptitle = "用少于20个字简洁地描述这段文字,不要加前缀或任何进一步解释"

模型

您可以直接从ollama获取这些模型。

示例: ollama pull obook_summary:q5_k_m

模型文件

Mistral Bulleted Notes

FROM Mistral-7B-Instruct-v0.3.Q8_0.gguf
TEMPLATE """
<|im_start|>system
<|im_start|>user
{{ .Prompt }} <|im_end|>
<|im_start|>assistant
{{ .Response }}<|im_end|>
"""
PARAMETER num_ctx 8000
PARAMETER num_gpu -1
PARAMETER num_predict 4000
PARAMETER stop <|im_start|>
PARAMETER stop <|im_end|>

Mtitle

来自 Mistral-7B-Instruct-v0.3.Q8_0.gguf
模板 """<s>[INST]```这种对颅神经多方面作用的新认识,特别是它们与社交互动状态的联系,使我能够持续帮助更多人解决更广泛的健康问题。我只需要确定这五条颅神经是否运作良好,如果不是,就使用一种技术来改善它们的功能。这使我能在实践中取得更大的成功,并能治疗一些顽固的症状,如偏头痛、抑郁症、纤维肌痛、慢性阻塞性肺病、创伤后应激障碍、前倾头姿势以及颈肩问题等。本书是迷走神经多重理论治疗的理论和实践入门。在描述了基本神经结构后,我将列出一些由这五条颅神经功能障碍引起的身体、心理和社交问题。根据迷走神经多重理论,除了迷走神经腹侧分支的功能外,自主神经系统还有两个其他功能:迷走神经背侧分支的活动,以及脊柱链的交感活动。迷走神经的这种多重(poly-)特性给予了这个理论其名称。迷走神经腹侧和背侧分支功能的差异对身体和行为健康以及治疗有深远的影响。贯穿全书,我提出了一种新的治疗方法,包括易学易用的自助练习和手动治疗技巧。我希望这些知识能继续传播,让更多人能够帮助自己和他人。恢复社交互动 我写这本书是为了让恢复迷走神经功能的益处能惠及更广泛的人群,即使他们没有颅骶疗法或其他手动治疗的经验。读者可以学习一套独特的、易学易做的自助练习和手动技巧,这些应该能够帮助他们改善自己和他人这五条神经的功能。我利用 Alain Gehin 工作背后的原理开发了这些技巧。这些练习和技巧能恢复自主神经系统功能的灵活性。它们可以帮助消除慢性压力的普遍不良状况(源于脊柱交感神经链的过度刺激),以及抑郁行为和封闭状态(源于背侧迷走神经回路的活动)。这些练习是非侵入性的,不涉及药物或手术。``` \n反引号之间的内容是一本书的章节的一部分,写一个简短的标题。只写一个标题,不要加前缀或解释。[/INST]通过颅神经技术恢复自主神经平衡</s>[INST] {{ .Prompt }} [/INST]"""
参数 num_ctx 8000
参数 num_predict 4000
参数 num_gpu -1

检查你的电子书是否有可点击的目录。

在这里你可以看到如何检查你的电子书是否有正确的格式。对于 ePub 格式,即使失败也应该能优雅地处理

Firefox

图片

Brave

图片

其他用例

任意查询

一旦将书籍分割成我们的语言模型可以推理的块,我们就为每个块创建一个项目符号注释摘要。最终结果是一个 Markdown 文档,即使对于一本 1000 页的书,其内容也可以在几个小时内审阅完毕。

此外,一旦分块,就可以对文档提出任意问题,比如"这段文字回答了哪些问题?"* 这在研究中非常有价值,当我想快速审阅许多研究论文时,我可以询问"这段文字提出了什么论点?"并直接了解研究的要点。

一旦我对上百篇论文运行了这个应用,我就可以快速筛选出对我没用的论文。

灵感来源

这个应用的灵感来源于我想手动总结十几本书,以便将它们讨论的心理学理论和实践联系起来,并基于这些信息提出一个连贯的论点。

我已经多次阅读了这些书,但现在我需要方便地获取其中的信息,以便以连贯的方式向他人阐述。

最初,在手动进行这个项目一周后,我只完成了第一本书的几个章节,我意识到这将需要很长时间。

在接下来的 6 个月里,我开始学习如何使用语言模型,发现哪些最适合我的任务,并进行微调以在结果中实现生产质量的一致性。

现在有了这个工具,我能够更快地审阅更多的材料。这是一个内容策划工具,它不仅使我能够学习新知识,还能更轻松地分享这些知识,而不必花费大量时间来创造高质量的内容。

此外,它可以用来根据你投入的任何源材料创建自定义数据集。

项目侧边栏1项目侧边栏2
推荐项目
Project Cover

豆包MarsCode

豆包 MarsCode 是一款革命性的编程助手,通过AI技术提供代码补全、单测生成、代码解释和智能问答等功能,支持100+编程语言,与主流编辑器无缝集成,显著提升开发效率和代码质量。

Project Cover

AI写歌

Suno AI是一个革命性的AI音乐创作平台,能在短短30秒内帮助用户创作出一首完整的歌曲。无论是寻找创作灵感还是需要快速制作音乐,Suno AI都是音乐爱好者和专业人士的理想选择。

Project Cover

有言AI

有言平台提供一站式AIGC视频创作解决方案,通过智能技术简化视频制作流程。无论是企业宣传还是个人分享,有言都能帮助用户快速、轻松地制作出专业级别的视频内容。

Project Cover

Kimi

Kimi AI助手提供多语言对话支持,能够阅读和理解用户上传的文件内容,解析网页信息,并结合搜索结果为用户提供详尽的答案。无论是日常咨询还是专业问题,Kimi都能以友好、专业的方式提供帮助。

Project Cover

阿里绘蛙

绘蛙是阿里巴巴集团推出的革命性AI电商营销平台。利用尖端人工智能技术,为商家提供一键生成商品图和营销文案的服务,显著提升内容创作效率和营销效果。适用于淘宝、天猫等电商平台,让商品第一时间被种草。

Project Cover

吐司

探索Tensor.Art平台的独特AI模型,免费访问各种图像生成与AI训练工具,从Stable Diffusion等基础模型开始,轻松实现创新图像生成。体验前沿的AI技术,推动个人和企业的创新发展。

Project Cover

SubCat字幕猫

SubCat字幕猫APP是一款创新的视频播放器,它将改变您观看视频的方式!SubCat结合了先进的人工智能技术,为您提供即时视频字幕翻译,无论是本地视频还是网络流媒体,让您轻松享受各种语言的内容。

Project Cover

美间AI

美间AI创意设计平台,利用前沿AI技术,为设计师和营销人员提供一站式设计解决方案。从智能海报到3D效果图,再到文案生成,美间让创意设计更简单、更高效。

Project Cover

AIWritePaper论文写作

AIWritePaper论文写作是一站式AI论文写作辅助工具,简化了选题、文献检索至论文撰写的整个过程。通过简单设定,平台可快速生成高质量论文大纲和全文,配合图表、参考文献等一应俱全,同时提供开题报告和答辩PPT等增值服务,保障数据安全,有效提升写作效率和论文质量。

投诉举报邮箱: service@vectorlightyear.com
@2024 懂AI·鲁ICP备2024100362号-6·鲁公网安备37021002001498号