要点笔记书籍摘要
使用工具:Python 3.11.9
您可以查看已弃用的演练和排名,了解我在LLM方面的一些学习过程以及我如何做出某些决定。
注意:这段代码是我在开始开发网页应用程序(即将推出)时分叉出来的原型。因此,它并不是很完善,只是能够正常工作!
要点笔记摘要
这个项目为书籍和其他长文本(特别是包含目录元数据的epub和pdf)创建要点笔记摘要。
当电子书包含适当的元数据时,我们可以轻松地自动从大多数书籍中提取章节,并将它们分割成约2000个标记的块,如果您的文档没有这些内容,还有备用方案。
主要思路
这个项目的主要思路是,我们不想一次性与整个文档对话,而是将其分割成许多小块,并对这些小块提问,以提高响应的精细度。我们不想要整本书的一页摘要,而是想要书中每个小节的摘要。此外,我们可以对这些部分提出任意问题。对文本的每个部分提出相同的问题,而不是一次性对整个文本提一个问题。
目录
使用工具
Ollama.com:
Huggingface.co:
- Mistral Instruct Bulleted Notes - HuggingFace上的集合
使用说明
pip install requirements.txt
python3 book2text.py ebook_name.{epub|pdf}
->ebook_name_processed.csv
python3 sum.py model_name ebook_name_processed.csv
->ebook_name_processed_sum.md
- 更新
sum.py
以更改问题并使用您喜欢的非要点笔记模型
python3 sum.py obook_summary ebook_name_processed.csv
sum.py
:
def process_file(input_file, model):
prompt = "根据提供的文本写出全面的要点笔记。"
ptitle = "用少于20个字简洁地描述这段文字,不要加前缀或任何进一步解释"
模型
您可以直接从ollama获取这些模型。
示例: ollama pull obook_summary:q5_k_m
- Mistral Instruct Bulleted Notes - HuggingFace上的集合
- obook_summary - 在Ollama.com上
latest
• 7.7GB • Q_8q2_k
• 2.7GBq3_k_m
• 3.5GBq4_k_m
• 4.4GBq5_k_m
• 5.1GBq6_k
• 5.9GB
- obook_title - 在Ollama.com上
latest
• 7.7GB • Q_8q3_k_m
• 3.5GBq4_k_m
• 4.4GBq5_k_m
• 5.1GBq6_k
• 5.9GB
模型文件
Mistral Bulleted Notes
FROM Mistral-7B-Instruct-v0.3.Q8_0.gguf
TEMPLATE """
<|im_start|>system
<|im_start|>user
{{ .Prompt }} <|im_end|>
<|im_start|>assistant
{{ .Response }}<|im_end|>
"""
PARAMETER num_ctx 8000
PARAMETER num_gpu -1
PARAMETER num_predict 4000
PARAMETER stop <|im_start|>
PARAMETER stop <|im_end|>
Mtitle
来自 Mistral-7B-Instruct-v0.3.Q8_0.gguf
模板 """<s>[INST]```这种对颅神经多方面作用的新认识,特别是它们与社交互动状态的联系,使我能够持续帮助更多人解决更广泛的健康问题。我只需要确定这五条颅神经是否运作良好,如果不是,就使用一种技术来改善它们的功能。这使我能在实践中取得更大的成功,并能治疗一些顽固的症状,如偏头痛、抑郁症、纤维肌痛、慢性阻塞性肺病、创伤后应激障碍、前倾头姿势以及颈肩问题等。本书是迷走神经多重理论治疗的理论和实践入门。在描述了基本神经结构后,我将列出一些由这五条颅神经功能障碍引起的身体、心理和社交问题。根据迷走神经多重理论,除了迷走神经腹侧分支的功能外,自主神经系统还有两个其他功能:迷走神经背侧分支的活动,以及脊柱链的交感活动。迷走神经的这种多重(poly-)特性给予了这个理论其名称。迷走神经腹侧和背侧分支功能的差异对身体和行为健康以及治疗有深远的影响。贯穿全书,我提出了一种新的治疗方法,包括易学易用的自助练习和手动治疗技巧。我希望这些知识能继续传播,让更多人能够帮助自己和他人。恢复社交互动 我写这本书是为了让恢复迷走神经功能的益处能惠及更广泛的人群,即使他们没有颅骶疗法或其他手动治疗的经验。读者可以学习一套独特的、易学易做的自助练习和手动技巧,这些应该能够帮助他们改善自己和他人这五条神经的功能。我利用 Alain Gehin 工作背后的原理开发了这些技巧。这些练习和技巧能恢复自主神经系统功能的灵活性。它们可以帮助消除慢性压力的普遍不良状况(源于脊柱交感神经链的过度刺激),以及抑郁行为和封闭状态(源于背侧迷走神经回路的活动)。这些练习是非侵入性的,不涉及药物或手术。``` \n反引号之间的内容是一本书的章节的一部分,写一个简短的标题。只写一个标题,不要加前缀或解释。[/INST]通过颅神经技术恢复自主神经平衡</s>[INST] {{ .Prompt }} [/INST]"""
参数 num_ctx 8000
参数 num_predict 4000
参数 num_gpu -1
检查你的电子书是否有可点击的目录。
在这里你可以看到如何检查你的电子书是否有正确的格式。对于 ePub 格式,即使失败也应该能优雅地处理。
Firefox
Brave
其他用例
任意查询
一旦将书籍分割成我们的语言模型可以推理的块,我们就为每个块创建一个项目符号注释摘要。最终结果是一个 Markdown 文档,即使对于一本 1000 页的书,其内容也可以在几个小时内审阅完毕。
此外,一旦分块,就可以对文档提出任意问题,比如"这段文字回答了哪些问题?"* 这在研究中非常有价值,当我想快速审阅许多研究论文时,我可以询问"这段文字提出了什么论点?"并直接了解研究的要点。
一旦我对上百篇论文运行了这个应用,我就可以快速筛选出对我没用的论文。
灵感来源
这个应用的灵感来源于我想手动总结十几本书,以便将它们讨论的心理学理论和实践联系起来,并基于这些信息提出一个连贯的论点。
我已经多次阅读了这些书,但现在我需要方便地获取其中的信息,以便以连贯的方式向他人阐述。
最初,在手动进行这个项目一周后,我只完成了第一本书的几个章节,我意识到这将需要很长时间。
在接下来的 6 个月里,我开始学习如何使用语言模型,发现哪些最适合我的任务,并进行微调以在结果中实现生产质量的一致性。
现在有了这个工具,我能够更快地审阅更多的材料。这是一个内容策划工具,它不仅使我能够学习新知识,还能更轻松地分享这些知识,而不必花费大量时间来创造高质量的内容。
此外,它可以用来根据你投入的任何源材料创建自定义数据集。