DOM转语义化Markdown
这个库将HTML DOM转换为优化用于大型语言模型(LLMs)的语义化Markdown格式。它保留了网页内容的语义结构,提取重要元数据,并与原始HTML相比减少了token使用量,使LLMs更容易理解和处理信息。
主要特性
- 语义结构保留: 保留
<header>
、<footer>
、<nav>
等HTML元素的含义。 - 元数据提取: 捕获重要元数据,如标题、描述、关键词、Open Graph标签、Twitter Card标签和JSON-LD数据。
- Token效率: 通过URL引用和内容的简洁表示优化token使用。
- 主要内容检测: 自动识别和提取网页的主要内容部分。
- 表格列跟踪: 为表格列添加唯一标识符,提高LLM关联各行数据的能力。
特殊功能示例
以下是使用CLI工具展示该库特殊功能的示例:
1. 简单内容提取:
npx d2m@latest -u https://xkcd.com
此命令获取https://xkcd.com
并将其转换为Markdown
点击查看输出
- [存档](/archive)
- [What If?](https://what-if.xkcd.com/)
- [关于](/about)
- [Feed](/atom.xml) · [邮件](/newsletter/)
- [TW](https://twitter.com/xkcd/) · [FB](https://www.facebook.com/TheXKCD/)
· [IG](https://www.instagram.com/xkcd/)
- [-书籍-](/books/)
- [What If? 2](/what-if-2/)
- [WI?](/what-if/) · [TE](/thing-explainer/) · [HT](/how-to/)
<a href="/">![xkcd.com标志](https://raw.githubusercontent.com/romansky/dom-to-semantic-markdown/main//s/0b7742.png)</a> 一部关于浪漫、
讽刺、数学和语言的网络漫画。[WHAT IF?十周年特别版](https://xkcd.com/what-if/)——修订并
附加全新插图和对你从未想过要问的重要问题的回答——将于
2024年11月发布。[点此](https://bit.ly/WhatIf10th)预订!考试编号
- [|<](/1/)
- [< 上一篇](/2965/)
- [随机](//c.xkcd.com/random/comic/)
- [下一篇 >](about:blank#)
- [>|](/)
![考试编号](https://raw.githubusercontent.com/romansky/dom-to-semantic-markdown/main///imgs.xkcd.com/comics/exam_numbers.png)
- [|<](/1/)
- [< 上一篇](/2965/)
- [随机](//c.xkcd.com/random/comic/)
- [下一篇 >](about:blank#)
- [>|](/)
此漫画的永久链接:[https://xkcd.com/2966/](https://xkcd.com/2966)
图片URL(用于
热链接/嵌入):[https://imgs.xkcd.com/comics/exam_numbers.png](https://imgs.xkcd.com/comics/exam_numbers.png)![精选漫画](https://raw.githubusercontent.com/romansky/dom-to-semantic-markdown/main///imgs.xkcd.com/s/a899e84.jpg)
<a href="//xkcd.com/1732/">![地球温度时间线](https://raw.githubusercontent.com/romansky/dom-to-semantic-markdown/main///imgs.xkcd.com/s/temperature.png)</a>
[RSS Feed](/rss.xml) - [Atom Feed](/atom.xml) - [邮件](/newsletter/)
我喜欢的漫画:
[Three Word Phrase](http://threewordphrase.com/)、[SMBC](https://www.smbc-comics.com/)、[Dinosaur Comics](https://www.qwantz.com/)、[Oglaf](https://oglaf.com/)(
不适合工作场合)、[A Softer World](https://www.asofterworld.com/)、[Buttersafe](https://buttersafe.com/)、[Perry Bible Fellowship](https://pbfcomics.com/)、[Questionable Content](https://questionablecontent.net/)、[Buttercup Festival](http://www.buttercupfestival.com/)、[Homestuck](https://www.homestuck.com/)、[Junior Scientist Power Hour](https://www.jspowerhour.com/)
其他内容:
[关于技术和政府的建议](https://medium.com/civic-tech-thoughts-from-joshdata/so-you-want-to-reform-democracy-7f3b1ef10597)、
[气候FAQ](https://www.nytimes.com/interactive/2017/climate/what-is-climate-change.html)、[Katharine Hayhoe](https://twitter.com/KHayhoe)
xkcd.com最佳浏览体验:使用Netscape Navigator 4.0或更低版本,在Apple IIGS上用JavaScript模拟的Pentium 3±1处理器,
屏幕分辨率为1024x1。请启用广告拦截器,禁用高温烘干,并将设备从飞行模式切换到船舶模式。出于安全考虑,浏览时请保持大写锁定。本作品采用
[知识共享署名-非商业性使用 2.5 许可协议](https://creativecommons.org/licenses/by-nc/2.5/)授权。
一部关于浪漫、 讽刺、数学和语言的网络漫画。《如果呢?》十周年特别版——修订并 添加全新插图和回答你从未想过要问的重要问题——将于 2024年11月推出。在此预订!考试编号
此漫画的永久链接:https://xkcd.com/2966/ 图片URL(用于热链接/嵌入):https://imgs.xkcd.com/comics/exam_numbers.png RSS订阅 - Atom订阅 - 邮件订阅 我喜欢的漫画: Three Word Phrase、SMBC、Dinosaur Comics、Oglaf(不适合工作场所)、A Softer World、Buttersafe、Perry Bible Fellowship、Questionable Content、Buttercup Festival、Homestuck、Junior Scientist Power Hour 其他内容: 关于技术和政府的建议、 气候变化FAQ、Katharine Hayhoe xkcd.com 最佳浏览效果:使用 Netscape Navigator 4.0 或更低版本,在 Apple IIGS 上用 Javascript 模拟的 Pentium 3±1 处理器,屏幕分辨率为 1024x1。请启用广告拦截器,禁用高温烘干,并将设备从飞行模式切换到船舶模式。出于安全考虑,浏览时请保持大写锁定。本作品采用 知识共享署名-非商业性使用 2.5 许可协议授权。
这意味着您可以自由复制和分享这些漫画(但不能出售)。更多详情。
- 使用库提取Markdown内容。
- 以简短的指令或上下文为LLM开头。
- 用三重反引号(```)包裹提取的Markdown。
- 在Markdown后跟上你的问题或提示。
示例:
以下是网页的语义Markdown表示。请分析其内容:
```markdown
{在此处粘贴您提取的markdown}
```
{你的问题,例如,"这篇文章讨论的主要观点是什么?"}
这种格式有助于LLM理解其任务和内容的上下文,从而能够对你的问题做出更准确和相关的回答。
贡献
欢迎贡献!详情请参阅CONTRIBUTING.md文件。
许可
本项目采用MIT许可证。详情请参阅LICENSE文件。