Project Icon

dom-to-semantic-markdown

HTML DOM到语义化Markdown的智能转换工具

dom-to-semantic-markdown是一款为大型语言模型优化的HTML DOM转换工具。它保留网页内容的语义结构,提取关键元数据,通过URL重构和内容精简降低token使用量。该项目具备主要内容检测和表格列跟踪功能,提升了语言模型处理网页信息的效率。这为开发者提供了一个高效的网页内容语义化解析方案。

DOM转语义化Markdown标志
DOM转语义化Markdown

CI npm版本 许可证: ISC

这个库将HTML DOM转换为优化用于大型语言模型(LLMs)的语义化Markdown格式。它保留了网页内容的语义结构,提取重要元数据,并与原始HTML相比减少了token使用量,使LLMs更容易理解和处理信息。

主要特性

  • 语义结构保留: 保留<header><footer><nav>等HTML元素的含义。
  • 元数据提取: 捕获重要元数据,如标题、描述、关键词、Open Graph标签、Twitter Card标签和JSON-LD数据。
  • Token效率: 通过URL引用和内容的简洁表示优化token使用。
  • 主要内容检测: 自动识别和提取网页的主要内容部分。
  • 表格列跟踪: 为表格列添加唯一标识符,提高LLM关联各行数据的能力。

特殊功能示例

以下是使用CLI工具展示该库特殊功能的示例:

1. 简单内容提取:

npx d2m@latest -u https://xkcd.com

此命令获取https://xkcd.com并将其转换为Markdown

点击查看输出

- [存档](/archive)
- [What If?](https://what-if.xkcd.com/)
- [关于](/about)
- [Feed](/atom.xml)   · [邮件](/newsletter/)
- [TW](https://twitter.com/xkcd/)   · [FB](https://www.facebook.com/TheXKCD/)
  · [IG](https://www.instagram.com/xkcd/)
- [-书籍-](/books/)
- [What If? 2](/what-if-2/)
- [WI?](/what-if/)   · [TE](/thing-explainer/)   · [HT](/how-to/)

<a href="/">![xkcd.com标志](https://raw.githubusercontent.com/romansky/dom-to-semantic-markdown/main//s/0b7742.png)</a> 一部关于浪漫、
讽刺、数学和语言的网络漫画。[WHAT IF?十周年特别版](https://xkcd.com/what-if/)——修订并
附加全新插图和对你从未想过要问的重要问题的回答——将于
2024年11月发布。[点此](https://bit.ly/WhatIf10th)预订!考试编号

- [|<](/1/)
- [< 上一篇](/2965/)
- [随机](//c.xkcd.com/random/comic/)
- [下一篇 >](about:blank#)
- [>|](/)

![考试编号](https://raw.githubusercontent.com/romansky/dom-to-semantic-markdown/main///imgs.xkcd.com/comics/exam_numbers.png)

- [|<](/1/)
- [< 上一篇](/2965/)
- [随机](//c.xkcd.com/random/comic/)
- [下一篇 >](about:blank#)
- [>|](/)

此漫画的永久链接:[https://xkcd.com/2966/](https://xkcd.com/2966)
图片URL(用于
热链接/嵌入):[https://imgs.xkcd.com/comics/exam_numbers.png](https://imgs.xkcd.com/comics/exam_numbers.png)![精选漫画](https://raw.githubusercontent.com/romansky/dom-to-semantic-markdown/main///imgs.xkcd.com/s/a899e84.jpg)
<a href="//xkcd.com/1732/">![地球温度时间线](https://raw.githubusercontent.com/romansky/dom-to-semantic-markdown/main///imgs.xkcd.com/s/temperature.png)</a>
[RSS Feed](/rss.xml) - [Atom Feed](/atom.xml) - [邮件](/newsletter/)
我喜欢的漫画:
[Three Word Phrase](http://threewordphrase.com/)、[SMBC](https://www.smbc-comics.com/)、[Dinosaur Comics](https://www.qwantz.com/)、[Oglaf](https://oglaf.com/)(
不适合工作场合)、[A Softer World](https://www.asofterworld.com/)、[Buttersafe](https://buttersafe.com/)、[Perry Bible Fellowship](https://pbfcomics.com/)、[Questionable Content](https://questionablecontent.net/)、[Buttercup Festival](http://www.buttercupfestival.com/)、[Homestuck](https://www.homestuck.com/)、[Junior Scientist Power Hour](https://www.jspowerhour.com/)
其他内容:
[关于技术和政府的建议](https://medium.com/civic-tech-thoughts-from-joshdata/so-you-want-to-reform-democracy-7f3b1ef10597)、
[气候FAQ](https://www.nytimes.com/interactive/2017/climate/what-is-climate-change.html)、[Katharine Hayhoe](https://twitter.com/KHayhoe)
xkcd.com最佳浏览体验:使用Netscape Navigator 4.0或更低版本,在Apple IIGS上用JavaScript模拟的Pentium 3±1处理器,
屏幕分辨率为1024x1。请启用广告拦截器,禁用高温烘干,并将设备从飞行模式切换到船舶模式。出于安全考虑,浏览时请保持大写锁定。本作品采用
[知识共享署名-非商业性使用 2.5 许可协议](https://creativecommons.org/licenses/by-nc/2.5/)授权。
这意味着你可以自由地复制和分享这些漫画(但不能出售它们)。[更多详情](/license.html)。 - [归档](/archive) - [如果呢?](https://what-if.xkcd.com/) - [关于](/about) - [订阅](/atom.xml) • [邮件](/newsletter/) - [推特](https://twitter.com/xkcd/) • [脸书](https://www.facebook.com/TheXKCD/) • [Instagram](https://www.instagram.com/xkcd/) - [-图书-](/books/) - [如果呢?2](/what-if-2/) - [WI?](/what-if/) • [TE](/thing-explainer/) • [HT](/how-to/)

xkcd.com 标志 一部关于浪漫、 讽刺、数学和语言的网络漫画。《如果呢?》十周年特别版——修订并 添加全新插图和回答你从未想过要问的重要问题——将于 2024年11月推出。在此预订!考试编号

考试编号

此漫画的永久链接:https://xkcd.com/2966/ 图片URL(用于热链接/嵌入):https://imgs.xkcd.com/comics/exam_numbers.png精选漫画 地球温度时间线 RSS订阅 - Atom订阅 - 邮件订阅 我喜欢的漫画: Three Word PhraseSMBCDinosaur ComicsOglaf(不适合工作场所)、A Softer WorldButtersafePerry Bible FellowshipQuestionable ContentButtercup FestivalHomestuckJunior Scientist Power Hour 其他内容: 关于技术和政府的建议气候变化FAQKatharine Hayhoe xkcd.com 最佳浏览效果:使用 Netscape Navigator 4.0 或更低版本,在 Apple IIGS 上用 Javascript 模拟的 Pentium 3±1 处理器,屏幕分辨率为 1024x1。请启用广告拦截器,禁用高温烘干,并将设备从飞行模式切换到船舶模式。出于安全考虑,浏览时请保持大写锁定。本作品采用 知识共享署名-非商业性使用 2.5 许可协议授权。

这意味着您可以自由复制和分享这些漫画(但不能出售)。更多详情

  1. 使用库提取Markdown内容。
  2. 以简短的指令或上下文为LLM开头。
  3. 用三重反引号(```)包裹提取的Markdown。
  4. 在Markdown后跟上你的问题或提示。

示例:

以下是网页的语义Markdown表示。请分析其内容:

```markdown
{在此处粘贴您提取的markdown}
```

{你的问题,例如,"这篇文章讨论的主要观点是什么?"}

这种格式有助于LLM理解其任务和内容的上下文,从而能够对你的问题做出更准确和相关的回答。

贡献

欢迎贡献!详情请参阅CONTRIBUTING.md文件。

许可

本项目采用MIT许可证。详情请参阅LICENSE文件。

项目侧边栏1项目侧边栏2
推荐项目
Project Cover

豆包MarsCode

豆包 MarsCode 是一款革命性的编程助手,通过AI技术提供代码补全、单测生成、代码解释和智能问答等功能,支持100+编程语言,与主流编辑器无缝集成,显著提升开发效率和代码质量。

Project Cover

AI写歌

Suno AI是一个革命性的AI音乐创作平台,能在短短30秒内帮助用户创作出一首完整的歌曲。无论是寻找创作灵感还是需要快速制作音乐,Suno AI都是音乐爱好者和专业人士的理想选择。

Project Cover

有言AI

有言平台提供一站式AIGC视频创作解决方案,通过智能技术简化视频制作流程。无论是企业宣传还是个人分享,有言都能帮助用户快速、轻松地制作出专业级别的视频内容。

Project Cover

Kimi

Kimi AI助手提供多语言对话支持,能够阅读和理解用户上传的文件内容,解析网页信息,并结合搜索结果为用户提供详尽的答案。无论是日常咨询还是专业问题,Kimi都能以友好、专业的方式提供帮助。

Project Cover

阿里绘蛙

绘蛙是阿里巴巴集团推出的革命性AI电商营销平台。利用尖端人工智能技术,为商家提供一键生成商品图和营销文案的服务,显著提升内容创作效率和营销效果。适用于淘宝、天猫等电商平台,让商品第一时间被种草。

Project Cover

吐司

探索Tensor.Art平台的独特AI模型,免费访问各种图像生成与AI训练工具,从Stable Diffusion等基础模型开始,轻松实现创新图像生成。体验前沿的AI技术,推动个人和企业的创新发展。

Project Cover

SubCat字幕猫

SubCat字幕猫APP是一款创新的视频播放器,它将改变您观看视频的方式!SubCat结合了先进的人工智能技术,为您提供即时视频字幕翻译,无论是本地视频还是网络流媒体,让您轻松享受各种语言的内容。

Project Cover

美间AI

美间AI创意设计平台,利用前沿AI技术,为设计师和营销人员提供一站式设计解决方案。从智能海报到3D效果图,再到文案生成,美间让创意设计更简单、更高效。

Project Cover

稿定AI

稿定设计 是一个多功能的在线设计和创意平台,提供广泛的设计工具和资源,以满足不同用户的需求。从专业的图形设计师到普通用户,无论是进行图片处理、智能抠图、H5页面制作还是视频剪辑,稿定设计都能提供简单、高效的解决方案。该平台以其用户友好的界面和强大的功能集合,帮助用户轻松实现创意设计。

投诉举报邮箱: service@vectorlightyear.com
@2024 懂AI·鲁ICP备2024100362号-6·鲁公网安备37021002001498号