Project Icon

dom-to-semantic-markdown

HTML DOM到语义化Markdown的智能转换工具

dom-to-semantic-markdown是一款为大型语言模型优化的HTML DOM转换工具。它保留网页内容的语义结构,提取关键元数据,通过URL重构和内容精简降低token使用量。该项目具备主要内容检测和表格列跟踪功能,提升了语言模型处理网页信息的效率。这为开发者提供了一个高效的网页内容语义化解析方案。

DOM转语义化Markdown标志
DOM转语义化Markdown

CI npm版本 许可证: ISC

这个库将HTML DOM转换为优化用于大型语言模型(LLMs)的语义化Markdown格式。它保留了网页内容的语义结构,提取重要元数据,并与原始HTML相比减少了token使用量,使LLMs更容易理解和处理信息。

主要特性

  • 语义结构保留: 保留<header><footer><nav>等HTML元素的含义。
  • 元数据提取: 捕获重要元数据,如标题、描述、关键词、Open Graph标签、Twitter Card标签和JSON-LD数据。
  • Token效率: 通过URL引用和内容的简洁表示优化token使用。
  • 主要内容检测: 自动识别和提取网页的主要内容部分。
  • 表格列跟踪: 为表格列添加唯一标识符,提高LLM关联各行数据的能力。

特殊功能示例

以下是使用CLI工具展示该库特殊功能的示例:

1. 简单内容提取:

npx d2m@latest -u https://xkcd.com

此命令获取https://xkcd.com并将其转换为Markdown

点击查看输出

- [存档](/archive)
- [What If?](https://what-if.xkcd.com/)
- [关于](/about)
- [Feed](/atom.xml)   · [邮件](/newsletter/)
- [TW](https://twitter.com/xkcd/)   · [FB](https://www.facebook.com/TheXKCD/)
  · [IG](https://www.instagram.com/xkcd/)
- [-书籍-](/books/)
- [What If? 2](/what-if-2/)
- [WI?](/what-if/)   · [TE](/thing-explainer/)   · [HT](/how-to/)

<a href="/">![xkcd.com标志](https://raw.githubusercontent.com/romansky/dom-to-semantic-markdown/main//s/0b7742.png)</a> 一部关于浪漫、
讽刺、数学和语言的网络漫画。[WHAT IF?十周年特别版](https://xkcd.com/what-if/)——修订并
附加全新插图和对你从未想过要问的重要问题的回答——将于
2024年11月发布。[点此](https://bit.ly/WhatIf10th)预订!考试编号

- [|<](/1/)
- [< 上一篇](/2965/)
- [随机](//c.xkcd.com/random/comic/)
- [下一篇 >](about:blank#)
- [>|](/)

![考试编号](https://raw.githubusercontent.com/romansky/dom-to-semantic-markdown/main///imgs.xkcd.com/comics/exam_numbers.png)

- [|<](/1/)
- [< 上一篇](/2965/)
- [随机](//c.xkcd.com/random/comic/)
- [下一篇 >](about:blank#)
- [>|](/)

此漫画的永久链接:[https://xkcd.com/2966/](https://xkcd.com/2966)
图片URL(用于
热链接/嵌入):[https://imgs.xkcd.com/comics/exam_numbers.png](https://imgs.xkcd.com/comics/exam_numbers.png)![精选漫画](https://raw.githubusercontent.com/romansky/dom-to-semantic-markdown/main///imgs.xkcd.com/s/a899e84.jpg)
<a href="//xkcd.com/1732/">![地球温度时间线](https://raw.githubusercontent.com/romansky/dom-to-semantic-markdown/main///imgs.xkcd.com/s/temperature.png)</a>
[RSS Feed](/rss.xml) - [Atom Feed](/atom.xml) - [邮件](/newsletter/)
我喜欢的漫画:
[Three Word Phrase](http://threewordphrase.com/)、[SMBC](https://www.smbc-comics.com/)、[Dinosaur Comics](https://www.qwantz.com/)、[Oglaf](https://oglaf.com/)(
不适合工作场合)、[A Softer World](https://www.asofterworld.com/)、[Buttersafe](https://buttersafe.com/)、[Perry Bible Fellowship](https://pbfcomics.com/)、[Questionable Content](https://questionablecontent.net/)、[Buttercup Festival](http://www.buttercupfestival.com/)、[Homestuck](https://www.homestuck.com/)、[Junior Scientist Power Hour](https://www.jspowerhour.com/)
其他内容:
[关于技术和政府的建议](https://medium.com/civic-tech-thoughts-from-joshdata/so-you-want-to-reform-democracy-7f3b1ef10597)、
[气候FAQ](https://www.nytimes.com/interactive/2017/climate/what-is-climate-change.html)、[Katharine Hayhoe](https://twitter.com/KHayhoe)
xkcd.com最佳浏览体验:使用Netscape Navigator 4.0或更低版本,在Apple IIGS上用JavaScript模拟的Pentium 3±1处理器,
屏幕分辨率为1024x1。请启用广告拦截器,禁用高温烘干,并将设备从飞行模式切换到船舶模式。出于安全考虑,浏览时请保持大写锁定。本作品采用
[知识共享署名-非商业性使用 2.5 许可协议](https://creativecommons.org/licenses/by-nc/2.5/)授权。
这意味着你可以自由地复制和分享这些漫画(但不能出售它们)。[更多详情](/license.html)。 - [归档](/archive) - [如果呢?](https://what-if.xkcd.com/) - [关于](/about) - [订阅](/atom.xml) • [邮件](/newsletter/) - [推特](https://twitter.com/xkcd/) • [脸书](https://www.facebook.com/TheXKCD/) • [Instagram](https://www.instagram.com/xkcd/) - [-图书-](/books/) - [如果呢?2](/what-if-2/) - [WI?](/what-if/) • [TE](/thing-explainer/) • [HT](/how-to/)

xkcd.com 标志 一部关于浪漫、 讽刺、数学和语言的网络漫画。《如果呢?》十周年特别版——修订并 添加全新插图和回答你从未想过要问的重要问题——将于 2024年11月推出。在此预订!考试编号

考试编号

此漫画的永久链接:https://xkcd.com/2966/ 图片URL(用于热链接/嵌入):https://imgs.xkcd.com/comics/exam_numbers.png精选漫画 地球温度时间线 RSS订阅 - Atom订阅 - 邮件订阅 我喜欢的漫画: Three Word PhraseSMBCDinosaur ComicsOglaf(不适合工作场所)、A Softer WorldButtersafePerry Bible FellowshipQuestionable ContentButtercup FestivalHomestuckJunior Scientist Power Hour 其他内容: 关于技术和政府的建议气候变化FAQKatharine Hayhoe xkcd.com 最佳浏览效果:使用 Netscape Navigator 4.0 或更低版本,在 Apple IIGS 上用 Javascript 模拟的 Pentium 3±1 处理器,屏幕分辨率为 1024x1。请启用广告拦截器,禁用高温烘干,并将设备从飞行模式切换到船舶模式。出于安全考虑,浏览时请保持大写锁定。本作品采用 知识共享署名-非商业性使用 2.5 许可协议授权。

这意味着您可以自由复制和分享这些漫画(但不能出售)。更多详情

  1. 使用库提取Markdown内容。
  2. 以简短的指令或上下文为LLM开头。
  3. 用三重反引号(```)包裹提取的Markdown。
  4. 在Markdown后跟上你的问题或提示。

示例:

以下是网页的语义Markdown表示。请分析其内容:

```markdown
{在此处粘贴您提取的markdown}
```

{你的问题,例如,"这篇文章讨论的主要观点是什么?"}

这种格式有助于LLM理解其任务和内容的上下文,从而能够对你的问题做出更准确和相关的回答。

贡献

欢迎贡献!详情请参阅CONTRIBUTING.md文件。

许可

本项目采用MIT许可证。详情请参阅LICENSE文件。

项目侧边栏1项目侧边栏2
推荐项目
Project Cover

豆包MarsCode

豆包 MarsCode 是一款革命性的编程助手,通过AI技术提供代码补全、单测生成、代码解释和智能问答等功能,支持100+编程语言,与主流编辑器无缝集成,显著提升开发效率和代码质量。

Project Cover

AI写歌

Suno AI是一个革命性的AI音乐创作平台,能在短短30秒内帮助用户创作出一首完整的歌曲。无论是寻找创作灵感还是需要快速制作音乐,Suno AI都是音乐爱好者和专业人士的理想选择。

Project Cover

白日梦AI

白日梦AI提供专注于AI视频生成的多样化功能,包括文生视频、动态画面和形象生成等,帮助用户快速上手,创造专业级内容。

Project Cover

有言AI

有言平台提供一站式AIGC视频创作解决方案,通过智能技术简化视频制作流程。无论是企业宣传还是个人分享,有言都能帮助用户快速、轻松地制作出专业级别的视频内容。

Project Cover

Kimi

Kimi AI助手提供多语言对话支持,能够阅读和理解用户上传的文件内容,解析网页信息,并结合搜索结果为用户提供详尽的答案。无论是日常咨询还是专业问题,Kimi都能以友好、专业的方式提供帮助。

Project Cover

讯飞绘镜

讯飞绘镜是一个支持从创意到完整视频创作的智能平台,用户可以快速生成视频素材并创作独特的音乐视频和故事。平台提供多样化的主题和精选作品,帮助用户探索创意灵感。

Project Cover

讯飞文书

讯飞文书依托讯飞星火大模型,为文书写作者提供从素材筹备到稿件撰写及审稿的全程支持。通过录音智记和以稿写稿等功能,满足事务性工作的高频需求,帮助撰稿人节省精力,提高效率,优化工作与生活。

Project Cover

阿里绘蛙

绘蛙是阿里巴巴集团推出的革命性AI电商营销平台。利用尖端人工智能技术,为商家提供一键生成商品图和营销文案的服务,显著提升内容创作效率和营销效果。适用于淘宝、天猫等电商平台,让商品第一时间被种草。

Project Cover

AIWritePaper论文写作

AIWritePaper论文写作是一站式AI论文写作辅助工具,简化了选题、文献检索至论文撰写的整个过程。通过简单设定,平台可快速生成高质量论文大纲和全文,配合图表、参考文献等一应俱全,同时提供开题报告和答辩PPT等增值服务,保障数据安全,有效提升写作效率和论文质量。

投诉举报邮箱: service@vectorlightyear.com
@2024 懂AI·鲁ICP备2024100362号-6·鲁公网安备37021002001498号