Project Icon

doctran

基于LLM的智能文档转换和处理框架

Doctran是一个基于大型语言模型的文档转换框架,通过自然语言指令处理复杂字符串。该框架提供模块化和声明式的方法,充分利用OpenAI的功能调用特性。Doctran支持提取、编辑、总结、精炼、翻译和问答生成等多种操作,简化了非结构化文本的处理过程。这个开源项目主要应用于需要高级判断的文档解析场景,例如交易标记和语义信息提取。

🐛 Doctran

文档转换框架 - 使用大语言模型通过自然语言指令处理复杂字符串。

许可证 问题

某些应用需要解析文档,其中人类级别的判断比速度更重要。例如标记交易或从文本中提取语义信息。在这些情况下,正则表达式可能过于不灵活,而大语言模型则是理想的选择。可以将Doctran视为一个由大语言模型驱动的黑盒,杂乱的字符串进入,整洁、干净、带标签的字符串输出。另一种理解方式是,它是OpenAI函数调用功能的模块化、声明式封装,显著改善了开发者体验。

Doctran由jasonwcfan轻度维护。

示例

克隆或下载examples.ipynb以获取交互式演示。

Doctran将杂乱、非结构化的文本

<doc type="Confidential Document - For Internal Use Only">
<metadata>
<date> &#x004A; &#x0075; &#x006C; &#x0079; &#x0020; &#x0031; , &#x0032; &#x0030; &#x0032; &#x0033; </date>
<subject> Updates and Discussions on Various Topics; </subject>
</metadata>
<body>
<p>Dear Team,</p>
<p>I hope this email finds you well. In this document, I would like to provide you with some important updates and discuss various topics that require our attention. Please treat the information contained herein as highly confidential.</p>
<section>
<header>Security and Privacy Measures</header>
<p>As part of our ongoing commitment to ensure the security and privacy of our customers' data, we have implemented robust measures across all our systems. We would like to commend John Doe (email: john.doe&#64;example.com) from the IT department for his diligent work in enhancing our network security. Moving forward, we kindly remind everyone to strictly adhere to our data protection policies and guidelines. Additionally, if you come across any potential security risks or incidents, please report them immediately to our dedicated team at security&#64;example.com.</p>
</section>
<section>
<header>HR Updates and Employee Benefits</header>
<p>Recently, we welcomed several new team members who have made significant contributions to their respective departments. I would like to recognize Jane Smith (SSN: &#x0030; &#x0034; &#x0039; - &#x0034; &#x0035; - &#x0035; &#x0039; &#x0032; &#x0038;) for her outstanding performance in customer service. Jane has consistently received positive feedback from our clients. Furthermore, please remember that the open enrollment period for our employee benefits program is fast approaching. Should you have any questions or require assistance, please contact our HR representative, Michael Johnson (phone: &#x0034; &#x0031; 
...

转换为针对向量搜索优化的半结构化文档。

{
  "topics": ["安全和隐私", "人力资源更新", "营销", "研发"],
  "summary": "该文档讨论了安全措施、人力资源、营销计划和研发项目的更新。表扬了John Doe增强网络安全的工作,欢迎新团队成员,并表彰了Jane Smith在客户服务方面的表现。还提到了员工福利计划的开放注册期,感谢Sarah Thompson在社交媒体方面的努力,并宣布7月15日的产品发布会。David Rodriguez在研发方面的贡献得到了认可。文档强调了保密的重要性。",
  "contact_info": [
    {
      "name": "John Doe",
      "contact_info": {
        "phone": "",
        "email": "john.doe@example.com"
      }
    },
    {
      "name": "Michael Johnson",
      "contact_info": {
        "phone": "418-492-3850",
        "email": "michael.johnson@example.com"
      }
    },
    {
      "name": "Sarah Thompson",
      "contact_info": {
        "phone": "415-555-1234",
        "email": ""
      }
    }
  ],
  "questions_and_answers": [
    {
      "question": "这份文档的目的是什么?",
      "answer": "这份文档的目的是提供重要更新并讨论需要团队关注的各种主题。"
    },
    {
      "question": "谁因增强公司网络安全而受到表扬?",
      "answer": "IT部门的John Doe因增强公司网络安全而受到表扬。"
    }
  ]
}

开始使用

pip install doctran

from doctran import Doctran

doctran = Doctran(openai_api_key=OPENAI_API_KEY)
document = doctran.parse(content="你的内容字符串")

链式转换

Doctran旨在使文档转换的链式操作变得简单。例如,你可能希望先对文档中的所有个人身份信息进行编辑,然后再将其发送给OpenAI进行摘要。

链式转换中的顺序很重要——首先调用的转换将首先执行,其结果将传递给下一个转换。

document = await document.redact(entities=["EMAIL_ADDRESS", "PHONE_NUMBER"]).extract(properties).summarize().execute()

Doctran转换器

提取

给定任何有效的JSON模式,使用OpenAI函数调用从文档中提取结构化数据。

from doctran import ExtractProperty

properties = ExtractProperty(
    name="millenial_or_boomer", 
    description="预测这份文档是由千禧一代还是婴儿潮一代撰写的",
    type="string",
    enum=["millenial", "boomer"],
    required=True
)
document = await document.extract(properties=properties).execute()

编辑

使用spaCy模型从文档中删除姓名、电子邮件、电话号码和其他敏感信息。在本地运行以避免将敏感数据发送到第三方API。

document = await document.redact(entities=["PERSON", "EMAIL_ADDRESS", "PHONE_NUMBER", "US_SSN"]).execute()

摘要

总结文档中的信息。可以传递token_limit来配置摘要的大小,但OpenAI可能不会严格遵守。

document = await document.summarize().execute()

精炼

从文档中删除所有信息,除非与特定主题集相关。

document = await document.refine(topics=['marketing', 'meetings']).execute()

翻译

将文本翻译成另一种语言

document = await document.translate(language="spanish").execute()

问答

将文档中的信息转换为问答格式。最终用户查询通常以问题的形式出现,因此将信息转换为问题并从这些问题创建索引,在使用向量数据库进行上下文检索时通常会产生更好的结果。

document = await document.interrogate().execute()

贡献

Doctran欢迎贡献!最好的开始方式是贡献一个新的文档转换器。不依赖API调用(例如OpenAI)的转换器特别有价值,因为它们可以快速运行且不需要任何外部依赖。

添加新的doctran转换器

贡献新的转换器很简单。

  1. 添加一个新的类,扩展DocumentTransformerOpenAIDocumentTransformer
  2. 实现__init__transform方法
  3. DocumentTransformationBuilderDocument类中添加相应的方法以启用链式操作
项目侧边栏1项目侧边栏2
推荐项目
Project Cover

豆包MarsCode

豆包 MarsCode 是一款革命性的编程助手,通过AI技术提供代码补全、单测生成、代码解释和智能问答等功能,支持100+编程语言,与主流编辑器无缝集成,显著提升开发效率和代码质量。

Project Cover

AI写歌

Suno AI是一个革命性的AI音乐创作平台,能在短短30秒内帮助用户创作出一首完整的歌曲。无论是寻找创作灵感还是需要快速制作音乐,Suno AI都是音乐爱好者和专业人士的理想选择。

Project Cover

有言AI

有言平台提供一站式AIGC视频创作解决方案,通过智能技术简化视频制作流程。无论是企业宣传还是个人分享,有言都能帮助用户快速、轻松地制作出专业级别的视频内容。

Project Cover

Kimi

Kimi AI助手提供多语言对话支持,能够阅读和理解用户上传的文件内容,解析网页信息,并结合搜索结果为用户提供详尽的答案。无论是日常咨询还是专业问题,Kimi都能以友好、专业的方式提供帮助。

Project Cover

阿里绘蛙

绘蛙是阿里巴巴集团推出的革命性AI电商营销平台。利用尖端人工智能技术,为商家提供一键生成商品图和营销文案的服务,显著提升内容创作效率和营销效果。适用于淘宝、天猫等电商平台,让商品第一时间被种草。

Project Cover

吐司

探索Tensor.Art平台的独特AI模型,免费访问各种图像生成与AI训练工具,从Stable Diffusion等基础模型开始,轻松实现创新图像生成。体验前沿的AI技术,推动个人和企业的创新发展。

Project Cover

SubCat字幕猫

SubCat字幕猫APP是一款创新的视频播放器,它将改变您观看视频的方式!SubCat结合了先进的人工智能技术,为您提供即时视频字幕翻译,无论是本地视频还是网络流媒体,让您轻松享受各种语言的内容。

Project Cover

美间AI

美间AI创意设计平台,利用前沿AI技术,为设计师和营销人员提供一站式设计解决方案。从智能海报到3D效果图,再到文案生成,美间让创意设计更简单、更高效。

Project Cover

稿定AI

稿定设计 是一个多功能的在线设计和创意平台,提供广泛的设计工具和资源,以满足不同用户的需求。从专业的图形设计师到普通用户,无论是进行图片处理、智能抠图、H5页面制作还是视频剪辑,稿定设计都能提供简单、高效的解决方案。该平台以其用户友好的界面和强大的功能集合,帮助用户轻松实现创意设计。

投诉举报邮箱: service@vectorlightyear.com
@2024 懂AI·鲁ICP备2024100362号-6·鲁公网安备37021002001498号