.. _jusText: http://code.google.com/p/justext/ .. _Python: http://www.python.org/ .. _lxml: http://lxml.de/
jusText
.. image:: https://github.com/miso-belica/jusText/actions/workflows/run-tests.yml/badge.svg :target: https://github.com/miso-belica/jusText/actions/workflows/run-tests.yml
jusText程序是一个用于从HTML页面中删除样板内容(如导航链接、页眉和页脚)的工具。它主要designed用于保留包含完整句子的文本,因此非常适合用于创建语言资源,如网络语料库。您可以在线尝试使用它。
这是原始jusText代码的一个分支,原代码目前已不再维护,托管在Google Code上。
该算法在其他语言中的适配版本:
- C++
- Go
- Java
一些使用jusText的库:
- chirp
- lazynlp
- off-topic-memento-toolkit
- pears
- readability calculator
- sky
一些目前(2020年1月)仍在维护的替代方案:
- dragnet
- html2text
- inscriptis
- newspaper
- python-readability
- trafilatura
安装
确保您已安装Python 2.7+/3.5+和pip(Windows, Linux)。只需运行:
.. code-block:: bash
$ [sudo] pip install justext
依赖
::
lxml (版本取决于您的Python版本)
使用方法
.. code-block:: bash
$ python -m justext -s Czech -o text.txt http://www.zdrojak.cz/clanky/automaticke-zabezpeceni/ $ python -m justext -s English -o plain_text.txt english_page.html $ python -m justext --help # 获取更多信息
Python API
.. code-block:: python
import requests import justext
response = requests.get("http://planet.python.org/") paragraphs = justext.justext(response.content, justext.get_stoplist("English")) for paragraph in paragraphs: if not paragraph.is_boilerplate: print paragraph.text
测试
通过以下命令运行测试
.. code-block:: bash
$ py.test-2.7 && py.test-3.5 && py.test-3.6 && py.test-3.7 && py.test-3.8 && py.test-3.9
致谢
.. _Natural Language Processing Centre
: http://nlp.fi.muni.cz/en/nlpc
.. _Masaryk University in Brno
: http://nlp.fi.muni.cz/en
.. _PRESEMT: http://presemt.eu/
.. _Lexical Computing Ltd.
: http://lexicalcomputing.com/
.. _PhD research
: http://is.muni.cz/th/45523/fi_d/phdthesis.pdf
该软件由布尔诺马萨里克大学自然语言处理中心开发,得到了PRESEMT和Lexical Computing Ltd.的资金支持。它还与Jan Pomikálek的博士研究相关。