Python短文本挖掘
简介
shorttext
是一个Python包,用于促进短文本分类的有监督和无监督学习。由于短文本本身包含的词语稀疏和信息缺乏,在将它们输入任何分类算法之前,需要对文本和文档进行中间表示。这个包提供了各种类型的这些表示,包括主题建模和词嵌入算法。
shorttext
包可在Python 3.8、3.9、3.10和3.11上运行。
特点:
- 提供示例数据(包括主题关键词和NIH RePORT);
- 文本预处理;
- 支持预训练词嵌入;
gensim
主题模型(LDA、LSI、随机投影)和自动编码器;- 支持使用
scikit-learn
进行有监督学习的主题模型表示; - 余弦距离分类;
- 神经网络分类(包括ConvNet和C-LSTM);
- 最大熵分类;
- 短语差异度量,包括软Jaccard分数(使用Damerau-Levenshtein距离)和词移距离(WMD);
- 字符级序列到序列(seq2seq)学习;
- 拼写纠正;
- 一次性加载词嵌入算法的API;以及
- 基于BERT的句子编码和相似度。
文档
shorttext
的文档和教程可以在这里找到:http://shorttext.rtfd.io/。
安装
要安装它,在控制台中使用pip
。
>>> pip install shorttext
或者,如果你想要Github上最新的开发版本,请输入
>>> pip install git+https://github.com/stephenhky/PyShortTextCategorization@master
建议开发者确保安装 Keras
2.0或更高版本。建议用户预先安装后端 Tensorflow
(首选)或 Theano
。如果事先安装了 Cython
也是很好的。
更多详细信息请参阅安装指南。
问题
要报告任何问题,请转到 Github 页面的 Issues 标签并开始一个讨论。 欢迎开发者自行提交拉取请求以修复任何错误。
贡献者
如果您想贡献,欢迎提交拉取请求。您可以通过电子邮件或 Issues 页面提前与我沟通。
有用链接
- 文档:http://shorttext.readthedocs.io
- Github:https://github.com/stephenhky/PyShortTextCategorization
- PyPI:https://pypi.org/project/shorttext/
- "shorttext 1.0.0 版本发布",Medium
- "用于短文本挖掘的 Python 包",WordPress
- "文档-词项矩阵:R 和 Python 中的文本挖掘",WordPress
- 该存储库的早期版本是以下博客文章的演示:使用深度神经网络和词嵌入模型进行短文本分类
新闻
- 2024年7月12日:
shorttext
2.0.0 版本发布。 - 2023年12月21日:
shorttext
1.6.1 版本发布。 - 2023年8月26日:
shorttext
1.6.0 版本发布。 - 2023年6月19日:
shorttext
1.5.9 版本发布。 - 2022年9月23日:
shorttext
1.5.8 版本发布。 - 2022年9月22日:
shorttext
1.5.7 版本发布。 - 2022年8月29日:
shorttext
1.5.6 版本发布。 - 2022年5月28日:
shorttext
1.5.5 版本发布。 - 2021年12月15日:
shorttext
1.5.4 版本发布。 - 2021年7月11日:
shorttext
1.5.3 版本发布。 - 2021年7月6日:
shorttext
1.5.2 版本发布。 - 2021年4月10日:
shorttext
1.5.1 版本发布。 - 2021年4月9日:
shorttext
1.5.0 版本发布。 - 2021年2月11日:
shorttext
1.4.8 版本发布。 - 2021年1月11日:
shorttext
1.4.7 版本发布。 - 2021年1月3日:
shorttext
1.4.6 版本发布。 - 2020年12月28日:
shorttext
1.4.5 版本发布。 - 2020年12月24日:
shorttext
1.4.4 版本发布。 - 2020年11月10日:
shorttext
1.4.3 版本发布。 - 2020年10月18日:
shorttext
1.4.2 版本发布。 - 2020年9月23日:
shorttext
1.4.1 版本发布。 - 2020年9月2日:
shorttext
1.4.0 版本发布。 - 2020年7月23日:
shorttext
1.3.0 版本发布。 - 2020年6月5日:
shorttext
1.2.6 版本发布。 - 2020年5月20日:
shorttext
1.2.5 版本发布。 - 2020年5月13日:
shorttext
1.2.4 版本发布。 - 2020年4月28日:
shorttext
1.2.3 版本发布。 - 2020年4月7日:
shorttext
1.2.2 版本发布。 - 2020年3月23日:
shorttext
1.2.1 版本发布。 - 2020年3月21日:
shorttext
1.2.0 版本发布。 - 2019年12月1日:
shorttext
1.1.6 版本发布。 - 2019年9月24日:
shorttext
1.1.5 版本发布。 - 2019年7月20日:
shorttext
1.1.4 版本发布。 - 2019年7月7日:
shorttext
1.1.3 版本发布。 - 2019年6月5日:
shorttext
1.1.2 版本发布。 - 2019年4月23日:
shorttext
1.1.1 版本发布。 - 2019年3月3日:
shorttext
1.1.0 版本发布。 - 2019年2月14日:
shorttext
1.0.8 版本发布。 - 2019年1月30日:
shorttext
1.0.7 版本发布。 - 2019年1月29日:
shorttext
1.0.6 版本发布。 - 2019年1月13日:
shorttext
1.0.5 版本发布。 - 2018年10月3日:
shorttext
1.0.4 版本发布。 - 2018年8月6日:
shorttext
1.0.3 版本发布。 - 2018年7月24日:
shorttext
1.0.2 版本发布。 - 2018年7月17日:
shorttext
1.0.1 版本发布。 - 2018年7月14日:
shorttext
1.0.0 版本发布。 - 2018年6月18日:
shorttext
0.7.2 版本发布。 - 2018年5月30日:
shorttext
0.7.1 版本发布。 - 2018年5月17日:
shorttext
0.7.0 版本发布。 - 2018年2月27日:
shorttext
0.6.0 版本发布。 - 2018年1月19日:
shorttext
0.5.11 版本发布。 - 2018年1月15日:
shorttext
0.5.10 版本发布。 - 2017年12月14日:
shorttext
0.5.9 版本发布。 - 2017年11月8日:
shorttext
0.5.8 版本发布。 - 2017年10月27日:
shorttext
0.5.7 版本发布。 - 2017年10月17日:
shorttext
0.5.6 版本发布。 - 2017年9月28日:
shorttext
0.5.5 版本发布。 - 2017年9月8日:
shorttext
0.5.4 版本发布。 - 2017年9月2日:GSoC 项目结束。(报告)
- 2017年8月22日:
shorttext
0.5.1 版本发布。 - 2017年7月28日:
shorttext
0.4.1 版本发布。 - 2017年7月26日:
shorttext
0.4.0 版本发布。 - 2017年6月16日:
shorttext
0.3.8 版本发布。 - 2017年6月12日:
shorttext
0.3.7 版本发布。 - 2017年6月2日:
shorttext
0.3.6 版本发布。 - 2017年5月30日:GSoC 项目(Chinmaya Pancholi,与 gensim 合作)
- 2017年5月16日:
shorttext
0.3.5 版本发布。 - 2017年4月27日:
shorttext
0.3.4 版本发布。 - 2017年4月19日:
shorttext
0.3.3 版本发布。 - 2017年3月28日:
shorttext
0.3.2 版本发布。 - 2017年3月14日:
shorttext
0.3.1 版本发布。 - 2017年2月23日:
shorttext
0.2.1 版本发布。 - 2016年12月21日:
shorttext
0.2.0 版本发布。 - 2016年11月25日:
shorttext
0.1.2 版本发布。 - 2016年11月21日:
shorttext
0.1.1 版本发布。
可能的未来更新
- 将组件分割到其他包中;
- 增加更多可用的语料库。