项目介绍:tldrstory
概述
tldrstory 是一个语义搜索应用,专注于新闻标题和故事文本的搜索。其主要功能是通过零次标注(zero-shot labeling)对文本内容进行动态分类。这个框架还能创建一个 txtai 索引,以实现文本相似度搜索。此外,tldrstory 提供了一个可定制的 Streamlit 应用程序和 FastAPI 后端服务,供用户查看和分析处理后的数据。
应用示例
tldrstory 框架可用于创建多种应用程序,这其中包括:
- 移动科技新闻:一个聚焦于移动科技领域的新闻平台。
- 体育新闻:专为体育事件和新闻设计的应用程序。
这些示例展示了 tldrstory 在不同领域的应用能力。
安装指南
tldrstory 的安装非常简单,可以通过以下方法完成:
-
使用 pip 从 PyPI 安装:
pip install tldrstory
-
或者直接从 GitHub 中安装:
pip install git+https://github.com/neuml/tldrstory
注:使用 Python 虚拟环境是推荐的做法,Python 版本需要是 3.8 或以上。
应用配置
成功安装 tldrstory 后,需要配置应用来运行。一个 tldrstory 应用主要由三个独立的进程构成:
- 索引进程:负责内容的索引。
- API 后端:提供数据的访问接口。
- Streamlit 应用:用于展示和交互。
以下是配置“体育新闻”应用的步骤:
- 下载相应的配置文件。
- 启动索引过程。
- 启动 API 过程。
- 启动 Streamlit 应用。
- 在浏览器中访问
http://localhost:8501
。
自定义数据源
tldrstory 提供了对 RSS 和 Reddit API 数据源的默认支持。用户也可以定义和配置其他数据源。通过自定义数据源,用户可以将任意结构化的数据导入系统进行处理和分析。下例展示了如何创建一个自定义的数据源,并将其应用于 tldrstory 系统。
参数配置
tldrstory 使用 YAML 配置文件来定义应用的各种参数:
- 索引:包括数据源配置,定期任务计划,忽略的 URL 模式,以及文本分类的标签配置等。
- API:FastAPI 介面配置,用于数据的访问与拉取。
- 应用:基于 Streamlit 的默认应用配置,其通过 YAML 文件定义应用名称、API 端点以及组件配置等内容。
总结
tldrstory 为语义搜索提供了一个功能强大的平台,支持多种数据源的接入和自定义。通过其灵活的配置和强大的后台支持,用于新闻和故事内容的分析和展示,为用户提供了一个高效的解决方案。无论是技术新闻、体育新闻,还是自定义数据源,tldrstory 都能够满足不同用户的需求。