tldrstory - 故事标题与内容的语义搜索与动态分类工具

项目介绍：tldrstory

概述

tldrstory 是一个语义搜索应用，专注于新闻标题和故事文本的搜索。其主要功能是通过零次标注（zero-shot labeling）对文本内容进行动态分类。这个框架还能创建一个 txtai 索引，以实现文本相似度搜索。此外，tldrstory 提供了一个可定制的 Streamlit 应用程序和 FastAPI 后端服务，供用户查看和分析处理后的数据。

应用示例

tldrstory 框架可用于创建多种应用程序，这其中包括：

移动科技新闻：一个聚焦于移动科技领域的新闻平台。
体育新闻：专为体育事件和新闻设计的应用程序。

这些示例展示了 tldrstory 在不同领域的应用能力。

安装指南

tldrstory 的安装非常简单，可以通过以下方法完成：

使用 pip 从 PyPI 安装：
```
pip install tldrstory
```

或者直接从 GitHub 中安装：

pip install git+https://github.com/neuml/tldrstory

注：使用 Python 虚拟环境是推荐的做法，Python 版本需要是 3.8 或以上。

应用配置

成功安装 tldrstory 后，需要配置应用来运行。一个 tldrstory 应用主要由三个独立的进程构成：

索引进程：负责内容的索引。
API 后端：提供数据的访问接口。
Streamlit 应用：用于展示和交互。

以下是配置“体育新闻”应用的步骤：

下载相应的配置文件。
启动索引过程。
启动 API 过程。
启动 Streamlit 应用。
在浏览器中访问 http://localhost:8501。

自定义数据源

tldrstory 提供了对 RSS 和 Reddit API 数据源的默认支持。用户也可以定义和配置其他数据源。通过自定义数据源，用户可以将任意结构化的数据导入系统进行处理和分析。下例展示了如何创建一个自定义的数据源，并将其应用于 tldrstory 系统。

参数配置

tldrstory 使用 YAML 配置文件来定义应用的各种参数：

索引：包括数据源配置，定期任务计划，忽略的 URL 模式，以及文本分类的标签配置等。
API：FastAPI 介面配置，用于数据的访问与拉取。
应用：基于 Streamlit 的默认应用配置，其通过 YAML 文件定义应用名称、API 端点以及组件配置等内容。

总结

tldrstory 为语义搜索提供了一个功能强大的平台，支持多种数据源的接入和自定义。通过其灵活的配置和强大的后台支持，用于新闻和故事内容的分析和展示，为用户提供了一个高效的解决方案。无论是技术新闻、体育新闻，还是自定义数据源，tldrstory 都能够满足不同用户的需求。