HN Summary 是一个开源机器人,用于总结 Hacker News 上的热门故事并将其发布到 Telegram 频道。
加入 HN Summary 的 Telegram 频道,观看机器人操作并享受故事摘要:https://t.me/hn_summary
在 Telegram 频道用 👎 标记差评摘要,帮助改善和提高质量。
你也可以在这里找到当前热门 Hacker News 文章的摘要:https://news.jiggy.ai
欢迎在 Telegram 或 Twitter 联系我 @wskish 提出反馈,或提交 PR/issue。
概述
每当 Hacker News API /topstories.json 端点出现新故事时,这个机器人会总结它(目前使用 OpenAI gpt-3.5-turbo),并将故事标题、摘要和 URL 发送到 Telegram 频道 hn_summary。
这个项目的目的是帮助人们建立对当前一代大型语言模型能力的直觉,同时展示更广泛的 Hacker News 热门内容。它还可以作为实验其他语言模型能力的平台,如语义搜索。
限制
大型语言模型如 GPT-3 容易出现荒谬的幻觉,有时在非常权威的语气下编造内容。
从 HTML 中提取文本的代码非常基础且容易出错。(欢迎 PR)。此外,许多网站(如新闻网站)要么是付费墙,要么使得文本提取变得困难。我们现在尝试通过提示工程来捕捉这种情况,但当一个案例漏掉时,往往基于标题和 FQDN 会产生异想天开的幻觉。
目前会忽略 PDF 和 HTML 以外的内容类型链接。
从 Reddit 和 Twitter 及其他商业链接中提取文本失败,可能会产生荒谬的幻觉摘要。
Telegram 消息限制为 4K。目前响应被截断为 4K。
主要依赖项
以下环境变量用于注入凭据和其他所需配置:
OpenAI
- OPENAI_API_KEY # 你的 OpenAI API 密钥
PostgresQL
用于跟踪我们已经看到的项目及相关信息的数据库。
- HNSUM_POSTGRES_HOST # 数据库 FQDN
- HNSUM_POSTGRES_USER # 数据库用户名
- HNSUM_POSTGRES_PASS # 数据库密码
Telegram
- HNSUM_TELEGRAM_API_TOKEN # 机器人的 Telegram API 令牌
- HNSUM_TELEGRAM_CHANNEL_ID # 机器人发布摘要的 Telegram 聊天频道