NeuralBlock

NeuralBlock (NB) 是一个使用 Keras/Tensorflow 构建的神经网络，用于检测 YouTube 视频中的赞助内容。它支持两种预测：(1) 判断文本摘录是否为赞助内容（广告），(2) 判断序列中的某个词是否属于赞助内容。

NB 的灵感来源于这个项目，但与之不同的是，本项目利用了 SponsorBlock 提供的众包标签。

examples/ 目录中提供了一些 NB 预测的示例。网页应用的代码也已提供，可以在本地运行。

YouTube 上有一个视频演示可供参考。

高层概述

部分内容可能已过时，稍后更新。可以使用 Dockerfile

app/ 目录包含一个简单的 Flask 应用，执行 predict_stream.py 和 predict_timestamps.py 的主要功能，并在浏览器中展示结果。

结果应在几秒钟内返回。注意，如果 YouTubeTranscriptApi 无法提取到好的字幕，应用将会失败。

部分内容可能已过时，稍后更新。

注意，过度使用 YouTubeTranscriptApi 可能导致您的 IP 被封禁。

更好的字幕： NeuralBlock 依赖于下载完整的字幕。一些创作者禁用自动生成的英文字幕，导致 NB 无法进行预测。后者可以通过现有的语音转文字项目解决，如 Mozilla 的 DeepSpeech。
更准确的标签： 标签并不完美，因为我们只知道大概的时间，而不知道具体某个词的说话时刻。例如，静音（仅视觉广告）或非常短的广告片段很难处理。
融入视频信息： 视觉线索，如场景切换，对确定广告也很有价值，可以帮助解决第 2 点的问题。
支持其他语言： 目前仅支持英语。