讨论个技术问题:如何提取视频文稿的 Chapters?
Chapters 就是像图 1 那样列出视频的主要话题,并且加上话题开始的时间戳。
最简单的方式就是将完整 srt 格式的字幕文本扔进去,然后让 LLM 帮你完成任务,Claude 3 的 Haiku 这样的小模型就可以完成的不错,但是对上下文长度要求比较高,毕竟 1-2 小时的视频文稿长度可不小。
比如图 2 的 1 小时左右的字幕输入的 Token 数是 3 万左右,GPT-3.5 的 16K 都不够。
但我还看到过一种另类方案,就是按照标点符号将字幕拆分成句子,然后对每一个句子做 Embedding,然后对 Embedding 的结果做相似度比较,找出句子和前一个句子的相似度,如果不相似就可能是新话题的开始。
这个方案的优点就是不用担心文稿长度,成本很低,但最终效果并不算多好,毕竟仅仅靠句子的相似度,很容易错判。
不知道你有什么更好的方法吗?
点击图片查看原图
点击图片查看原图