以下是一些可以用于一次性总结长篇小说 PDF 文档的 AI 工具和方法: 由于模型的上下文长度有限,无法一次性处理过长的文本。对于像 80 万字的长篇小说文档,可以采用以下策略:
由于GPT具有固定的上下文长度,因此不能在单个查询中总结太长的文本,具体来说是长度超过上下文长度减去生成的总结长度的文本。要总结一篇非常长的文档,如一本书,我们可以使用一系列查询来总结文档的每一部分。部分总结可以被连接并总结,产生总结的总结。这个过程可以递归进行,直到整个文档被总结。如果需要使用关于早期章节的信息来理解后期章节,那么另一个可以使用的技巧是在总结某一点的内容时,包括一个前文的运行总结。OpenAI在使用GPT-3的变体进行的之前的研究中,已经研究了这个程序对总结书籍的有效性。
因为模型的上下文长度是固定的,所以它们无法一次性总结超过上下文长度减去所生成摘要长度的文本。例如,要总结一本很长的书,我们可以使用一系列的查询来分别总结书中的每个章节。这些部分的摘要可以被连结并进一步总结,形成摘要的摘要。这个过程可以递归地进行,直至整本书被总结完毕。如果在理解书中后续部分时需要前面章节的信息,那么在总结当前部分内容时附加一个前面内容的连续摘要会是一个实用的技巧。OpenAI之前利用GPT-3的变种对这种总结书籍的方法进行了[研究](https://openai.com/research/summarizing-books)。
由于模型的上下文窗口大小有限,无法一次性处理过长的文本。对于长文档,可以将其分成多个部分分别进行总结,然后将各部分的摘要合并成最终的完整摘要。OpenAI使用GPT-3的变体进行过相关的研究,证明这种方法可以有效地总结书籍等长篇幅文本。