以下是一些提高 AI 识别文档准确性的方法:
召回排序过程中会过滤掉标题里携带了【已废弃】、【已过期】、【已停用】、【已删除】、【已作废】、【已过时、【弃用】等字眼的片段。如果某些文档已经过期、内容不再准确,但是又需要保留存档,可以在文档总标题里加上关键字眼,避免这些文档进入问答、影响答案的准确性。✅样例参考[heading3]现阶段的局限性:尽量使用普通文本进行描述,避免过多表格、图片等内容[content]当前文档里插入的表格(包括普通表格、电子表格、多维表格)内容虽然已经能被AI识别,但是识别效果还在进一步提升中,图片等内容还不支持识别。某篇文档如果主要用于AI智能问答,现阶段为了保证更好的问答效果,可以尽量都使用普通文本描述,避免大量有价值的信息都包含在表格、图片、思维导图、画板、视频等内容里。随着飞书团队持续丰富支持识别的数据类型,这些局限会逐渐消除、问答效果也会持续提升。
对于处理文本,特别是PDF,到目前为止,Claude 2非常出色。我在整本书中粘贴到Claude的前一版本中,取得了令人印象深刻的结果,新模型要强大得多。你可以[在这里](https://www.oneusefulthing.org/p/what-happens-when-ai-reads-a-book)看到我之前的经验,以及一些可能有趣的提示。我还给了它许多复杂的学术文章,并要求它总结结果,它做得很好!更好的是,你可以通过询问后续问题来审问材料:这种方法的证据是什么?作者得出了什么结论?等等......有些事情需要担心:这些系统仍然产生幻觉,尽管方式更有限。如果您想确保准确性,你需要检查它们的结果。
召回排序的逻辑里文档总标题(对应上文中的title)在相似度计算中占有较高的权重。如果某个片段携带的文档总标题和用户提出的问题很吻合,那么也会极大程度提高整个片段的语义相似度,这个片段在排序里会更加靠前,更有可能被送入大模型。所以如果正文内容(对应上文中的content)跟文档总标题内容相关性不高的话,就有可能出现回答不准确、答非所问的情况。[heading3]不同的知识点尽量分段书写、合理控制段落长度[content]不同的主题通过文档内的子标题(对应上文中的headings)进行区分,子标题下正文里每个段落最好对应一个明确的知识点,不要将多个知识点混合在同一个段落里。这样在文档分割过程中可以保证每个片段的主题更加鲜明,当用户问出和该主题相关的问题时这个片段在召回排序里就会更靠前。同时每个段落尽量不超过500字,如果段落过长在文档分割的过程中会可能会导致一个段落被切割成多个片段,打散了这个段落的主题,这样终召的片段内容可能不全、给出的答案不够全面。[heading3][heading3]对于经常被问到的内容,可以写成问答对(FAQ)的格式[content]问答对里已经包含了问题的描述,因此当用户提出相关问题时,包含该问答对的片段在召回排序里会非常靠前,更有可能被送入大模型,这样给出的答案也会是问答对里的准确回答。✅样例参考