以下是一些可以将文档性质的内容转化为表格形式的 AI 工具和相关方法:
此外,还可以参考相关的代码和脚本,如 https://github.com/yuanzhoulvpi2017/DocumentSearch 。同时,https://gitee.com/cyz6668/langchain-simple-rag 也对相关内容进行了整理。
接下来,要让AI一段一段进行细节描写了。为了确保文章前后一致,我先让AI帮助先写故事概要和角色背景介绍,并在其基础上按自己的审美略做修改。下面我用了一个重要技巧:让AI以表格的形式输出细节描述。这样做的有三个好处:一是打破AI原本的叙事习惯。如果直接让AI输出整段文字,它作为一个根据概率算下一个字的模型,特别容易出陈词滥调,改成表格后就好了很多。二是按编号做局部调整很容易,指哪改哪,别的内容都能够稳定保持不变。三是确保内容都是具体的细节。之前整段输出时文字太长,让缩减则减到丢光细节只有笼统介绍。[heading1]四、串联成文[content]把上一步生成的五个表格依次复制粘贴,AI就照着写文章了。偶尔会需要我帮个忙给点建议。[heading1]五、失败的局部修改[content]小说大赛有个要求:最后的作品必须是AI直接吐出来的,不能有任何改动,不能超过2000字。我的小说2300+字,只好让GPT-4做修改,一开始它列的有模有样的,可惜很快就暴露出记性不好的缺点。我还没来得及高兴呢,就发现它失忆得很彻底😂眼看截止时间快到了,只能求助Claude,把文章和GPT生成的修改意见一股脑儿都贴给它,让它生成作品,匆匆截图提交。没想到,Claude把关键情节给改没了,没有了马克偷偷看艾拉,也没有无名猫受伤的原因。
接下来,要让AI一段一段进行细节描写了。为了确保文章前后一致,我先让AI帮助先写故事概要和角色背景介绍,并在其基础上按自己的审美略做修改。下面我用了一个重要技巧:让AI以表格的形式输出细节描述。这样做的有三个好处:一是打破AI原本的叙事习惯。如果直接让AI输出整段文字,它作为一个根据概率算下一个字的模型,特别容易出陈词滥调,改成表格后就好了很多。二是按编号做局部调整很容易,指哪改哪,别的内容都能够稳定保持不变。三是确保内容都是具体的细节。之前整段输出时文字太长,让缩减则减到丢光细节只有笼统介绍。[heading1]四、串联成文[content]把上一步生成的五个表格依次复制粘贴,AI就照着写文章了。偶尔会需要我帮个忙给点建议。[heading1]五、失败的局部修改[content]小说大赛有个要求:最后的作品必须是AI直接吐出来的,不能有任何改动,不能超过2000字。我的小说2300+字,只好让GPT-4做修改,一开始它列的有模有样的,可惜很快就暴露出记性不好的缺点。我还没来得及高兴呢,就发现它失忆得很彻底😂眼看截止时间快到了,只能求助Claude,把文章和GPT生成的修改意见一股脑儿都贴给它,让它生成作品,匆匆截图提交。没想到,Claude把关键情节给改没了,没有了马克偷偷看艾拉,也没有无名猫受伤的原因。
这里就讲简单的retrieve的过程。[heading4]Table表格[heading5]方法1:读入表格markdown格式,嵌入template。[content]这里举例为GLM的例子,Azure openai同理。[heading5]方法2:直接使用function call。[content]绕过langchain定义数据库读取的方式。这里我只尝试了GLM的官方方法。这里的parse_function_call是GLM的SDK开放的工具。我的理解是大模型从用户输入的语言提炼出函数所需的参数变量然后进行传参完成数据库查询。[heading4]Text文字[heading5]文字相似度检索过程[content]读入文字,进行文字清洗-->文本句子切分-->文本向量化->计算相似度-->取前几的答案为输入详情见https://github.com/yuanzhoulvpi2017/DocumentSearch脚本简单易懂,不再赘述。Part1不用学习框架,快速实现。氮素过于简单,写得太死,不利于后期持续开发,如果有好的方法尝试基本重开【正常人开发都不会这样的。。除非很紧急没空看文档】[heading3]Part2用Langchain做table和text的RAG[heading4]Table表格[heading5]法1:运用Agent:[heading5]法2:运用Chain:[heading4]Text文字[content]RetrievalQA.from_chain_type[heading3]Part3使用Agent把文本多种文档组合起来![content]这里只示范文本和数据库表格等等,别的我觉得就是差不多类似的写法!主要用chain。Agent套来套去也可以,就是容易眼花。。[heading3]最后[content]https://gitee.com/cyz6668/langchain-simple-rag整理好了,欢迎踩踩