Navigate to WaytoAGI Wiki →
Home/Question List/Question Detail

如何用AI处理PDF拆分、合并等功能?

Answer

要使用 AI 处理 PDF 的拆分、合并等功能,可以参考以下内容:

  • 对于 PDF 文档的解析,计算机视角下文档分为有标记文档(如 Microsoft Word 和 HTML 文档)和无标记文档(如 PDF 文档)。PDF 文档未存储结构信息,机器难以读取,需要解析器将散乱字符组织成有结构的连贯文本。理想的 PDF 解析器应具备文档结构识别和在复杂布局中保持鲁棒性等关键特征。
  • 基于深度学习的 ChatDOC PDF 解析器在超过一千万份文档页面的语料库上进行训练,包含 OCR 进行文字定位和识别、物理文档对象检测、跨列和跨页调整、阅读顺序确定、表格结构识别、文档逻辑结构识别等一系列复杂步骤。解析后以 JSON 或 HTML 格式提供结果,将文档解析为内容块,包括表格、段落、图表等元素,对于表格会输出单元格文本及合并情况,对于有分级标题的文档会输出分层结构。其在案例中成功解决了 PyPDF 的一些缺点,能识别混合布局、合并单元格等复杂情况。
Content generated by AI large model, please carefully verify (powered by aily)

References

通过增强PDF结构识别,革新检索增强生成技术(RAG)

对于人类来说,浏览任何文档页面的认知过程都是相似的。当我们阅读一个页面时,我们的视网膜会捕捉到字符。接着在我们的大脑中,这些字符被组织成段落、表格和图表,然后被理解或记忆。但计算机是以二进制码感知信息,所从计算机的角度看,文档可以分为两类,如图3所示:图3计算机视角下的两种类型的文档有标记文档(Tagged Documents):例如Microsoft Word和HTML文档,它们包含像<p>和<table>这样的特殊标记,用来将文本组织成段落、单元格和表格。无标记文档(Untagged Documents):例如PDF文档,它存储了每个文档页面上字符、线条和其他内容元素放置位置的指令。PDF文档以人类可读的方式“绘制”这些基本内容元素,但它并没有存储文档的任何结构信息,如表格或段落。因此,无标记文档仅供人类阅读,但机器无法读取。当尝试将PDF表格复制到Word中时,这一点会很明显,因为在Word中原表格的结构通常会完全丢失。然而,大语言模型擅长处理序列化的文本。因此,为了使大语言模型能够有效处理无标记文档,需要一个解析器将散乱的字符组织成具有其结构的连贯文本。理想情况下,PDF解析器应具备以下关键特征:文档结构识别:能够灵活地将页面划分为不同类型的内容块,如段落、表格和图表。这确保了划分的文本块是完整和独立的语义单元。在复杂文档布局中保持鲁棒性(Robustness):即使是在文档页面布局复杂的情况下也能保证解析效果,如多列页面、无边框表格甚至合并单元格的表格。

通过增强PDF结构识别,革新检索增强生成技术(RAG)

接下来,我们转向基于深度学习的解析方法,以我们的ChatDOC PDF解析器为例。ChatDOC PDF解析器(pdflux.com)在超过一千万份文档页面的语料库上进行了训练。按照引用[2]中的方法,它包含了一系列复杂的步骤:1.OCR进行文字定位和识别;2.物理文档对象检测;3.跨列和跨页调整;4.阅读顺序确定;5.表格结构识别;6.文档逻辑结构识别。读者可以参考引用[2]了解这些步骤的细节。解析后,我们用段落和表格作为基本块,然后合并相邻块,直到达到词元(Token)限制以形成一个分块。ChatDOC PDF解析器旨在始终以JSON或HTML格式提供解析结果,即使对于有挑战性的PDF文档也是如此。它将文档解析为内容块,其中每个分块指代一个表格、段落、图表或其他类型的内容元素。对于表格,它会输出每个表格单元格中的文本,并告知哪些单元格被合并成一个新的单元格。此外,对于具有分级标题的文档,它会输出文档的分层结构。总之,解析后的结果就像一个结构清晰的Word文件。图5展示了一个扫描复印页面及其解析结果。左侧展示了文档及识别的内容块(不同内容块用不同颜色的矩形表示)。右侧展示了JSON或HTML格式的解析结果。读者可以参考引用[3]查看这个解析结果的在线演示。图5 ChatDOC PDF解析器的解析结果。放大查看细节。然后,我们查看了ChatDOC PDF解析器在案例1中的结果,如图6所示。它成功解决了PyPDF的三个缺点。

通过增强PDF结构识别,革新检索增强生成技术(RAG)

图6案例一中ChatDOC的解析和分块结果(原文档:[4])。放大查看细节。1.如“3分块结果可视化”部分所示,ChatDOC PDF解析器识别了混合布局,并正确地将整个表格设置为一个单独的分块。对于段落,如“2分块结果”部分中的分块2所示,同一段落中的文本行会被合并到一起,使其更易于理解。1.在“2分块结果”部分的分块1中,我们可以看到表格以Markdown格式表示,保留了表格的内部结构。此外,ChatDOC PDF解析器可以识别表格内的合并单元格。由于Markdown格式不能表示合并单元格,我们在Markdown格式中将合并单元格中的全部文本放入每个原始单元格中。如图所示,在分块1中,文本“Year ended March 31,2021”重复了9次,表示该合并单元格合并了9个原始单元格。1.此外,“Management Discussion and Analysis”和“112 Alibaba Group Holding Limited”被识别为页眉和页脚,它们被分别放置在解析结果的顶部和底部,与阅读顺序一致。另一个案例2为复杂的跨页表格,其解析结果如附录中的图16所示。

Others are asking
ai导航
以下是关于 AI 导航的相关内容: 新手学习 AI 方面: 了解 AI 基本概念:建议阅读「」部分,熟悉术语和基础概念,包括主要分支(如机器学习、深度学习、自然语言处理等)及它们的联系。浏览入门文章,了解其历史、应用和发展趋势。 开始学习之旅:在「」中有为初学者设计的课程,特别推荐李宏毅老师的课程。还可通过在线教育平台(如 Coursera、edX、Udacity)按自己节奏学习并获证书。 选择感兴趣模块深入学习:AI 领域广泛,可根据兴趣选择特定模块,如图像、音乐、视频等,同时掌握提示词技巧。 实践和尝试:理论学习后实践是关键,可尝试使用各种产品创作作品,知识库中有实践作品和文章分享,欢迎您分享实践成果。 体验 AI 产品:与 ChatGPT、Kimi Chat、智谱、文心一言等聊天机器人互动,了解其工作原理和交互方式。 AI 智库月度榜单导航: ChatGPT VS DeepSeek 流量日报(停止更新2024 年 12 月) 日报 new!(完整日报、简易日报) 全球:AI 公司独角兽(点击访问) 全球:AI 公司收入榜(点击访问) 全球:AI 公司估值增速(点击访问) 中国:上市公司覆盖力(点击访问) 中国:AI 公司注意力(点击访问) 全球 WEB 榜2025 年 1 月 中国:上市公司注意力(点击访问) IDE 设置中的 AI 设置: 进入 Trae AI 设置部分:在界面右上角点击头像,在快捷菜单中选择设置,打开设置窗口后从左侧导航栏中选择 Trae AI 即可进入。 设置 AI 对话语言:在 AI 会话语言处可选择语言,包括 Auto 自动(按用户提问时所用语言回答,若无法判断则根据用户历史对话或 Trae 的语言)、中文(若用户未指定则用中文回答)、English(若用户未指定则用英语回答)。
2025-03-22
AI写小说
以下是关于 AI 写小说的相关内容: 1. Stuart 分享的用 coze 写起点爆款小说《夜无疆》的工作流: 工作流效果:以起点 Top1 的《夜无疆》为题创作,虽未达到小说家水平,但至少达到高中生中较好的水平,是从通常的 AI 写作水平到当前的质的飞跃,其中思路值得学习。 工作流步骤: 用 bing 搜索标题相关内容。 用程序将搜索结果结构化(不熟悉程序可忽略或复制文中代码)。 用大模型草拟大纲,包括标题、主旨、世界观、主要角色、小说背景、情节概要。 再用大模型写文章。 输出文章内容。 2. 陈财猫提到的用 AI 写出好文字的技巧: 第一个技巧是“显式归纳与列出你想要的文本特征”,例如明确描述写小说所需的文风、文笔特点,如“几句话一换行”“以短句和对话为主,结构紧凑”“用词直白犀利”等,在调试中增减描述条件,直至达到理想效果。 第二个常用方法是“通过 prompt 中的描述与词语映射到预训练数据中的特定类型的文本,从而得到想要的相似样本”,直接点明所需文本类型常出现的地方,如写充满张力的女性复仇文,指出可能出现在晋江文学城或起点中文网的古代言情分类中。 3. AI x 即兴戏剧工作坊中提到使用 midreal.ai 以「即兴喜剧」开头写短篇小说,以及使用 GPT4、悠船、midjourney 进行 AI 绘画,并用 Canva 做电影格式模板用于现场搭建和表演即兴剧。
2025-03-22
白日梦AI
以下是关于“白日梦 AI”的相关内容: 1. NeoscapeReverie 白日梦景:使用 AI 制作充满前卫时尚与沉浸式、强烈梦境景象的服装设计,Post Dreamcore 美学暗示服饰不仅是用来穿的,而是用来体验的,仿佛穿戴者用生动梦境的碎片装饰自己。 2. 神奇管道 MagicPipe:努力把 AI 变得简单易用,让每个人都能成为创意的参与者。通过和「妙刷」合作,启动“魔法实验”,用户上传身边物件的照片,AI 能将其变成哆啦 A 梦的道具,赋予全新功能和意义。 3. 【深度揭秘】AI 幻觉背后的技术真相与应对策略,探索人工智能的未来: AI 也会“白日梦”?——细思极恐的 AI 幻觉案例:如律师引用 AI 提供的虚构判例。 “心脏糖尿病”?!—AI 医生,你认真的吗?:AI 医生可能编造闻所未闻的医学术语,误导医生,延误患者治疗。
2025-03-22
对deepseek降低论文aigc率的指令
以下是关于 Deepseek 降低论文 AIGC 率的一些指令和方法: 1. 模糊指令优化: 对于宽泛需求,可添加维度约束,例如原句“写小说”可修正为“创作以 AI 觉醒为背景的悬疑短篇,采用多视角叙事结构”。 对于主观表述,可量化标准,比如原句“写得专业些”可修正为“符合 IEEE 论文格式,包含 5 项以上行业数据引用”。 2. 迭代优化法: 首轮生成:获取基础内容。 特征强化:请加强第三段的技术细节描述。 风格调整:改用学术会议报告语气,添加结论部分。 最终校验:检查时间逻辑一致性,列出可能的事实性错误。 3. 信息幻觉:追加请标注所有不确定陈述,并提供验证方法。 4. 格式偏离:使用严格遵循以下模板:第一行...第二行... 5. 深度不足:触发请继续扩展第三章节内容,添加案例佐证。 此外,还有一些相关的提示词方法论,如文风转换矩阵、领域穿透技术、场景化实战策略、效能增强技巧、特殊场景解决方案等,可能对您降低论文 AIGC 率也有所帮助。
2025-03-22
AI视频制作教程
以下是关于 AI 视频制作的教程: 让古画动起来的步骤: 1. 对于简单的图,找原图直接写提示词即可。若碰到多人多活动的复杂图,需把长图分多个模块。 2. 智能抠图,去除要动的内容,用 AI 生成图片部分。若有水印,可把图片向下拓展一部分再截掉。 3. 将拿来动起来的部分抠出,放在绿幕背景里或画的背景颜色,导出图片。 4. 用 AI 视频生成工具写入提示词让图片动起来,如即梦、海螺、混元等,不停尝试抽卡。 5. 用剪映把抽卡合格的视频放在去掉内容的背景图片上,通过色度抠图调整去掉视频背景。多个视频放在背景图片,一起动即可。 把小说做成视频的流程: 1. 用 AI 工具(如 ChatGPT)分析小说内容,提取关键场景、角色和情节。 2. 根据小说内容,使用工具(如 Stable Diffusion 或 Midjourney)生成角色和场景的视觉描述。 3. 使用 AI 图像生成工具创建角色和场景的图像。 4. 将提取的关键点和生成的图像组合成视频脚本。 5. 利用 AI 配音工具(如 Adobe Firefly)将小说文本转换为语音,添加背景音乐和音效。 6. 使用视频编辑软件(如 Clipfly 或 VEED.IO)将图像、音频和文字合成为视频。 7. 对生成的视频进行剪辑、添加特效和转场,提高视频质量。 8. 观看生成的视频,根据需要进行调整,比如重新编辑某些场景或调整音频。 9. 输出最终视频,并在所需平台上分享。 制作 AI 视频短片的技巧: 基于大语言模型和绘图模型,以一带一路背景下丝绸之路为创作故事。选择大语言模型 chatgpt、kimi 进行剧本分镜设定,文生图用 midjourney 生成视觉画面,图生视频选择即梦 dreamina 制作动态画面,suno 音乐编曲,ondoku 主角台词配音,视频剪辑使用剪映。部分音效在网上无版权下载或使用剪映自带音效。确立时长为 1 分钟左右的 AI 生成画面,加上闭幕不超过 2 分钟,风格大致定义为中国风,并进行风格测试对比。
2025-03-22
我是一名 C 端用户产品经理,想转行做 AI 产品经理,应该从哪里入手
如果您作为一名 C 端用户产品经理想转行做 AI 产品经理,可以从以下几个方面入手: 1. 学习 Prompt 提示词:了解 Prompt 提示词的概念和应用,参考相关文档如 https://www.promptingguide.ai/zh ,掌握通过 Prompt 提示词解决产品经理日常工作场景的方法,例如行业洞察分析、方法论专家、头脑风暴、需求文档设计、功能价值分析、竞品分析报告、流程图/图表设计、思维导图设计、解决方案专家、周报生成器等场景。 2. 了解行业动态:关注 AI 行业的最新发展和趋势,通过混入各种相关群,与不同的人交流业务和技术,获取最新信息。 3. 弥补知识差距:由于 AI 技术发展迅速,可能存在技术与业务之间的知识断档。需要努力弥补自己在技术和业务方面的不足,熟悉相关技术知识,同时深入理解业务需求。 4. 积累项目经验:可以尝试参与一些 AI 相关的项目,哪怕是免费为相关人员提供服务,以积累实际经验。 5. 分析成功案例:研究已有的 AI 产品,了解其成功的因素和实现方式。
2025-03-22
pdf生成视频
以下是关于 PDF 生成视频的相关信息: 将 PDF 转换为可交互网页: 先将文件转换为 PDF 格式,其他格式也可行,但 PDF 效果更佳。 若在文章中加入图片,网络图片可直接复制其 URL,右键图片选择复制 URL 后用 Markdown 格式写入文档;自己的图片可使用图床服务(如 https://sm.ms/)托管生成公链。 插入视频时,先将本地视频上传至公网(如 B 站),在视频页面寻找“分享”按钮,点击“嵌入”或“嵌入代码”选项获取 URL,用 Markdown 格式写入。 使用 Adobe Firefly 生成带有文本提示和图像的视频: 在 Advanced 部分,可用 Seed 选项添加种子编号,控制 AI 创建内容的随机性。相同种子、提示和控制设置可重新生成类似视频剪辑。 在 Adobe Firefly 网站(https://firefly.adobe.com/)选择“生成视频”。 在 Generate video 页面的 Prompt 字段输入文本提示,也可在 Image 部分的 Upload 选项使用图像作为第一帧并提供方向参考。添加图像可使生成的视频更符合预期。 在 General settings 部分可确定Aspect ratio 和 Frames per second。
2025-03-22
读pdf并根据要求从中提取特定内容的比较好的AI工具有哪些
以下是一些能够读 PDF 并根据要求从中提取特定内容的 AI 工具: 1. DeepL(网站):点击页面「翻译文件」按钮,上传 PDF、Word 或 PowerPoint 文件即可。 2. 沉浸式翻译(浏览器插件):安装插件后,点击插件底部「更多」按钮,选择「制作双语 BPUB 电子书」、「翻译本地 PDF 文件」、「翻译 THML/TXT 文件」、「翻译本地字幕文件」。 3. Calibre(电子书管理应用):下载并安装 calibre,并安装翻译插件「Ebook Translator」。 4. 谷歌翻译(网页):使用工具把 PDF 转成 Word,再点击谷歌翻译「Document」按钮,上传 Word 文档。 5. 百度翻译(网页):点击导航栏「文件翻译」,上传 PDF、Word、Excel、PPT、TXT 等格式的文件,支持选择领域和导出格式(不过进阶功能基本都需要付费了)。 6. 彩云小译(App):下载后点击「文档翻译」,可以直接导入 PDF、DOC、DOCX、PPT、PPTX、TXT、epub、srt 等格式的文档并开始翻译(不过有免费次数限制且进阶功能需要付费)。 7. 微信读书(App):下载 App 后将 PDF 文档添加到书架,打开并点击页面上方「切换成电子书」,轻触屏幕唤出翻译按钮。 此外,还有一些与 PDF 处理相关的 AI 工具,如: 1. :它可以提取 PDF 文件中的内容,并将内容交给 ChatGPT 进行分析。待解析完成之后,你便可以跟它进行一对一对话交流,就好像它是一个完全理解内容的人一样。 2. 可以使用 PyMuPDF 组件,通过 Python 脚本从 PDF 中获取图片。
2025-03-19
用哪个大模型,在PDF和图片识别上精度高
在 PDF 和图片识别方面,对于图片,ChatGPT 依靠视觉模型解析,复杂图片建议使用最新模型(如 GPT4.5)。对于 PDF,ChatGPT 仅能识别文本,无法读取图表、图片,复杂布局可能导致误读。一些初步实验表明,一些开源的 PDF 解析方法可能无法达到高质量要求,而当辅以可以有效提取文档中的结构化信息并将其整合为提示词(Prompt)的 PDF 解析器时,大语言模型能够作出更准确的响应。
2025-03-18
有修改PDF的AI吗
以下是一些可以修改 PDF 或翻译 PDF 的 AI 工具和方法: 修改 PDF 为可视化网页: 可以使用 AI 把 PDF 一键变成能玩的可视化网页。具体步骤如下: 1. 如果想插入视频,找到公网的视频地址(本地视频先上传到公网,如 Youtube 或 B 站),在视频页面寻找“分享”按钮,点击“嵌入”或“嵌入代码”选项。 2. 把复制下来的 HTML 代码粘贴到媒体资源处。 3. 将改完的 Prompt 粘贴到 Claude 自己的官网、trea 海外版、cursor 等里面。 4. 如果是其他渠道,没有代码预览功能,可把生成的代码直接复制到 https://www.yourware.so/ 网站,点击 deploy code 稍等一会,就有预览。点击 copy link 可分享给朋友链接一起看。 翻译 PDF: 1. DeepL(网站):点击页面「翻译文件」按钮,上传 PDF、Word 或 PowerPoint 文件即可。 2. 沉浸式翻译(浏览器插件):安装插件后,点击插件底部「更多」按钮,选择「制作双语 BPUB 电子书」、「翻译本地 PDF 文件」、「翻译 THML/TXT 文件」、「翻译本地字幕文件」。 3. Calibre(电子书管理应用):下载并安装 calibre,并安装翻译插件「Ebook Translator」。 4. 谷歌翻译(网页):使用工具把 PDF 转成 Word,再点击谷歌翻译「Document」按钮,上传 Word 文档。 5. 百度翻译(网页):点击导航栏「文件翻译」,上传 PDF、Word、Excel、PPT、TXT 等格式的文件,支持选择领域和导出格式(进阶功能基本需付费)。 6. 彩云小译(App):下载后点击「文档翻译」,可以直接导入 PDF、DOC、DOCX、PPT、PPTX、TXT、epub、srt 等格式的文档并开始翻译(有免费次数限制,进阶功能需付费)。 7. 微信读书(App):下载 App 后将 PDF 文档添加到书架,打开并点击页面上方「切换成电子书」,轻触屏幕唤出翻译按钮。 请注意,以上内容由 AI 大模型生成,请仔细甄别。
2025-03-14
有做PDF的AI吗
以下是一些与 PDF 相关的 AI 工具和应用: 1. DeepL(网站):点击页面「翻译文件」按钮,上传 PDF、Word 或 PowerPoint 文件即可。 2. 沉浸式翻译(浏览器插件):安装插件后,点击插件底部「更多」按钮,选择「制作双语 BPUB 电子书」、「翻译本地 PDF 文件」、「翻译 THML/TXT 文件」、「翻译本地字幕文件」。 3. Calibre(电子书管理应用):下载并安装 calibre,并安装翻译插件「Ebook Translator」。 4. 谷歌翻译(网页):使用工具把 PDF 转成 Word,再点击谷歌翻译「Document」按钮,上传 Word 文档。 5. 百度翻译(网页):点击导航栏「文件翻译」,上传 PDF、Word、Excel、PPT、TXT 等格式的文件,支持选择领域和导出格式(不过进阶功能基本都需要付费了)。 6. 彩云小译(App):下载后点击「文档翻译」,可以直接导入 PDF、DOC、DOCX、PPT、PPTX、TXT、epub、srt 等格式的文档并开始翻译(不过有免费次数限制且进阶功能需要付费)。 7. 微信读书(App):下载 App 后将 PDF 文档添加到书架,打开并点击页面上方「切换成电子书」,轻触屏幕唤出翻译按钮。 此外,在全球高增速 Top50 中,有“PDF ai”这一产品。并且,现在可以利用 AI 把 PDF 一键变成能玩的可视化网页,具体操作思路来自于歸藏,使用 Claude 3.7 Sonnet 效果较好,在使用 Prompt 时要注意修改作者信息和媒体资源等细节部分。
2025-03-14
有没有参照pdf模仿生成一个类似的word的ai
以下是关于将 PDF 转换为类似 Word 或生成可视化网页的相关内容: 用 AI 把 PDF 一键变成能玩的可视化网页是可行的。如果想插入视频,需找到公网的视频地址(本地视频先上传到公网,如 Youtube 或 B 站),在视频页面寻找“分享”按钮,点击“嵌入”或“嵌入代码”选项,把复制下来的 HTML 代码粘贴到媒体资源处。对于其他渠道没有代码预览功能的,可把生成的代码复制到 https://www.yourware.so/ ,点 deploy code 稍等就有预览,点 copy link 可分享给朋友。 基于深度学习的 ChatDOC PDF 解析器在超过一千万份文档页面的语料库上进行了训练,包含一系列复杂步骤,如 OCR 进行文字定位和识别、物理文档对象检测、跨列和跨页调整、阅读顺序确定、表格结构识别、文档逻辑结构识别等。解析后会以 JSON 或 HTML 格式提供结果,像一个结构清晰的 Word 文件。 而将 PDF 转换为可视化网页这种方式在 AI 加持下门槛很低,人人都可操作。整体思路来自归藏,按此修改的 Prompt 目前在 Claude 3.7 Sonnet 效果最好,其他大模型生成的审美稍差。Prompt 基本复制可用,但细节部分如作者信息和媒体资源要改成自己的内容。媒体资源方面,图片尽量用公链,网上现成图片可右键复制图像链接,自己的图片可使用图床服务托管生成公链,然后用 Markdown 格式贴到媒体资源处。
2025-03-13
图片合并的工具
以下是一些常见的图片合并工具及相关信息: 1. Midjourney: /blend 命令允许使用 Midjourney 的 AI 图像生成将多个图像混合在一起。使用时需上传至少两张图像,然后使用命令加上已上传的图像 ID。在单个混合命令中最多可用 10 张图像,参数可调整混合过程中的各种设置。您可以通过了解更多。 2. 星流一站式 AI 设计工具: 框选多张图像后右键,选择“合并为图片(左上角为 Merged Image 标志)”可将组内所有图片(包括空白区域)合并为一张图片。 此外,使用 coze 做智能报表助手时,会从数据库中查询前面存放的图表连接,然后调用合并图片的插件,把几张图表合并成一张大图。
2025-03-20
在coze工作流中,怎样利用下一个代码节点合并前两个代码节点的输出,并以正确的格式输入传入飞书多维表格插件节点
在 Coze 工作流中利用下一个代码节点合并前两个代码节点的输出并以正确格式传入飞书多维表格插件节点的步骤如下: 1. 搭建整理入库工作流: 3.4 大模型节点:提取稍后读元数据。根据对稍后读阅读清单的元数据期望设置大模型节点,使用 MiniMax 6.5s 245k,设置最大回复长度至 50000 以完整解析长内容网页,用户提示词需相应设置。 3.5 日期转时间戳。后续的飞书多维表格插件节点在入库日期字段时只支持 13 位时间戳,需使用「日期转时间戳time_stamp_13」插件进行格式转化,具体设置明确。 3.6 大模型节点:把稍后读元数据转换为飞书多维表格插件可用的格式。飞书多维表格插件目前(2024 年 08 月)只支持带有转义符的 string,以 Array<Object>格式输入,所以要将之前得到的元数据数组进行格式转换,大模型节点配置及用户提示词需相应设置。 3.7 插件节点:将元数据写入飞书表格。添加「飞书多维表格add_records」插件,设置{{app_token}}与{{records}}参数。 3.8 结束节点:返回入库结果。「飞书多维表格add_records」插件会返回入库结果,直接引用该信息用于通知外层 bot 工作流的入库是否成功。 2. 搭建选择内容推荐流: 4.1 开始节点:输入想阅读的内容主题。收到用户输入的“想看 xxx 内容”这类指令开始流程,无需额外配置。 4.2 变量节点:引入 bot 变量中保存的飞书多维表格地址,添加变量节点并设置。 4.3 插件节点:从飞书多维表格查询收藏记录。添加「飞书多维表格search_records」插件,设置{{app_token}}参数,并在{{app_token}}引用变量节点的{{app_token}},输出结果的{{items}}里会返回需要的查询结果,也可在这一步定向检索未读状态的收藏记录。 4.4 大模型节点:匹配相关内容。为处理稳定采用批处理,对检索出来的收藏记录逐个进行相关性匹配,用户提示词可优化以提升匹配精准度。 搭到这里,别忘了对整个工作流进行测试。
2025-01-09
coze合并代码节点
以下是关于 Coze 合并代码节点的相关内容: 在 Coze 上搭建工作流框架时,设定每个节点的逻辑关系很重要。对于「分段」、「拼合」代码节点设计,实际测试表明由于 LLM 的上下文长度有限,通常一次性输入输出的文本越长,生成时间越长,结果稳定性越低,特别是对生成结果格式要求较高时问题更突出。考虑到对照精读环节本身是逐段生成的,适合批处理形式,所以需要用「分段输入正文」,分割正文后用 LLM 节点批处理每一段的对照精读,最终「拼合精读结果」以输出完整文本。如果觉得编写代码脚本繁琐且仅进行文本处理,也可使用 LLM 节点配合适当 prompt 临时验证整个工作流。 在插件中心确定需要的插件时,先用关键词尝试性搜索,根据插件名称、介绍页、描述、参数、示例判断是否可能满足需求。有多个插件可选时,一般优选官方/高收藏/高成功率的插件以提升使用效果。若实际试用效果不行,则换用其他插件或自己编写上架插件。例如 TTS 文字转语音插件可通过搜索“语音”“文字转语音”“TTS”等相关关键词找到“英文文本转语音”插件;思维导图插件可通过搜索“脑图”“树图”“导图”“mindmap”等关键词找到“TreeMind 树图”插件。 Coze 工作流节点还包括大模型节点、代码节点和选择器节点。大模型节点可利用大语言模型生成文本内容,能选择所用大语言模型、设置生成内容随机度并编写提示词,提示词中支持使用{{variable}}引用输入参数。代码节点通过 IDE 编写 Python 或 JavaScript 脚本处理输入参数并返回输出值,支持 JavaScript 和 Python 运行时,尽量使用 JavaScript,尽量让 AI 去写,不熟悉时易增加麻烦。选择器节点是一个 ifelse 节点,用于设计工作流内的分支流程,每增加一个条件右边会多出一个点,点中拖到对应的下一级节点,输入参数时节点会判断是否符合“如果”区域条件,符合则执行对应分支,否则执行“否则”分支。
2025-01-09
有没有能将提供的文章内容改写合并的提示词?
以下是一些能够将提供的文章内容改写合并的提示词示例: 对于政府机关材料写作者的提示词: Role:人物精神写作笔杆子,Profile 包含作者、版本、语言、描述等信息,Goals 是根据提供的材料生成完整文体,Constrains 有对未知信息的处理、调用数据库等,Skills 包括文章撰写和排版审美,Workflows 有具体步骤。 对于联网的科普作者的提示词: Role:科普作者,Profile 包含作者、版本、语言等信息,Goals 是根据关键词解读新闻,Constrains 有准确性、清晰性、公正性和及时性要求。 对于新闻文章的事实核查员的提示词:角色为新闻文章的事实核查员,个人信息包含作者等,目标是区分事实和观点等,约束有对事实和观点的处理方式,Skills 包括区分能力和使用格式化技术,工作流程分多步进行。
2024-10-15
如何让对话几条消息合并意图回复
默认情况下,Cursor Chat 位于 AI 窗格中,与您的主要侧边栏相对。用户消息包含您键入的文本以及您引用的上下文。您可以返回任何以前的用户消息来编辑和重新运行查询,这将覆盖此后的所有消息并重新生成新消息。AI 消息是您选择的 AI 模型生成的响应,它们与前面的用户消息配对,可能包含已解析的代码块,这些代码块可以通过添加到您的代码库中。同一线程中的所有用户/AI 消息称为聊天线程,每个聊天线程都保存在您的聊天历史记录中。
2024-09-16
哪个AI工具可以上传多个文档,然后把内容理解合并生成一份总结
根据搜索结果,有几款AI工具可以上传多个文档,并理解合并生成一份总结: 1. ChatDOC 是一款AI文献阅读和文档处理工具,它允许用户上传文档,并与AI进行对话来处理专属数据。ChatDOC通过智能分析文档内容,帮助用户快速获取文章摘要、深挖特定观点和数据、翻译文本、总结内容等。此外,它还支持追问功能,允许用户进行多轮问答,以深入挖掘文本结构和内容 。 2. 通义听悟 是阿里云推出的AI助手,它支持在多种场景下实时转录和音视频转文字,智能生成总结。该工具可以快速标记关键信息,并且识别结果和笔记能够轻松导出至本地或储存在阿里云盘 。 3. EasyPeasy.AI 提供了一个“合并文本”的模板,该模板可以帮助用户合并多个文档的内容。用户可以使用这个工具来整合和生成一份总结 。 这些工具通过AI技术帮助用户从多个文档中提取关键信息,并生成简洁的总结,非常适合需要处理大量文档并快速获取信息的场景。
2024-07-04