以下是关于将 PDF 转换为类似 Word 或生成可视化网页的相关内容:
用 AI 把 PDF 一键变成能玩的可视化网页是可行的。如果想插入视频,需找到公网的视频地址(本地视频先上传到公网,如 Youtube 或 B 站),在视频页面寻找“分享”按钮,点击“嵌入”或“嵌入代码”选项,把复制下来的 HTML 代码粘贴到媒体资源处。对于其他渠道没有代码预览功能的,可把生成的代码复制到 https://www.yourware.so/ ,点 deploy code 稍等就有预览,点 copy link 可分享给朋友。
基于深度学习的 ChatDOC PDF 解析器在超过一千万份文档页面的语料库上进行了训练,包含一系列复杂步骤,如 OCR 进行文字定位和识别、物理文档对象检测、跨列和跨页调整、阅读顺序确定、表格结构识别、文档逻辑结构识别等。解析后会以 JSON 或 HTML 格式提供结果,像一个结构清晰的 Word 文件。
而将 PDF 转换为可视化网页这种方式在 AI 加持下门槛很低,人人都可操作。整体思路来自归藏,按此修改的 Prompt 目前在 Claude 3.7 Sonnet 效果最好,其他大模型生成的审美稍差。Prompt 基本复制可用,但细节部分如作者信息和媒体资源要改成自己的内容。媒体资源方面,图片尽量用公链,网上现成图片可右键复制图像链接,自己的图片可使用图床服务托管生成公链,然后用 Markdown 格式贴到媒体资源处。
如果你想插入视频的话,也很简单,找到公网的视频地址(你自己的本地视频就先上传到公网上,比如Youtube或者B站之类的)。在视频页面寻找"分享"按钮,点击"嵌入"或"嵌入代码"选项。比如这个B站的例子。把复制下来的HTML代码粘贴到媒体资源那。比如《死亡搁浅2》预告片的资源代码就是这样的:然后,就把改完的Prompt,粘贴到Claude自己的官网、trea海外版、cursor等等里面去就行。如果是其他渠道的,没有那种代码预览功能的,就可以把生成的代码直接复制到这个网站里,https://www.yourware.so/,像这样,然后点deploy code,稍等一会,就有预览了。点copy link,就可以直接分享给朋友链接就可以一起看。教程就是这样了,是不是很简单。真的,只要你能用上Claude 3.7,真的就是有手就行。我自己也随手跑了两个case玩。我第一个想到的场景,就是吃瓜。。。因为每次一有点啥瓜,朋友就扔给我个pdf。好看是好看,就是忒长了。。还是纯流水账,毫无重点。每次我都得强撑着分着看好几次,才能看完。比如说,这个PDF(为了保护别人的隐私,所以这个是我用纯Claude仿制生成的,可能有点无聊。如有雷同,就是Claude的锅)我闲读着麻烦,直接反手改成了可视化网页。网址在这:https://jdsrt3f1pk.yourware.so/时间线、人物关系图谱应有尽有。甚至还有对话重现。。太细了。
接下来,我们转向基于深度学习的解析方法,以我们的ChatDOC PDF解析器为例。ChatDOC PDF解析器(pdflux.com)在超过一千万份文档页面的语料库上进行了训练。按照引用[2]中的方法,它包含了一系列复杂的步骤:1.OCR进行文字定位和识别;2.物理文档对象检测;3.跨列和跨页调整;4.阅读顺序确定;5.表格结构识别;6.文档逻辑结构识别。读者可以参考引用[2]了解这些步骤的细节。解析后,我们用段落和表格作为基本块,然后合并相邻块,直到达到词元(Token)限制以形成一个分块。ChatDOC PDF解析器旨在始终以JSON或HTML格式提供解析结果,即使对于有挑战性的PDF文档也是如此。它将文档解析为内容块,其中每个分块指代一个表格、段落、图表或其他类型的内容元素。对于表格,它会输出每个表格单元格中的文本,并告知哪些单元格被合并成一个新的单元格。此外,对于具有分级标题的文档,它会输出文档的分层结构。总之,解析后的结果就像一个结构清晰的Word文件。图5展示了一个扫描复印页面及其解析结果。左侧展示了文档及识别的内容块(不同内容块用不同颜色的矩形表示)。右侧展示了JSON或HTML格式的解析结果。读者可以参考引用[3]查看这个解析结果的在线演示。图5 ChatDOC PDF解析器的解析结果。放大查看细节。
而现在,可视化网页这种方式,在AI的加持下,门槛低到尘埃里,人人都可以做,那曾经遥不可及的形式,如今唾手可得。这也是一种,非常有趣的新的信息革命。你想想,你以后的报告不是PDF,不是PPT,而是一个可以交互的可视化网页甩过去,该有多酷。说说怎么做,整体的思路几乎都还是来自于歸藏。非常实用,按藏师傅的话说,八十老太都能操作。我在藏师傅的基础上,稍稍修改了一点点prompt,以便能更好的让大家使用。要注意,这个Prompt不是复制给任何大模型都可以用的,目前大家测试下来,只有Claude 3.7 Sonnet效果最好最强,其他的大模型生成出来的审美,总还是差点意思,所以,你可以把Prompt,发给任何能用Claude 3.7的产品。比如Claude自己的官网、trea海外版、cursor等等。Prompt整体上基本复制就可以用,但是细节部分,你还是要改成你的信息。主要就是两趴:1.作者信息这一块改成你自己的内容2.媒体资源这一块,你可以加上自己特定要出现的图片/视频,不需要的直接删掉这一块就行把这两块定义一下,就OK了,文档啥的你就自己上传就行。媒体资源这块我详细说一下,比如你希望展现的图片啥的,但是记住不要跟着文档一起上传,可能会有显示错误,尽量用公链。图片这块,如果是网上现成的图片,你就直接右键图片,复制图像链接就行。如果是你自己的图片,可以使用图床服务(比如如https://sm.ms/)托管图片,生成一个公链。然后,用Markdown格式贴到媒体资源那。