以下是一些关于用大模型将扫描版 PDF 进行 OCR 的工具的相关信息:
截止2月4日,kimi还不支持扫描版本的pdf,还是要纯文字的才能识别,感谢姚怡枝尝试告知无人之路GO无人之路2024-02-01 20:58发表于浙江https://mp.weixin.qq.com/s/yBeW02l9ULQYGaOxO2R4PA引子最近上下班的地铁上在读《深度学习入门--基于Python的理论与实现》,希望补一补这一波AI浪潮的基础。这是日本作者斎藤康毅深度学习“鱼书”系列的第一本,非常好读。这个系列的特点是从0开始,深入浅出;我已经刷到第三本了,强烈推荐给所有想要了解深度学习的同学。因为可读性强,刷得快,一个星期就完本;但读完之后总是觉得不踏实,对自己的掌握程度不确定。自然而然地问,大语言模型能帮我复习、测试和巩固吗?于是,开启了探索之旅。要让大模型根据书本的内容来与我交互,首先需要将整本书喂给它,这一步是关键。而这第一步就成了很多大模型产品的门槛。首先是ChatGPT,由于众所周知的原因,它的网络非常不稳定,我上传了很多次本书的PDF都没有成功:再试试支持超长上下文的Claude吧,发现它有10MB的附件限制,而这个PDF文档是11.3MB,超长限制😭还有什么办法呢?这时候,耳边响起了“kimi”的声音!
用于处理各种格式的文档输入,包括PDF、Word、Excel、网页等,转换成可解析的结构化文本。多种文件格式支持:需要支持从多种格式(PDF、Word、Excel、TXT等)中提取文本。对于图片,可以借助OCR工具进行文本提取,(开放平台工具:[文档内容提取](https://www.bigmodel.cn/dev/howuse/fileqa))。网页可以使用网页爬虫工具(如Scrapy、BeautifulSoup、Selenium)抓取网页中的文本和表格数据。通过解析HTML的DOM结构,提取目标数据。(平台暂无工具)参考代码
[heading2]智能章节本章节首先表明底部图像已完成,介绍了其包含logo、小程序、文本、图片和装饰物的布局流程。接着提到接下来要进行文字生成部分,先保存现有流程再做文本。还解答了能否添加多个图片的问题,称可以通过设多个image变量输入多张图片。最后简单提及一个电饭锅。[57:57](https://waytoagi.feishu.cn/minutes/obcnmql24qtl7oh7cv281n82?t=3477000)图像流与工作流结合,医美局河图生成中的图像理解输入要求本章节图像流已完成,接下来要将图像流与工作流以及文本生成相结合以生成完整图片。创建医美局河图生成文本拼接图像流的工作流,其输入节点为一张图片,在插件使用的图像理解环节,若输入参数为URL信息可直接使用,不是则需转换,目前偏向实体识别,不需要OCR模型。[01:00:46](https://waytoagi.feishu.cn/minutes/obcnmql24qtl7oh7cv281n82?t=3646000)nimbus演示添加OCR到工作流程并结合大模型根据图像理解和OCR内容生成文案标题和文案本章节主要是进行添加OCR的简单演示,将OCR添加到工作流程中,输入为一张图片,这样就具备图像理解和识别图像文本信息两个能力。之后以这两个能力生成的内容为输入使用大模型,通过引用相关信息,根据要求生成文案标题和文案,用户提示词的写法是重点。[01:03:22](https://waytoagi.feishu.cn/minutes/obcnmql24qtl7oh7cv281n82?t=3802000)用户提示词的简单写法:模仿风格输出标题与正文