图片信息提取主要包括以下几个方面:
1.上传输入图片2.理解图片信息,提取图片中的文本内容信息3.场景提示词优化/图像风格化处理4.返回文本/图像结果[heading2]2.1零代码版本[content]为了简化流程,我们选择了Coze平台并实现了零代码版本的工作流。搭建流程时,我们主要关注以下几个步骤:上传图片:将本地图片转换为在线OSS存储的URL,以便在平台中进行调用,主要是用图像流过一道。插件封装:将图片理解大模型和图片OCR封装为工作流插件,实现便捷调用,如果市场里面有可以直接使用。
(图像识别&信息总结设计说明)信息整合+提炼的Prompt提示词下面这段Prompt是我在代码工程中使用的。它简单实现了将OCR文本信息与图片识别信息的关联整合,并按照信息分类分析方法去做整理任务,最终按照我指定的格式进行输出,为了关键词检索方便,我还为输出内容增加了标签分类。这里要提一下,为什么我这么推荐LangGPT的写法,却在自己的代码工程中的Prompt不再使用LangGPT框架的Markdown格式?坦诚来说,我确实很喜欢LangGPT的Markdown格式,对于界面段交互来说,是DIY友好型,可以自定义增加各种元素,它可以更注重输出结果即可。但对于工程来说,成本消耗和输出结果需要有一个平衡。LangGPT整体篇幅相对较长,工程中希望通过精炼的关键词达到同样的效果,此外对于代码工程的Token计算来说,在用户基数和请求次数特别庞大的情况下,每节省一次请求的Token总体来看就节省了一大笔费用。对Token优化感兴趣的朋友我们可以在后续一起讨论一下:如何做到Less Is More的Prompt结构化减法。当然,下面的Prompt提示词也只是简单实现了初步预期功能,也需要不断的迭代。(Trickle图片信息提炼效果图)(Trickle-on-wechat图片信息提炼效果图)
左侧图片案例板块中包含了大量的图像例图与生图信息,滑动鼠标到图像的“info”区域可直接将图像发送到画布与生图信息调取。[heading4]图像筛选功能[content]1.推荐:根据你正常进行的生图参数(模型、提示词)进行推荐,比如你正在生成女性摄影方向的图,图片推荐中就会向你推荐这一类型的图。2.热门:向你推荐浏览量最高的图片3.搜索:输入对需求图像的描述,进行图像搜索。[heading4]图像调取[content]1.点击“发送到画布”直接将图像发送到“无限画布”中[heading4]生图参数调取[content]整体调取:点击“发送到生成器”将全部参数进行调取单个调取:可点击右侧单独的发动键调取单个参数