图片识别是一个复杂但重要的领域,以下为您介绍相关知识:
如果识别一个印刷体图片,我可能会怎么做神经网络解决的是未知规则的处理。先把图片都变成黑白大小变成固定尺寸和数据库的东西对比得出结论然而,这种情况过于理想化。不仅存在多种字体,即使对于印刷体,不同的拍摄角度也引入了多种例外情况。虽然存在图形算法进行矫正,但整体方法仍然是基于不断添加规则。这种方法本质上是试图通过不断增加和完善规则来解决问题,这显然是不可行的。虽然这种方法可以解决象棋的问题,但对围棋来说就非常困难了。围棋的每个节点有三种可能状态:白、黑或空,加上不同节点间状态的组合,现有的资源无法应对。神经网络专门处理未知规则的情况。将图片转换为黑白,调整图片至固定尺寸,与数据库中的内容进行对比,最终得出结论。神经网络的发展得益于生物学研究的支持,并且在数学上提供了一种方向,使其能够处理未知的情况,如手写体识别。关于这部分内容,非常建议看《这就是ChatGPT》这本书,它的作者是被称为”在世的最聪明的人”,研究神经网络几十年,创作了Mathematica、Wolfram等备受推崇的软件,这本书最特别之处还在于,导读序是美团技术学院院长刘江老师回顾了整个AI技术发展的历史,对于了解AI,大语言模型计算路线的发展,起到提纲挈领的作用,非常值得一读。本文写作过程中得到了[byzer-llm](https://github.com/allwefantasy/byzer-llm)作者祝威廉的大力支持,在此感谢。byzer-llm选择了一个非常特别的技术路线,在大模型时代显得尤为重要。
受大脑神经元网络的启发,罗森布拉特提出可以应用感知机网络来执行视觉任务,例如人脸和物体识别。为了了解感知机网络是如何开展工作的,我们接下来将探索一个感知机如何执行特定的视觉任务,比如,识别如下图所示的手写数字。我们将感知机设计为“8”探测器,也就是说,如果其输入是一幅数字8的图像,则输出1;如果输入图像的内容是其他数字,则输出0。设计这样一个探测器需要我们先弄清楚如何将图像转换为一组数值输入,再确定感知机的权重分配和阈值,以使感知机能够产生正确的输出(8为1,其他数字为0)注:18×18像素图像中的每个像素对应感知机的一个输入,该感知机共有324(18×18)个输入上图(A)展示了一个放大的手写数字8,其中X轴有18个网络方块,Y轴也有18个网络方块,所以一共有18x18共324个网络方块。图中每个网格方块(像素)都有一个可以用数字表示的强度值——像素强度(pixel intensity),在黑白图像中,纯白色方块的像素强度为255;纯黑色方块的像素强度为0;而灰色方块的像素强度介于其间。该感知机具有324(18×18)个输入,每个输入对应于网格中的一个像素强度,同时每个输入都有自己的权重。那么我们如何为一个给定的任务准确地设定正确的权重和阈值呢?罗森布拉特再次给出了一个受大脑启发的答案:感知机应该通过自己的学习获得这些数值。从行为心理学上来看,给老鼠和鸽子以正向和负向的强化可以用来训练它们执行任务。而感知机也应该在样本上进行类似的训练:在触发正确的行为时奖励,而在犯错时惩罚。如今,这种形式的条件计算在人工智能领域被称为监督学习(supervised learning)。
当然,要培养出鉴赏AI的技能,多少还是需要我们训练训练自己的大脑模型的。那如果不善于此的朋友,想要判断眼前的作品是否是AI造物呢?AI技术自己带来的造假难题,也该由AI自己的同僚互鉴打假来解决。现在已有不少网站在做这件事情,通过对大量的图片数据的抓取和分析,给出对画作属性的判断可能性。例如使用AI来鉴别AI绘图性质的网页:ILLUMINARTY(https://app.illuminarty.ai/)。但在测试过程中,有些结构严谨的真实摄影作品,反而会被识别为AI作图。这跟我们前面提到的,AI作画很难完成严谨真实的结构这一点,是相互矛盾的。鉴别的AI认为,过于严谨的图像不像是真实的人造产物。而画图的AI其实难以生成严谨的结构造型。这就是鉴定AI自身的逻辑算法,并不能像人类一样综合去考虑不符合人的逻辑的各种表现。多试几张,就能磕着瓜子看AI吵架了。甚至作长者摇头抚须状,长叹一声,「AI后生们,还有很长的路要走啊。」我们看完AI显眼包的快乐丢撵后,来聊聊「我们为什么要鉴别AIGC」?已经「知其然」,也大略「知其所以然」,而后终于能顺势讨论讨论「知何由以知其所以然」。