计算机视觉是机器认知世界的基础,人类获取的信息约 83%来自视觉,而计算机视觉旨在让计算机看懂图像或视频里的内容,像人一样通过视觉观察和理解世界。
其三大基础任务包括分类、检测和分割:
此外,计算机视觉还包括目标跟踪,对图像序列中的运动目标进行检测、提取、识别和跟踪,实现对运动目标的行为理解。
参考资料:
在企业应用中,计算机视觉的应用包括:
人类获取的信息有83%来自视觉,11%来自听觉,剩下的6%来自嗅觉、触觉、味觉。所以对人类来说,视觉是最重要的一种感官。计算机视觉是机器认知世界的基础,解决的问题就是让计算机看懂图像或视频里的内容,能像人那样通过视觉观察和理解世界。计算机视觉的三大基础任务为分类、检测和分割。如图中所示,分类就是回答这张图是猫的问题;检测就是识别图中的猫和狗,并在图中定位出来;分割就是将猫和狗从图中提取出来。[heading2]图像分类[content]根据图像中的语义信息对不同类别的图像进行区分。如下图,图像中有person,tree,grass,sky。人和计算机理解图像的方式不一样,存在语义差异。人通过模式识别来分辨出猫和狗,但是计算机看到的是像素矩阵。[heading2]目标检测[content]找出图像或视频中的目标物体,同时检测出物体的位置和大小。如下图,用边框标记出所有人的位置。在多类别目标检测中,使用不同颜色的边框对检测到的物体进行标记。[heading2]图像分割[content]图像分割又可以划分为语义分割和实例分割。都是预测每个像素点所属的类别,不同的是语义分割不区分同类目标,而实例分割则需要区分同类目标中的不同个体。语义分割:通过将整个图像分成像素组,然后对像素组进行标记和分类。如下图,把图像分为人(红)、树木(深绿)、草地(浅绿)、天空(蓝)。实例分割:通过目标检测和语义分割的结合,将同类别下的物体也分成不同实例。语义分割实例分割[heading2]目标跟踪[content]对图像序列中的运动目标进行检测、提取、识别和跟踪,实现对运动目标的行为理解。
[飞桨:计算机视觉](https://paddlepedia.readthedocs.io/en/latest/tutorials/computer_vision/index.html)[一文读懂计算机视觉,干货满满](https://www.51cto.com/article/716712.html)[综述计算机视觉五大技术:图像分类、对象检测、目标跟踪、语义分割和实例分割](https://www.cvmart.net/community/detail/655)[第4章图像分类基础](https://www.cnblogs.com/paladinzxl/p/9491633.html)[综述:目标检测二十年(2001-2021)](https://www.cvmart.net/community/detail/4992)
计算机视觉:图像分类和物体识别,是将图片作为输入,输出图像的内容分类。应用于面部识别。物体识别,不仅是分类或者识别物体,还有检测是否有物体出现在一个图像里。图像分割算法,不仅识别出对应的物体的位置,并将不同物体对应的像素点进行标记。识别X光照射图片则使用这种算法。计算机视觉还可以进行视觉追踪,如检测视频中的奔跑者,还可以追踪随时间产生的对应轨迹,确定其运动方向。自然语言处理:文本分类,识别邮箱或文本中的内容,进行归类。可以用于情绪识别信息检索,输入关键字,希望AI可以顺利找出文档。名称实体识别,可以找出句子里的名称。自动提取电话,姓名,国籍等。机械翻译,进行语言翻译解析与语音部分标注技术,将句子词性标注(part-of-speech tagging),最后通过识别名词,形容词,动词等,让AI系统找出哪一些词语可以留意。解析器,将单词组合成短语,最后组合成句子,同样是一种分类标签。语音识别,将麦克风记录的空气高速压力变化数据,转化为文本。触发词检测,识别触发词语音ID识别,倾听说话来识别身份语音合成技术Speech synthesis(text-to-speech,TTS),输入是文本,输出是语音机器人:机器人“感知”,意思是找出围绕于你的东西运动轨迹计划,会寻找机器人行进的路径控制,发送控制指令让机器跟随对应路径