Chat with Wiki - 计算机视觉

Answer

计算机视觉是机器认知世界的基础，人类获取的信息约 83%来自视觉，而计算机视觉旨在让计算机看懂图像或视频里的内容，像人一样通过视觉观察和理解世界。

其三大基础任务包括分类、检测和分割：

图像分类：根据图像中的语义信息对不同类别的图像进行区分。
目标检测：找出图像或视频中的目标物体，同时检测出物体的位置和大小。
图像分割：又可划分为语义分割和实例分割。语义分割不区分同类目标，实例分割则需要区分同类目标中的不同个体。

此外，计算机视觉还包括目标跟踪，对图像序列中的运动目标进行检测、提取、识别和跟踪，实现对运动目标的行为理解。

参考资料：

在企业应用中，计算机视觉的应用包括：

图像分类和物体识别，将图片作为输入，输出图像的内容分类，应用于面部识别。
物体识别，不仅分类或识别物体，还检测物体是否出现在图像里。
图像分割算法，识别物体位置并标记不同物体对应的像素点，如用于识别 X 光照射图片。
视觉追踪，检测视频中的奔跑者并追踪其轨迹和运动方向。

Content generated by AI large model, please carefully verify (powered by aily)

References

计算机视觉

人类获取的信息有83%来自视觉，11%来自听觉，剩下的6%来自嗅觉、触觉、味觉。所以对人类来说，视觉是最重要的一种感官。计算机视觉是机器认知世界的基础，解决的问题就是让计算机看懂图像或视频里的内容，能像人那样通过视觉观察和理解世界。计算机视觉的三大基础任务为分类、检测和分割。如图中所示，分类就是回答这张图是猫的问题；检测就是识别图中的猫和狗，并在图中定位出来；分割就是将猫和狗从图中提取出来。[heading2]图像分类[content]根据图像中的语义信息对不同类别的图像进行区分。如下图，图像中有person,tree,grass,sky。人和计算机理解图像的方式不一样，存在语义差异。人通过模式识别来分辨出猫和狗，但是计算机看到的是像素矩阵。[heading2]目标检测[content]找出图像或视频中的目标物体，同时检测出物体的位置和大小。如下图，用边框标记出所有人的位置。在多类别目标检测中，使用不同颜色的边框对检测到的物体进行标记。[heading2]图像分割[content]图像分割又可以划分为语义分割和实例分割。都是预测每个像素点所属的类别，不同的是语义分割不区分同类目标，而实例分割则需要区分同类目标中的不同个体。语义分割：通过将整个图像分成像素组，然后对像素组进行标记和分类。如下图，把图像分为人（红）、树木（深绿）、草地（浅绿）、天空（蓝）。实例分割：通过目标检测和语义分割的结合，将同类别下的物体也分成不同实例。语义分割实例分割[heading2]目标跟踪[content]对图像序列中的运动目标进行检测、提取、识别和跟踪，实现对运动目标的行为理解。

计算机视觉

[飞桨：计算机视觉](https://paddlepedia.readthedocs.io/en/latest/tutorials/computer_vision/index.html)[一文读懂计算机视觉，干货满满](https://www.51cto.com/article/716712.html)[综述计算机视觉五大技术：图像分类、对象检测、目标跟踪、语义分割和实例分割](https://www.cvmart.net/community/detail/655)[第4章图像分类基础](https://www.cnblogs.com/paladinzxl/p/9491633.html)[综述：目标检测二十年（2001-2021）](https://www.cvmart.net/community/detail/4992)

学习笔记：AI for everyone吴恩达

计算机视觉：图像分类和物体识别，是将图片作为输入，输出图像的内容分类。应用于面部识别。物体识别，不仅是分类或者识别物体，还有检测是否有物体出现在一个图像里。图像分割算法，不仅识别出对应的物体的位置，并将不同物体对应的像素点进行标记。识别X光照射图片则使用这种算法。计算机视觉还可以进行视觉追踪，如检测视频中的奔跑者，还可以追踪随时间产生的对应轨迹，确定其运动方向。自然语言处理：文本分类，识别邮箱或文本中的内容，进行归类。可以用于情绪识别信息检索，输入关键字，希望AI可以顺利找出文档。名称实体识别，可以找出句子里的名称。自动提取电话，姓名，国籍等。机械翻译，进行语言翻译解析与语音部分标注技术，将句子词性标注（part-of-speech tagging），最后通过识别名词，形容词，动词等，让AI系统找出哪一些词语可以留意。解析器，将单词组合成短语，最后组合成句子，同样是一种分类标签。语音识别，将麦克风记录的空气高速压力变化数据，转化为文本。触发词检测，识别触发词语音ID识别，倾听说话来识别身份语音合成技术Speech synthesis（text-to-speech,TTS），输入是文本，输出是语音机器人：机器人“感知”，意思是找出围绕于你的东西运动轨迹计划，会寻找机器人行进的路径控制，发送控制指令让机器跟随对应路径