学习杂谈

计算机视觉漫谈

2017-03-20  本文已影响0人  supportingvecto

学院:电子工程学院  学号:14020199025  姓名:徐铭晟

计算机视觉是最近炒得火热的一个课题。特别是作为最新大热的深度学习的应用方向之一,此课题最近可谓赚足了眼球,借着这个嵌牛平台这个契机,笔者稍稍梳理了一下自己对这个领域的粗浅理解。由于笔者才疏学浅,文中的一些错误还希望各类大牛指正。

从人类视觉走向机器视觉(1)

   人类进化至今,已进过了数千万年的历史,在这漫长的时光中,我们已经进化出一个极其强大的视觉认知系统,这个系统进化至今,在很多应用方面仍然领先于绝大部分计算机视觉系统。下面我们就来看一下这个强大的系统演化历史。

   人类进化追根溯源自然是从单细胞生物开始。我们都知道达尔文的进化论,即物竞天择,适者生存。进化是由无方向的基因突变加上残酷的自然选择过程产生。在这种机制下,视觉的产生也就有动机可寻了。

计算机视觉漫谈

   这是一种生活在距今7亿年前的,简单生物,在它们透明介质的表面有连着神经的感光细胞,这就是我们的视觉一代。这时视觉的功能非常简单,就是感受光的强弱变化。如果光线突然变暗就表明有捕食者靠近了,需要迅速逃离。很显然,有这种特殊的本领(简单视觉)自然能在这残酷的自然世界中获得更高的生存率。慢慢的,作为捕食者也得进化出这个基本的视觉系统(不进化出就饿死了,笑)此系统比最为简单的感光更为复杂,因为此系统还需承担最初级的视觉追踪。由于捕食者和被捕食者的这层亘古不变的生物关系,视觉进化一步一步地发展。早期的动物祖先中存在两类光敏细胞,一类是感光杆细胞,现存在于大多数动物的眼睛中,另一类是睫状细胞,仍存在动物脑中。只是大脑中的睫状细胞最终进化成视网膜的感光层。

    计算机视觉即通过模仿人类的视觉得到一个弱人工智能系统。那如何将视网膜的功能类比于计算机,量化为数学表示,作为图像的输入?现在传统的做法即通过三通道红(R)、绿(G)、蓝(B),三通道数组表示一个像素点。在光图像中,rgb三原色的混合可表示任意图像的颜色。电脑中,RGB的所谓“多少”就是指亮度,并使用整数来表示。通常情况下,RGB各有256级亮度,用数字表示为从0、1、2...直到255。

   除了rgb像素,计算机视觉中还有一个名词叫做alpha通道。alpha通道是一个8位的灰度通道,该通道用256级灰度来记录图像中的透明度信息,定义透明、不透明和半透明区域,其中白表示不透明,黑表示透明,灰表示半透明。alpha通道联通rgb通道构成基本的像素点。

目前的电脑一般都能显示32位颜色,使用32位来表示一个像素,RGB分量各用去8位,剩下的8位用作Alpha通道或者不用。可以一千万种以上的颜色。当每个通道的位容量增加,我们可以表示更接近原图像颜色的数学表示,由此,我们就可以将此三通道的三维数组作为输入,将图片在计算机中表示出来,模拟了感光视网膜的输入,给后续的计算机视觉研究提供了便利。

RGB图
上一篇下一篇

猜你喜欢

热点阅读