什么是计算机视觉 (Computer Vision)?

文章正文
发布时间:2024-07-14 00:12

60 多年来,科学家和工程师一直在尝试开发各种方法,让机器能够看到和理解视觉数据。 在 1959 年的第一次实验中,神经生理学家向一只猫展示一组图像,试图唤起猫大脑的反应。 他们发现猫会先对硬边缘或线条做出反应,从科学角度来说,这意味着图像处理从简单的形状开始,例如直边。

大约在同一时期,第一个计算机图像扫描技术成功地开发出来,使计算机能够将图像数字化并获取图像。 1963 年,计算机能够将二维图像转换为三维形式,标志着第二个里程碑的实现。 在 20 世纪 60 年代,人工智能作为一个学术域研究诞生了,同时也标志着人们开始探求依靠人工智能解决人类视觉问题的方法。

1974 年,光学字符识别 (OCR) 技术走向市场,它能够识别以任何字体或字型打印的文字。同样,智能字符识别 (ICR) 能够使用神经网络辨认手写文字。此后,OCR 和 ICR 广泛地运用到文件和发票处理、车牌识别、移动支付、机器翻译和其他常见领域。

1982 年,神经系统科学家 David Marr 证实了视觉分层工作原理,并推出了使机器能够检测边缘、角落、曲线和类似的基本形状的算法。 与此同时,计算机科学家 Kunihiko Fukushima 开发了一个能够识别模式的细胞网络。 这个网络称为 Neocognitron,它在一个神经网络中包含了多个卷积层。

到 2000 年,物体识别成为研究重点,2001 年,第一个实时人脸识别应用诞生。 在 21 世纪初,逐渐形成了视觉数据集标记和注释的标准化实践。 2010 年,ImageNet 数据集公开可用。 该数据集包含上千种物体的数百万张标记的图像,为如今使用的 CNN 和深度学习模型奠定了基础。 2012 年,来自多伦多大学的团队带着一个 CNN 模型参加了图像识别竞赛。 这个名为 AlexNet 的模型显着降低了图像识别的错误率。 在这一次突破后,错误率已经下降到仅仅百分之几的水平。

首页
评论
分享
Top