什么是计算机视觉 (Computer Vision)？

文章正文

发布时间：2024-07-14 00:12

60 多年来，科学家和工程师一直在尝试开发各种方法，让机器能够看到和理解视觉数据。在 1959 年的第一次实验中，神经生理学家向一只猫展示一组图像，试图唤起猫大脑的反应。他们发现猫会先对硬边缘或线条做出反应，从科学角度来说，这意味着图像处理从简单的形状开始，例如直边。

大约在同一时期，第一个计算机图像扫描技术成功地开发出来，使计算机能够将图像数字化并获取图像。 1963 年，计算机能够将二维图像转换为三维形式，标志着第二个里程碑的实现。在 20 世纪 60 年代，人工智能作为一个学术域研究诞生了，同时也标志着人们开始探求依靠人工智能解决人类视觉问题的方法。

1974 年，光学字符识别 (OCR) 技术走向市场，它能够识别以任何字体或字型打印的文字。同样，智能字符识别 (ICR) 能够使用神经网络辨认手写文字。此后，OCR 和 ICR 广泛地运用到文件和发票处理、车牌识别、移动支付、机器翻译和其他常见领域。

1982 年，神经系统科学家 David Marr 证实了视觉分层工作原理，并推出了使机器能够检测边缘、角落、曲线和类似的基本形状的算法。与此同时，计算机科学家 Kunihiko Fukushima 开发了一个能够识别模式的细胞网络。这个网络称为 Neocognitron，它在一个神经网络中包含了多个卷积层。

到 2000 年，物体识别成为研究重点，2001 年，第一个实时人脸识别应用诞生。在 21 世纪初，逐渐形成了视觉数据集标记和注释的标准化实践。 2010 年，ImageNet 数据集公开可用。该数据集包含上千种物体的数百万张标记的图像，为如今使用的 CNN 和深度学习模型奠定了基础。 2012 年，来自多伦多大学的团队带着一个 CNN 模型参加了图像识别竞赛。这个名为 AlexNet 的模型显着降低了图像识别的错误率。在这一次突破后，错误率已经下降到仅仅百分之几的水平。

标签