使用深度学习对交通标志进行分类

到底什么是深度学习 监督 )?

它基本上是一种 算法 ,它允许计算机根据 我们大脑中 神经元 过度简化模型在输入和输出之间建立映射

那么,输入和输出是什么意思呢?

“输入”是一个通用术语,用于各种数据,例如图像,音频,文本等等,几乎可以在计算机中表示的任何内容。 类似地,深度学习神经网络的输出范围可以从简单的标签(如“汽车”,“没有汽车”)到文本,图像甚至是动画。

地图是什么意思?

映射是指每个输入到特定“不同”输出的映射。 例如,如果我们将汽车的图像作为网络的输入(经过训练可以识别汽车),则输出应为“汽车”。 或者,如果我们告诉网络绘制“蒙娜丽莎”,它应该给我们“蒙娜丽莎”的图像。

这些类型的映射的一些示例包括:

  • 语音转文字和文字转语音。
  • 图像识别。
  • 棱镜(从图像到艺术 )。

分类问题:

这些算法的一个特殊子类别处理分类问题。 通过分类,我们的意思是根据相似性或基于网络以前见过的示例将输入分类。

顾名思义,交通标志分类位于该域下。 为了对图像进行分类,近年来证明最有效的技术是卷积神经网络或CNN。

什么是CNN?

卷积神经网络(CNN)是我们大脑视觉皮层的高度简化的数学模型。 Yann LeCun于1998年在他著名的LeNet-5论文中提出了该方法。

CNN的灵感来自1950年代和1960年代的Hubel和Wiesel的工作。 在研究中,他们发现哺乳动物的大脑是层次结构的,并且物体是根据特征的层次结构来识别的,这些特征从小的特征(例如颜色,条纹,线条)到更大的特征(例如图案,甚至更大的狗) ,猫,人等

因此,这些概念已为我们所熟知。 但是直到最近,随着以GPU形式出现的更快的计算技术的出现,我们才得以实现其真正的潜力。

我用来对交通标志图像进行分类的网络是LeNet-5字符识别网络的修改版本,但具有更多的神经元和更强的正则化功能。

德国交通标志数据集:

它是由43种德国交通标志组成的51,839张标签图像的集合。 它分为两组。 一组39,209张图像用于训练,另一组12,630张图像用于测试我们训练后的网络的准确性。

在使用训练数据集在非常强大的Amazon GPU服务器上对我的网络进行了大约20分钟的训练之后我在验证集上的准确度达到了99.8 ,在测试集上的准确度达到了95.8% 。 我的网络能够正确标记12,630张图像中的12,100张图像。

完整的项目可以在Github上找到。

结论:

我为Udacity无人驾驶汽车工程纳米学位完成了这个项目,这对我在深度学习和AI方面来说是一次巨大的学习经验和巨大的飞跃。