人工智能:深度学习和强化学习有什么不同?

近来,人工智能领域的各种前沿技术引起了人们的广泛关注。 随着我们生成的数据量不断增长到令人难以置信的程度,我们的人工智能成熟程度和人工智能能够帮助解决的潜在问题也随之增长。现在用相对比较低的成本就可以得到大量的数据和强大的计算力,大大促进了人工智能技术的发展,并使深度学习和强化学习成为可能。 随着人工智能行业的迅速变化,我们需要努力才能跟上最新发展的技术。在这篇文章中,我想简单介绍深度学习和强化学习的定义,这样你就能理解其中的区别。


深度学习和强化学习都属于机器学习,都属于人工智能工具的一份子。深度学习和强化学习功能之所以有趣,是因为它们使计算机能够自行开发解决问题的规则。 这种学习能力对目前的计算机来说并不是什么新鲜事,但直到最近,我们还没有足够的数据或计算能力来使让它变成日常生活中常用的技术。


什么是深度学习?


深度学习本质上是一个自主的、自学的系统,您可以使用现有的数据来训练算法来发现模式,然后使用这些模式来预测新的数据。 例如,你可以训练一个深度学习算法来识别照片上的猫。你可以通过给它输入数以百万计的图像来达到这个目的,这些图像要么包含猫,要么不包含猫。然后,该程序将通过对图像数据(例如,边缘、形状、颜色、形状之间的距离等)进行分类和聚类来建立模式。这些模式将形成一个预测模型,该预测模型能够查看一组新图像并预测图像中是否包含猫。


深度学习算法通过类似人的大脑中神经元网络的人工神经网络来实现这一点。 这允许算法执行各种循环以缩小模式并改进每个循环的预测结果。


在实践中深度学习的一个很好的例子是AppleFace ID。在设置手机时,你可以通过扫描脸部来训练算法。每次您登录时,例如使用面部IDTrueDepth摄像头将捕获数千个数据点,这些数据点将创建您面部的深度图,手机内置的神经引擎将执行分析,以预测登陆的人是不是你。


什么是强化学习?


强化学习也是一种自主性、自学习的学习系统,本质上是一种反复尝试的学习。 它通过获取最大的回报来采取相应的行动,换句话说,它是在实践中学习,以达到最佳的结果。 这类似于我们学习骑自行车,一开始我们会经常摔倒,而且常常不稳定,但随着时间的推移,我们会利用哪些动作有效,哪些动作无效的反馈来微调我们的动作,并学习如何骑自行车。 同样,当计算机使用强化学习时,它们尝试不同的操作,从反馈中了解该操作是否提供了更好的结果,然后增加这个起作用的操作的权重,即在多次迭代中自主地重新工作和修改其算法,直到做出能够提供最佳结果的决策。


使用强化学习的一个好例子是机器人学习如何走路。 机器人首先向前迈进了一大步,然后跌倒了。 但是强化学习系统会采集大量的系统数据。 由于反馈是负值(即动作的效果不好),系统将调整操作来尝试迈出一小步。 这样,机器人就学会了向前移动。 这是强化学习在机器人运动中的一个例子。


我所见过的强化学习最有趣的一个例子是谷歌的Deep Mind将强化学习应用于经典的Atari电脑游戏时,比如Break Out。 目标(或奖励)是使得分最大化,动作是移动屏幕底部的杆,将球弹回,打破屏幕顶部的砖块。它显示了算法在开始时是如何犯很多错误的,但很快就会改进到一个阶段,它甚至可以击败最好的人类玩家。


深度学习与强化学习的不同


深度学习和强化学习都是自主学习的系统。 它们之间的区别在于,深度学习是从一个训练集学习,然后将该学习应用到一个新的数据集,而强化学习是通过在连续反馈的基础上调整动作来动态学习,以最大化回报。


深度学习和强化学习并不是相互排斥的。 事实上,你可以在强化学习系统中使用深度学习,这被称为深度强化学习。