编者按:传统的AI都是通过正反馈来引导,比如让AI在游戏中得到更高的分数,再比如让阿法狗赢下一盘围棋。加州大学伯克利分校的专家研究出了一种不同的算法,让好奇心来驱动AI。据称,这种算法可以加快学习速度并提高算法的效率。New Scientist日前发表了题为“Curious AI learns by exploring game worlds and making mistakes”的文章,介绍了这一算法。 按下这个按钮会发生什么?人类经常会有这样的好奇心。而现在,具有好奇心的算法正在教会自己发现和解决他们从未遇到过的问题。 面对超级玛丽的第一关,好奇心驱动的AI学会了如何探索地图、避免掉进坑里、躲避和杀死敌人。这可能听起来不是很令人印象深刻,因为在电子游戏方面,算法已经早就超过人类了。但是,这个AI的与众不同之处在于,它的技能都是自己学习的,它出于自身的好奇心来更多地了解游戏世界。 常规AI算法通过正反馈来引导。他们获得了某种外部目标的奖励,比如在视频游戏中提高一分。这鼓励他们执行提高成绩的动作(例如用马里奥踩踏敌人),并阻止他们执行不增加分数的动作(例如陷入陷阱)。 这种称为增强学习(reinforcement learning)的方法被用来创建AlphaGo。通过数千个真实和模拟的对弈,AlphaGo算法学会了追求胜利的策略。 但是,加州大学伯克利分校研究这个问题的Deepak Pathak说,现实世界并非事事都有回报。“相反,人类有一种天生的好奇心,可以帮助他们学习。”他说。这可能是为什么我们非常擅长掌握广泛的技能,而不一定要去学习它们。 所以,Pathak开始给自己的增强学习算法一个“好奇心”,看看是否足以让它学习一系列的技能。当它增加对环境的理解时,Pathak的算法就会获得奖励。所以,Pathak的算法并不是在游戏世界中寻找奖励,而是因为探索世界和掌握技能而获得奖励。 Google的AI公司DeepMind的Max Jaderberg表示,这种方法可以加快学习速度并提高算法的效率。该公司去年使用了类似的技术来教AI来探索一个虚拟的迷宫。其算法比传统的增强学习方法学得快得多。 被好奇心所驱动,Pathak自己的AI学会了踩踏敌人、跳过坑,学会了探索远处的房间,并在另一个与Doom类似的游戏中走迷宫。 但在超级玛丽中,好奇心能让 AI 做的也就到此为止了。平均而言,AI 仅探索了第一关的30%,因为它无法通过需要连续按15个按钮的一系列坑。AI并不想跳坑而死,而是学会了度量自己的能力,适可而止。 Pathak现在正在研究机器人手臂是否可以通过好奇心来学习拿住新物体。他说:“你可以让机器人进行意义的移动而不是随机行动。” 他还计划研究类似于Roomba真空吸尘器的家用机器人是否可以使用类似的算法。 但是,Jaderberg并不确定这种算法是否已准备好投入使用。他说,现在谈论现实应用为时过早。快速学习者