您的位置:新三板 / 融资 / 创业 动态 / 观点 > AI 受好奇心而非任务指令驱动,难道离拥有人类的情感更进一步了?

AI 受好奇心而非任务指令驱动,难道离拥有人类的情感更进一步了?

2017-05-31 17:17  来源:新三板在线 本篇文章有字,看完大约需要 分钟的时间

来源:新三板在线

不同于听话的传统算法,这款 AI 做事情只为满足自己的好奇心 | 早期实验室

编者按:传统的AI都是通过正反馈来引导,比如让AI在游戏中得到更高的分数,再比如让阿法狗赢下一盘围棋。加州大学伯克利分校的专家研究出了一种不同的算法,让好奇心来驱动AI。据称,这种算法可以加快学习速度并提高算法的效率。New Scientist日前发表了题为“Curious AI learns by exploring game worlds and making mistakes”的文章,介绍了这一算法。

按下这个按钮会发生什么?人类经常会有这样的好奇心。而现在,具有好奇心的算法正在教会自己发现和解决他们从未遇到过的问题。

面对超级玛丽的第一关,好奇心驱动的AI学会了如何探索地图、避免掉进坑里、躲避和杀死敌人。这可能听起来不是很令人印象深刻,因为在电子游戏方面,算法已经早就超过人类了。但是,这个AI的与众不同之处在于,它的技能都是自己学习的,它出于自身的好奇心来更多地了解游戏世界。

常规AI算法通过正反馈来引导。他们获得了某种外部目标的奖励,比如在视频游戏中提高一分。这鼓励他们执行提高成绩的动作(例如用马里奥踩踏敌人),并阻止他们执行不增加分数的动作(例如陷入陷阱)。

这种称为增强学习(reinforcement learning)的方法被用来创建AlphaGo。通过数千个真实和模拟的对弈,AlphaGo算法学会了追求胜利的策略。

但是,加州大学伯克利分校研究这个问题的Deepak Pathak说,现实世界并非事事都有回报。“相反,人类有一种天生的好奇心,可以帮助他们学习。”他说。这可能是为什么我们非常擅长掌握广泛的技能,而不一定要去学习它们。

所以,Pathak开始给自己的增强学习算法一个“好奇心”,看看是否足以让它学习一系列的技能。当它增加对环境的理解时,Pathak的算法就会获得奖励。所以,Pathak的算法并不是在游戏世界中寻找奖励,而是因为探索世界和掌握技能而获得奖励。

Google的AI公司DeepMind的Max Jaderberg表示,这种方法可以加快学习速度并提高算法的效率。该公司去年使用了类似的技术来教AI来探索一个虚拟的迷宫。其算法比传统的增强学习方法学得快得多。

快速学习者

被好奇心所驱动,Pathak自己的AI学会了踩踏敌人、跳过坑,学会了探索远处的房间,并在另一个与Doom类似的游戏中走迷宫。

但在超级玛丽中,好奇心能让 AI 做的也就到此为止了。平均而言,AI 仅探索了第一关的30%,因为它无法通过需要连续按15个按钮的一系列坑。AI并不想跳坑而死,而是学会了度量自己的能力,适可而止。

Pathak现在正在研究机器人手臂是否可以通过好奇心来学习拿住新物体。他说:“你可以让机器人进行意义的移动而不是随机行动。” 他还计划研究类似于Roomba真空吸尘器的家用机器人是否可以使用类似的算法。

但是,Jaderberg并不确定这种算法是否已准备好投入使用。他说,现在谈论现实应用为时过早。


标签AI

阅读了该文章的用户还阅读了

热门关键词

为您推荐

行情
概念
新股
研报
涨停
要闻
产业
国内
国际
专题
美股
港股
外汇
期货
黄金
公募
私募
理财
信托
排行
融资
创业
动态
观点
保险
汽车
房产
P2P
投稿专栏
课堂
热点
视频
战略

栏目导航

股市行情
股票
学股
名家
财经
区块链
网站地图

财经365所刊载内容之知识产权为财经365及/或相关权利人专属所有或持有。未经许可,禁止进行转载、摘编、复制及建立镜像等任何使用。

鲁ICP备17012268号-3 Copyright 财经365 All Rights Reserved 版权所有 复制必究 Copyright © 2017股票入门基础知识财经365版权所有 证券投资咨询许可证号为:ZX0036 站长统计