【图灵讲堂—第二十四期】强化学习:Building Assistive Agents fort Humans

浏览次数:431

        “图灵讲堂”是浙江大学图灵班的一大特色。每一期讲堂会邀请著名学者来给图灵班的同学分享科技前沿,为同学们的未来发展指明方向。而本期图灵讲堂,我们邀请到了前OpenAI全职研究员、清华大学交叉信息研究院助理教授吴翼教授。

         3月23日下午,同学们满怀期待与热忱地走进蒙民伟楼138报告厅。前OpenAI全职研究员、清华大学交叉信息研究院助理教授吴翼教授走进图灵大讲堂,进行了题为”Building Assistive Agents fort Humans”的报告。以强化学习(Reinforment Learning)的发展历史为引,娓娓道来,细致阐述了AI应当具有适应性(AI should be adaptive)这一命题。吴翼教授还向我们展示了自己曾经参与的OpenAI多智能体项目和现在正在进行的研究,通过实例展示了AI的现实图景与发展方向,帮助有志于此的同学能从更前沿的视角了解这个方向。吴翼教授从强化学习的第一个里程碑——2014年由谷歌旗下的人工智能公司DeepMind开发的Deep Q-Networks——开始讲起,其在 49 个 Atari 游戏上取得了很好的成绩:不仅超越了以前的算法,甚至大部分超越了职业玩家。由此看出AI和人类在游玩游戏时的根本性差异:人和AI的目的导向不同,AI以最优策略为指向,而人更多的在追求快乐。不仅如此,人有不同的性格、喜好、操作风格,因此我们如果需要让AI成为人类的助手,AI应该能理解并适应于不同的人,服务于人类从游戏中获得快乐这一目的,而非仅仅追求游戏中的高分。为了让AI可以适应、接近、理解人类的行为,AI应该可以自己产生多种游戏方案,那么AI的行为需要接近于人类,AI的行为需要更加interesting,更具有近似人类的创造性,同时让AI发现尽可能多的新方案。而目前OpenAI多智能体项目在此领域名列前茅。

        之后,吴翼教授向我们展示了他现在正在进行的关于如何让AI与人类在游戏中如何更好配合的研究,在惊叹声中,培养了同学们对该领域的好奇与兴趣。而许多同学也抛出了早已准备好的疑问与困惑,请教吴翼教授,在热烈的讨论氛围中,本次图灵讲堂落下了帷幕。十分感谢吴翼教授为图灵班的同学们带来了精彩纷呈的一次讲座。 “新竹高于旧竹枝,全凭老干为扶持”,相信会有同学受到吴翼教授的启发与引领,成为AI领域的新一代人才。