【图灵讲堂—第二十四期】强化学习：Building Assistive Agents fort Humans

浏览次数：431

“图灵讲堂”是浙江大学图灵班的一大特色。每一期讲堂会邀请著名学者来给图灵班的同学分享科技前沿，为同学们的未来发展指明方向。而本期图灵讲堂，我们邀请到了前OpenAI全职研究员、清华大学交叉信息研究院助理教授吴翼教授。

3月23日下午，同学们满怀期待与热忱地走进蒙民伟楼138报告厅。前OpenAI全职研究员、清华大学交叉信息研究院助理教授吴翼教授走进图灵大讲堂，进行了题为”Building Assistive Agents fort Humans”的报告。以强化学习(Reinforment Learning)的发展历史为引，娓娓道来，细致阐述了AI应当具有适应性(AI should be adaptive)这一命题。吴翼教授还向我们展示了自己曾经参与的OpenAI多智能体项目和现在正在进行的研究，通过实例展示了AI的现实图景与发展方向，帮助有志于此的同学能从更前沿的视角了解这个方向。吴翼教授从强化学习的第一个里程碑——2014年由谷歌旗下的人工智能公司DeepMind开发的Deep Q-Networks——开始讲起，其在 49 个 Atari 游戏上取得了很好的成绩：不仅超越了以前的算法，甚至大部分超越了职业玩家。由此看出AI和人类在游玩游戏时的根本性差异：人和AI的目的导向不同，AI以最优策略为指向，而人更多的在追求快乐。不仅如此，人有不同的性格、喜好、操作风格，因此我们如果需要让AI成为人类的助手，AI应该能理解并适应于不同的人，服务于人类从游戏中获得快乐这一目的，而非仅仅追求游戏中的高分。为了让AI可以适应、接近、理解人类的行为，AI应该可以自己产生多种游戏方案，那么AI的行为需要接近于人类，AI的行为需要更加interesting，更具有近似人类的创造性，同时让AI发现尽可能多的新方案。而目前OpenAI多智能体项目在此领域名列前茅。

之后，吴翼教授向我们展示了他现在正在进行的关于如何让AI与人类在游戏中如何更好配合的研究，在惊叹声中，培养了同学们对该领域的好奇与兴趣。而许多同学也抛出了早已准备好的疑问与困惑，请教吴翼教授，在热烈的讨论氛围中，本次图灵讲堂落下了帷幕。十分感谢吴翼教授为图灵班的同学们带来了精彩纷呈的一次讲座。 “新竹高于旧竹枝，全凭老干为扶持”，相信会有同学受到吴翼教授的启发与引领，成为AI领域的新一代人才。