编译/前方智能
计算机协会(ACM)宣布,Andrew G. Barto 和 Richard S. Sutton 因在强化学习领域的开创性贡献获得 2024 年图灵奖。这一奖项被誉为"计算机界的诺贝尔奖",奖金为 100 万美元,由谷歌赞助。
图源:ACM
这两位科学家在 20 世纪 80 年代开始,通过一系列论文构建了强化学习的概念和数学基础,开发了多种关键算法,包括其最重要的贡献——时间差分学习,以及策略梯度方法和使用神经网络作为表示学习函数的工具。
他们于 1998 年合著的教材《强化学习导论》至今仍是该领域的标准参考,已被引用超过 75,000 次,启发了众多计算机科学研究。尽管 Barto 和 Sutton 的算法是几十年前开发的,但通过与深度学习算法的结合,强化学习在过去十五年中实现了重大的实际应用突破:
1. 谷歌 DeepMind 利用强化学习开发了 AlphaGo,该程序于 2016 年和 2017 年击败了世界顶级围棋选手
2. OpenAI 的 ChatGPT 在训练中采用了基于人类反馈的强化学习(RLHF)技术
3. 其他应用领域包括机器人运动技能学习、网络拥塞控制、芯片设计、互联网广告、优化、全球供应链优化等
ACM 评价道:"Barto 和 Sutton 的工作展示了将多学科方法应用于我们领域长期挑战的巨大潜力。从认知科学和心理学到神经科学的研究领域启发了强化学习的发展,这为 AI 的一些最重要进展奠定了基础,也让我们对大脑工作原理有了更深入的了解。"