#84 强化学习的前世今生

倍速播放下载节目

00:00

54:19

主播信息

Ian言

Ian言

人人都是蜻蜓主播，欢迎关注Ian言

科技慢半拍

1206

科技慢半拍是一档以科技话题为主，采用对话和讲述多种形式的播客节目，会涉及到最新的科学技术，信息化数字化前沿信息，以及对各个行业的洞察和发现，但是不追风、不赶热点，而是以慢半拍的节奏，用自然轻松的方式为听众带来新鲜的听觉体验。每周一更，敬请期待！

科技慢半拍

110

科技慢半拍是一档以科技话题为主，采用对话和讲述多种形式的播客节目，会涉及到最新的科学技术，信息化数字化前沿信息，以及对各个行业的洞察和发现，但是不追风、不赶热点，而是以慢半拍的节奏，用自然轻松的方式为听众带来新鲜的听觉体验。每周一更，敬请期待！

APP内查看主播

节目详情

【节目介绍】

本期节目聚焦强化学习，带你走进这一人工智能核心领域。从图灵奖得主巴托（Andrew Barto）和萨顿（Richard S. Sutton）的卓越成就，到强化学习从游戏到大模型的广泛应用，我们将回顾这段发展历程，探索RL的未来潜力。这是一场关于深度学习的历史和现状的回顾之旅，重新带你领略人工智能与各个学科的融合魅力。

【时间线】

01:40 从AlphaGo到RLHF（基于人类反馈的强化学习）

03:56 关于萨顿的《苦涩的教训》（The Bitter Lesson）

09:15 强化学习的启蒙奠基

爱德华·桑代克（Edward Thorndike）,动物智能和效果法则（Law of Effect）
唐纳德·赫布（Donald Hebb）,赫布法则（Hebb's Law）
沃伦·麦卡洛克（Warren McCulloch）和沃尔特·皮茨（Walter Pitts），神经元理论
安德烈·马尔可夫（Andrey Markov），马尔可夫决策过程（MDPs）

15:35 人工智能领域的早期发展

艾伦·图灵（Alan Turing），人工智能之父
贝尔蒙特·法利（Belmont Farley） & 韦斯利·克拉克**（**Wesley A. Clark），模拟第一个含有128个神经元的小型神经网络
克劳德·香农（Claude Shannon），Theseus迷宫老鼠
马文·明斯基（Marvin Lee Minsky），随机神经模拟强化计算器SNARC（Stochastic Neural Analog Reinforcement Calculator）

21:04 游戏让强化学习续命

亚瑟·塞缪尔（Arthur Samuel），IBM701上的第一个跳棋程序（Checkers）
理查德·乌尔曼（Richard Belleman），Dynamic programming equation（动态规划方程，即贝尔曼方程）
唐纳德·米奇（Donald Michie），井字游戏 Matchbox Educable Noughts And Crosses Engine (MENACE)

25:49 强化学习的诞生

安德鲁·巴托（Andrew Barto），2024年图灵奖得主，强化学习奠基人
约翰·霍兰德（John Henry Holland），遗传算法和学习分类器
诺伯特·维纳（Norbert Wiener），控制论奠基人
迈克尔·阿比布（Michael A. Arbib），神经计算
哈里·克劳普（Harry Clopf），享乐神经元
理查德·萨顿（Richard S. Sutton），2024年图灵奖得主，强化学习奠基人
杰拉尔德·特萨罗（Gerald Tesauro），TD-Gammon 西洋双陆棋游戏
沃尔夫拉姆·舒尔茨（Wolfram Schultz），多巴胺

40:35 强化学习的后继演化

大卫·西尔弗**（**David Silver），深度强化学习（Deep reinforcement learning）
吴恩达（Andrew Ng），逆强化学习（IRL，‌Inverse Reinforcement Learning）
皮特·阿贝尔（Pieter Abbeel），机器人学习（Robot Learning）和模仿学习（Imitation Learning）
谢尔盖·列文（Sergey Levine），自主机器人和车辆
约翰·舒尔曼（John Schulman），深度强化学习（Deep RL）的策略优化（Policy Optimization）

45:30 萨顿最新的观点，《去中心化神经网络》（Decentralized Neural Networks）

【关系图】

【延伸阅读】

《苦涩的教训》（The Bitter Lesson），理查德·萨顿（Richard S. Sutton） 2019

【片头和片尾音乐】

四熹丸子 - 远去的列车

【感谢】

特别感谢[AIGC开放社区]和[AI重塑世界]的大力支持，请听友及时订阅微信公众号，查看本播客的文字版内容。欢迎订阅本播客节目，本节目在小宇宙、喜马拉雅、苹果播客、蜻蜓FM、网易云音乐、荔枝FM等平台均已上线。

展开

大家都在听

逗儿瓣酱

这是一档跨越八个时区的闲聊播客。两位主播的友情始于豆瓣，每期分别从加拿大和香港两地，或不定期邀请跨领域嘉宾一起，跨时区对谈，带来时下逗趣的话题。发散性很强，但也有意想不到的化学反应。每期“逗儿瓣酱”在小宇宙/网易云音乐/豆瓣播客/苹果播客/Spotify/Audible/Amazon Music/喜马拉雅/荔枝/QQ音乐/B站/蜻蜓FM 及各泛用型播客客户端同步更新。欢迎订阅收听。

三大炮

“逗儿瓣酱”的系列子栏目。三大炮源自四川成都的名小吃。我们每期会邀请一位来自不同领域的嘉宾，和两位主播畅聊生活、职场和所在行业的各种趣事。观点碰撞间，宛如成都街头传出的三大炮声音。欢迎收听订阅我们的节目。也欢迎大家和我们在评论区热烈互动。

蝾螈合作社

蝾螈合作社

蝾螈合作社是一档漫谈类播客，我们的内容围绕但不限于各式各样的人类话题，集嘴欠、低级趣味、高级幽默、高频爆笑、犀利抨击和深度思考于一身，不建议你睡前听，因为你会起来大笑舞蹈并错过第二天的考勤。

文化有限

「文化有限」是一档泛文化播客，每周二更新，和你分享最打动我们的作品。主播大壹、星光和超哥，是三位来自互联网和文化行业的从业者。在这个可以把“知识”做成产品售卖的时代，很多人说通过几个视频、几条音频、几篇文章，就能让人认知升级、人格跃迁。和他们相比，「文化有限」除了能给你解解闷儿以外，百无一用。我们也知道，自己对这个世界乃至我们自己，知之甚少。好在，我们希望通过这档播客提醒自己，永远对这个世界保持好奇，保持谦卑。在各大音频平台都能搜到我们，欢迎点击订阅。

商业有厘头

商业有厘头

无厘头发问，有厘头思考！每周二，我们都将邀请各行业市场研究专家、商业领袖和创业者一起探讨品牌与行业正在发生的变化，为你厘清商业世界背后的逻辑。本节目由益普索中国和日谈公园品牌播客厂牌——日有万机联合出品。

枫言枫语

枫言枫语，听见科技与人文的声音。听见科技与人文的声音。这是一档由开发者 @枫影JustinYan 和设计师 @自力hzlzh 主持的播客节目。

裂裂裂Radio

裂裂裂就是「厉害、厉害、厉害！！！」由我们这几位不一定有多厉害的人，带着一定厉害的你们，一块儿聊聊那些有点儿厉害的事儿。来了就别走了，坐下一块儿聊聊呗。

枫言枫语

听见科技与人文的声音。由开发者 @枫影JustinYan 和设计师 @自力hzlzh 主持的播客节目。

能力有限电台

能力有限电台

能力有限电台是一档关注于情感社会事件与人之间链接的泛文化类播客，我们每周2更新节目公众号能力有限FM 如果你有故事联系我 laocui0488

温柔一刀

《温柔一刀》是一档聚焦于消费品牌、商业趋势、职业发展以及多元人生等领域的对谈性播客。由刀姐doris和刀法的小伙伴们一起制作。记录一场对话，收获一些新知，愿我们给你带来看待品牌、消费、创业的新视角。想要了解更多关于我们的事情？你可以在公众号/即刻/微博@刀姐doris 找到我们，也可以添加刀姐vx：doriskeke1117。

评论(0条)

快来抢沙发吧！

打开蜻蜓查看更多

打开APP，高品质·离线听

沪ICP备06026464号-4 网络文化经营许可证

沪网文[2014]0587-137号

信息网络传播视听许可证：0911603

©2011-2019 qingting.fm ALL Rights Reserved.

应用名称：蜻蜓FM | 开发者：上海麦克风文化传媒有限公司

版本号：9.5.0 | 应用权限 | 隐私协议