
逗儿瓣酱
这是一档跨越八个时区的闲聊播客。两位主播的友情始于豆瓣,每期分别从加拿大和香港两地,或不定期邀请跨领域嘉宾一起,跨时区对谈,带来时下逗趣的话题。发散性很强,但也有意想不到的化学反应。
每期“逗儿瓣酱”在小宇宙/网易云音乐/豆瓣播客/苹果播客/Spotify/Audible/Amazon Music/喜马拉雅/荔枝/QQ音乐/B站/蜻蜓FM 及各泛用型播客客户端同步更新。欢迎订阅收听。
1897

【节目介绍】
本期节目聚焦强化学习,带你走进这一人工智能核心领域。从图灵奖得主巴托(Andrew Barto)和萨顿(Richard S. Sutton)的卓越成就,到强化学习从游戏到大模型的广泛应用,我们将回顾这段发展历程,探索RL的未来潜力。这是一场关于深度学习的历史和现状的回顾之旅,重新带你领略人工智能与各个学科的融合魅力。
【时间线】
01:40 从AlphaGo到RLHF(基于人类反馈的强化学习)
03:56 关于萨顿的《苦涩的教训》(The Bitter Lesson)
09:15 强化学习的启蒙奠基
15:35 人工智能领域的早期发展
21:04 游戏让强化学习续命
25:49 强化学习的诞生
40:35 强化学习的后继演化
45:30 萨顿最新的观点,《去中心化神经网络》(Decentralized Neural Networks)
【关系图】
【延伸阅读】
《苦涩的教训》(The Bitter Lesson),理查德·萨顿(Richard S. Sutton) 2019
【片头和片尾音乐】
【感谢】
特别感谢[AIGC开放社区]和[AI重塑世界]的大力支持,请听友及时订阅微信公众号,查看本播客的文字版内容。欢迎订阅本播客节目,本节目在小宇宙、喜马拉雅、苹果播客、蜻蜓FM、网易云音乐、荔枝FM等平台均已上线。
沪ICP备06026464号-4 网络文化经营许可证
沪网文[2014]0587-137号
信息网络传播视听许可证:0911603
©2011-2019 qingting.fm ALL Rights Reserved.
应用名称:蜻蜓FM | 开发者:上海麦克风文化传媒有限公司