a亚洲精品_精品国产91乱码一区二区三区_亚洲精品在线免费观看视频_欧美日韩亚洲国产综合_久久久久久久久久久成人_在线区

首頁 > 學院 > 名詞解釋 > 正文

什么是強化學習?從獎勵中學習

2025-03-06 17:47:21
字體:
來源:轉載
供稿:網友
人工智能(AI)領域關注構建智能體,即能感知與行動的實際存在,而更智能的智能體現在其能選擇更優的行動方案。因此,“某些行動優于其他”的概念是 AI 的核心。獎勵(reward,源于心理學與神經科學的術語)表示提供給智能體與其實際行為質量相關的信號。強化學習(RL) 則是通過獎勵信號學習更成功行為的過程

“從獎勵中學習”的理念由來已久,可以追溯到千年以來的動物訓練,后來,圖靈 1950 年的論文《計算機器與智能》(Computing Machinery and Intelligence)提出“機器能思考嗎?”的問題,并提出了基于獎勵和懲罰的機器學習方法。

盡管圖靈報告了一些初步的相關實驗,以及亞瑟?塞繆爾(Arthur Samuel)在 20 世紀 50 年代開發了通過自我對弈學習的跳棋程序,但此后數十年,在人工智能這一方向進展甚微。20 世紀 80 年代初,受心理學啟發,巴托與博士生薩頓開始將強化學習定義為通用問題框架。

他們借鑒馬爾可夫決策過程(MDPs)的數學基礎,其中智能體在隨機環境中決策,每次狀態轉移后接收獎勵信號,以最大化長期累積獎勵為目標。與傳統 MDP 理論假設環境完全已知不同,強化學習框架允許環境與獎勵是未知的。這種最小化信息需求與 MDP 的通用性結合,使強化學習算法適用于廣泛問題。

巴托和薩頓與其他研究人員共同開發了強化學習的許多基本算法。他們的重要貢獻之一是——時序差分學習(Temporal Difference Learning),它在解決獎勵預測問題方面取得了重要進展;以及策略梯度方法(policy-gradient methods)和將神經網絡作為表示已學習功能的工具使用。他們還提出了結合學習和規劃的智能體設計,證明了將環境知識作為規劃基礎的價值。

此外,他們的經典教材《強化學習:導論》(Reinforcement Learning: An Introduction,1998)被引用超 7.5 萬次,至今仍是該領域標準參考資料。在這本書的影響下,成千上萬的研究者能夠理解并參與到這個新興領域,并繼續激發今天計算機科學領域的大量重要創新。

盡管巴托和薩頓的算法誕生于數十年前,但其與深度學習算法的結合(由2018年圖靈獎獲得者Bengio、Hinton和LeCun開創),從而導致了深度強化學習的出現,在過去 15 年取得多項重大突破。

最突出的例子是 AlphaGo 程序在 2016 年和 2017 年戰勝了最優秀的人類圍棋選手。最近一項重大成就則是聊天機器人 ChatGPT 的開發。ChatGPT 是一個經過兩階段訓練的大型語言模型(LLM),其中第二個階段采用了一種被稱為基于人類反饋的強化學習(RLHF)的技術,以獲取人類的期望。

此外,強化學習也在許多其他領域取得成功。一個引人注目的例子是在機器人操作和解決物理(三階魔方)問題中的運動技能學習,這表明有可能在模擬中進行所有強化學習,最終在截然不同的現實世界中取得成功。其他領域包括網絡擁塞控制、芯片設計、互聯網廣告、全球供應鏈優化、提升聊天機器人的行為和推理能力,甚至改進計算機科學中最古老的問題之一——矩陣乘法的算法。

最終,一項部分受神經科學啟發的技術也予以了回報。包括巴托在內的近期研究顯示,人工智能領域開發的特定強化學習算法為有關人類大腦多巴胺系統的大量發現提供了最佳解釋。

ACM 主席雅尼斯·約安尼迪斯(Yannis Ioannidis)表示:“巴托和薩頓的研究成果表明,將多學科方法應用于我們領域長期存在的挑戰具有巨大潛力。從認知科學、心理學到神經科學等研究領域啟發了強化學習的發展,這為人工智能的一些最重要進展奠定了基礎,并讓我們對大腦的工作原理有了更深入的了解。巴托和薩頓的工作并非我們已經跨越的墊腳石。強化學習仍在不斷發展,并為計算及其他眾多學科的更進一步提供了巨大潛力。授予他們本領域的最高榮譽,實至名歸。”

谷歌高級副總裁杰夫·迪恩(Jeff Dean)指出:“在 1947 年的一次演講中,艾倫·圖靈曾表示‘我們需要的是一臺能夠從經驗中學習的機器’。由巴托和薩頓開創的強化學習直接回應了圖靈的這一挑戰。他們的工作在過去幾十年里一直是人工智能領域取得進展的關鍵所在。他們開發的工具仍然是人工智能熱潮的核心支柱,并促成了重大進步,吸引了大批年輕研究人員,并帶來了數十億美元的投資。強化學習的影響還將持續到未來很長一段時間。谷歌很榮幸贊助圖靈獎,并向那些塑造了改善我們生活的技術的人士致敬。”
發表評論 共有條評論
用戶名: 密碼:
驗證碼: 匿名發表
主站蜘蛛池模板: 久久午夜影院 | 亚洲精品v日韩精品 | 一二三区视频 | 日本va| 一级免费黄色免费片 | 婷婷成人在线 | 日韩aⅴ一区二区三区 | 国产成人午夜 | 天堂一区二区三区四区 | 操操操日日日 | 一区二区不卡 | 国产乱a视频在线 | 欧美午夜精品一区二区三区 | 国产综合久久久 | 中文字幕不卡在线观看 | 欧美99 | 成人国产精品一级毛片视频 | 狠狠躁夜夜躁人人爽天天高潮 | 国产又粗又大又爽视频 | 日韩精品小视频 | 日日摸日日碰夜夜爽亚洲精品蜜乳 | 亚洲欧美综合 | 99re6热只有精品免费观看 | 性视频黄色| 国产在线观看欧美 | 中文精品一区二区三区 | 国产伦精品一区二区三区照片91 | 亚洲八区 | 国产一区二区三区四 | 亚洲福利一区 | 2020av视频 | 亚洲精品久久久日韩美女极品合集下载 | 热久久这里只有精品 | 久久国产精品一区 | 亚洲综合精品视频 | 国产精品久久久久久久久久久久 | 精品少妇v888av| 日韩手机在线视频 | 综合久久久久 | 中文字幕日韩欧美 | 午夜寂寞网站 |