EITC/AI/ARL 高級強化學習是針對 DeepMind 人工智能強化學習方法的歐洲 IT 認證計劃。
EITC/AI/ARL 高級強化學習的課程重點是從 DeepMind 的角度來看強化學習技術的理論方面和實踐技能,其結構如下,包含全面的視頻教學內容,作為本次 EITC 認證的參考。
強化學習(RL)是機器學習的一個領域,與智能代理應如何在環境中採取行動以最大化累積獎勵的概念有關。 除了監督學習和無監督學習,強化學習是三種基本的機器學習範式之一。
強化學習與監督學習的不同之處在於,不需要呈現帶標籤的輸入/輸出對,也不需要顯式糾正次優動作。 相反,重點是在探索(未知領域)和利用(當前知識)之間找到平衡。
環境通常以馬爾可夫決策過程(MDP)的形式陳述,因為針對此情況的許多強化學習算法都使用動態編程技術。 經典動態規劃方法和強化學習算法之間的主要區別在於,後者不假定MDP的精確數學模型的知識,並且針對無法採用精確方法的大型MDP。
由於其通用性,強化學習已在許多學科中進行了研究,例如博弈論,控制論,運籌學,信息論,基於仿真的優化,多智能體系統,群體智能和統計。 在運籌學和控製文獻中,強化學習稱為近似動態規劃或神經動力學規劃。 強化學習中感興趣的問題也已經在最優控制理論中進行了研究,該理論主要涉及最優解的存在和特徵,最優解的算法以及精確求解的算法,而很少涉及學習或逼近,特別是在沒有最優解的情況下。環境的數學模型。 在經濟學和博弈論中,強化學習可用於解釋在有限理性下平衡如何產生。
基本強化被建模為馬爾可夫決策過程(MDP)。 在數學中,馬爾可夫決策過程(MDP)是離散時間隨機控製過程。 它提供了一個數學框架,用於在結果部分隨機且部分受決策者控制的情況下對決策建模。 MDP對於研究通過動態編程解決的優化問題很有用。 MDP至少早在1950年代就已為人所知。 馬爾可夫決策過程的研究核心是羅納德·霍華德(Ronald Howard)1960年出版的《動態編程和馬爾可夫過程》。 它們被用於許多領域,包括機器人技術,自動控制,經濟學和製造。 MDP的名稱來自俄羅斯數學家Andrey Markov,因為它們是Markov鏈的擴展。
在每個時間步,過程都處於某種狀態S,決策者可以選擇狀態S中可用的任何動作a。該過程在下一個時間步做出響應,方法是隨機移動到新的狀態S',並賦予決策者相應的獎勵Ra(S,S')。
該過程進入其新狀態S'的可能性受所選動作a的影響。 具體而言,由狀態轉移函數Pa(S,S')給出。 因此,下一狀態S'取決於當前狀態S和決策者的動作a。 但是給定S和a,它有條件地獨立於所有先前的狀態和動作。 換句話說,MDP的狀態轉換滿足Markov屬性。
馬爾可夫決策過程是馬爾可夫鏈的擴展; 區別在於增加了動作(允許選擇)和獎勵(給予動機)。 相反,如果每個狀態僅存在一個動作(例如“等待”)並且所有獎勵都相同(例如“零”),則馬爾可夫決策過程將簡化為馬爾可夫鏈。
強化學習代理以離散的時間步長與其環境交互。 在每個時間t,代理接收當前狀態S(t)和獎勵r(t)。 然後,它從可用操作集中選擇一個操作a(t),然後將其發送到環境中。 環境移動到新狀態S(t + 1),並確定與過渡相關的獎勵r(t + 1)。 強化學習代理的目標是學習使預期的累積獎勵最大化的策略。
將問題表述為MDP假定代理直接觀察當前的環境狀態。 在這種情況下,據說該問題具有完全的可觀察性。 如果代理僅能訪問狀態的子集,或者如果觀察到的狀態被噪聲破壞,則稱該代理具有部分可觀察性,並且必須將問題正式地表述為部分可觀察的馬爾可夫決策過程。 在這兩種情況下,都可以限制代理可用的一組操作。 例如,可以將帳戶餘額的狀態限制為正數; 如果狀態的當前值為3,並且狀態轉換嘗試將值減小4,則不允許轉換。
當將代理人的績效與表現最佳的代理人的績效進行比較時,績效的差異會引起遺憾的概念。 為了使行為接近最佳狀態,儘管與之相關的直接報酬可能是負面的,但代理人必須考慮其行為的長期後果(即,最大化未來收入)。
因此,強化學習特別適合包含長期與短期獎勵權衡的問題。 它已成功應用於各種問題,包括機器人控制,電梯調度,電信,步步高,跳棋和圍棋(AlphaGo)。
強化學習的強大功能有兩個:使用樣本優化性能和使用函數逼近來處理大型環境。 歸功於這兩個關鍵組件,可以在以下情況下的大型環境中使用強化學習:
- 環境模型是已知的,但是沒有解析解決方案。
- 僅給出環境的仿真模型(基於仿真的優化的主題)。
- 收集有關環境的信息的唯一方法是與環境進行交互。
這些問題中的前兩個可以看作是計劃問題(因為可以使用某種形式的模型),而最後一個則可以看作是真正的學習問題。 但是,強化學習將兩個計劃問題都轉換為機器學習問題。
通過多臂匪徒問題以及Burnetas和Katehakis(1997)的有限狀態空間MDP,已經對探索與開發之間的權衡進行了最徹底的研究。
強化學習需要聰明的探索機制; 在不參考估計的概率分佈的情況下,隨機選擇動作顯示出較差的性能。 (小的)有限馬爾可夫決策過程的情況相對容易理解。 但是,由於缺乏與狀態數成比例的算法(或與無窮狀態空間成比例的算法),因此最簡單的探索方法是最實用的。
即使不考慮勘探問題,即使狀態是可觀察的,問題仍然在於利用過去的經驗來找出哪些行為會導致更高的累積獎勵。
要詳細了解認證課程,您可以擴展和分析下表。
EITC/AI/ARL 高級強化學習認證課程以視頻形式引用了開放獲取的教學材料。 學習過程分為逐步結構(課程 -> 課程 -> 主題),涵蓋相關課程部分。 還提供領域專家的無限諮詢。
有關認證程序檢查的詳細信息 如何操作.
課程參考資源
通過深度強化學習出版物進行人員水平控制
https://deepmind.com/research/publications/human-level-control-through-deep-reinforcement-learning
加州大學伯克利分校的深度強化學習開放式課程
http://rail.eecs.berkeley.edu/deeprlcourse/
RL適用於Manifold.ai的K型武裝匪徒問題
https://www.manifold.ai/exploration-vs-exploitation-in-reinforcement-learning
下載 EITC/AI/ARL 高階強化學習計畫的完整離線自學準備資料(PDF 檔案)