EITC/AI/ARL 高級強化學習

by EITCA學院 / 週日07 2021二月 / 出版於

目前狀態

未註冊

價錢

€110.00

開始行動

報名參加此認證

EITC/AI/ARL 高級強化學習是針對 DeepMind 人工智能強化學習方法的歐洲 IT 認證計劃。

EITC/AI/ARL 高級強化學習的課程重點是從 DeepMind 的角度來看強化學習技術的理論方面和實踐技能，其結構如下，包含全面的視頻教學內容，作為本次 EITC 認證的參考。

強化學習（RL）是機器學習的一個領域，與智能代理應如何在環境中採取行動以最大化累積獎勵的概念有關。除了監督學習和無監督學習，強化學習是三種基本的機器學習範式之一。

強化學習與監督學習的不同之處在於，不需要呈現帶標籤的輸入/輸出對，也不需要顯式糾正次優動作。相反，重點是在探索（未知領域）和利用（當前知識）之間找到平衡。

環境通常以馬爾可夫決策過程（MDP）的形式陳述，因為針對此情況的許多強化學習算法都使用動態編程技術。經典動態規劃方法和強化學習算法之間的主要區別在於，後者不假定MDP的精確數學模型的知識，並且針對無法採用精確方法的大型MDP。

由於其通用性，強化學習已在許多學科中進行了研究，例如博弈論，控制論，運籌學，信息論，基於仿真的優化，多智能體系統，群體智能和統計。在運籌學和控製文獻中，強化學習稱為近似動態規劃或神經動力學規劃。強化學習中感興趣的問題也已經在最優控制理論中進行了研究，該理論主要涉及最優解的存在和特徵，最優解的算法以及精確求解的算法，而很少涉及學習或逼近，特別是在沒有最優解的情況下。環境的數學模型。在經濟學和博弈論中，強化學習可用於解釋在有限理性下平衡如何產生。

基本強化被建模為馬爾可夫決策過程（MDP）。在數學中，馬爾可夫決策過程（MDP）是離散時間隨機控製過程。它提供了一個數學框架，用於在結果部分隨機且部分受決策者控制的情況下對決策建模。 MDP對於研究通過動態編程解決的優化問題很有用。 MDP至少早在1950年代就已為人所知。馬爾可夫決策過程的研究核心是羅納德·霍華德（Ronald Howard）1960年出版的《動態編程和馬爾可夫過程》。它們被用於許多領域，包括機器人技術，自動控制，經濟學和製造。 MDP的名稱來自俄羅斯數學家Andrey Markov，因為它們是Markov鏈的擴展。

在每個時間步，過程都處於某種狀態S，決策者可以選擇狀態S中可用的任何動作a。該過程在下一個時間步做出響應，方法是隨機移動到新的狀態S'，並賦予決策者相應的獎勵Ra（S，S'）。

該過程進入其新狀態S'的可能性受所選動作a的影響。具體而言，由狀態轉移函數Pa（S，S'）給出。因此，下一狀態S'取決於當前狀態S和決策者的動作a。但是給定S和a，它有條件地獨立於所有先前的狀態和動作。換句話說，MDP的狀態轉換滿足Markov屬性。

馬爾可夫決策過程是馬爾可夫鏈的擴展；區別在於增加了動作（允許選擇）和獎勵（給予動機）。相反，如果每個狀態僅存在一個動作（例如“等待”）並且所有獎勵都相同（例如“零”），則馬爾可夫決策過程將簡化為馬爾可夫鏈。

強化學習代理以離散的時間步長與其環境交互。在每個時間t，代理接收當前狀態S（t）和獎勵r（t）。然後，它從可用操作集中選擇一個操作a（t），然後將其發送到環境中。環境移動到新狀態S（t + 1），並確定與過渡相關的獎勵r（t + 1）。強化學習代理的目標是學習使預期的累積獎勵最大化的策略。

將問題表述為MDP假定代理直接觀察當前的環境狀態。在這種情況下，據說該問題具有完全的可觀察性。如果代理僅能訪問狀態的子集，或者如果觀察到的狀態被噪聲破壞，則稱該代理具有部分可觀察性，並且必須將問題正式地表述為部分可觀察的馬爾可夫決策過程。在這兩種情況下，都可以限制代理可用的一組操作。例如，可以將帳戶餘額的狀態限制為正數；如果狀態的當前值為3，並且狀態轉換嘗試將值減小4，則不允許轉換。

當將代理人的績效與表現最佳的代理人的績效進行比較時，績效的差異會引起遺憾的概念。為了使行為接近最佳狀態，儘管與之相關的直接報酬可能是負面的，但代理人必須考慮其行為的長期後果（即，最大化未來收入）。

因此，強化學習特別適合包含長期與短期獎勵權衡的問題。它已成功應用於各種問題，包括機器人控制，電梯調度，電信，步步高，跳棋和圍棋（AlphaGo）。

強化學習的強大功能有兩個：使用樣本優化性能和使用函數逼近來處理大型環境。歸功於這兩個關鍵組件，可以在以下情況下的大型環境中使用強化學習：