在Google Cloud AI Platform上使用分散式機器學習(ML)模型訓練時,您確實可以利用CMLE(雲端機器學習引擎)模型部署的設定檔來定義訓練中使用的機器數量。 但是,無法直接定義將要使用的機器類型。
在分散式 ML 模型訓練中,CMLE 模型部署設定檔可讓您指定訓練的規模層。 規模層決定了訓練作業中使用的機器的數量和類型。 擴展層選項範圍從基本到自訂,每個層都有預先定義數量的工作人員和參數伺服器。 透過選擇適當的規模層,您可以控制用於訓練的機器數量。
例如,如果您選擇規模層 BASIC,它將使用單一工作執行緒且無參數伺服器。 另一方面,如果您選擇規模層 STANDARD_1,它將使用一個工作執行緒和一個參數伺服器。 規模層 PREMIUM_1 使用 XNUMX 個工作執行緒和 XNUMX 個參數伺服器,而規模層 CUSTOM 可讓您明確指定工作執行緒和參數伺服器的數量。
但是,雖然您可以定義機器的數量,但無法直接指定訓練中使用的機器類型。 使用的機器類型由規模層決定,並由 Google Cloud AI Platform 預先定義。 每個規模層都有一個與其關聯的預設機器類型,該機器類型針對給定的規模層進行了最佳化。 例如,BASIC 規模層使用 n1-standard-1 機器類型,而 STANDARD_1 規模層使用 n1-standard-4 機器類型。
如果您需要對訓練中使用的機器類型進行更多控制,可以將自訂容器與 Cloud AI Platform 結合使用。 使用自訂容器,您可以建立和部署自己的訓練映像,這允許您指定訓練所需的機器類型和其他依賴項。 透過建立自訂容器,您可以靈活地定義適合您的培訓需求的確切機器類型。
在 Google Cloud AI Platform 上使用分散式 ML 模型訓練時,您可以透過 CMLE 模型部署設定檔定義用於訓練的機器數量。 但是,您無法直接指定所使用的機器類型,因為它是由規模層決定。 如果您需要對機器類型進行更多控制,您可以利用自訂容器來建置和部署您自己的訓練映像。
最近的其他問題和解答 EITC/AI/GCML Google雲機器學習:
- 什麼是文字轉語音 (TTS) 以及它如何與人工智慧配合使用?
- 在機器學習中處理大型資料集有哪些限制?
- 機器學習可以提供一些對話幫助嗎?
- 什麼是 TensorFlow 遊樂場?
- 更大的數據集實際上意味著什麼?
- 演算法的超參數有哪些範例?
- 什麼是集成學習?
- 如果選擇的機器學習演算法不合適怎麼辦?
- 機器學習模型在訓練過程中是否需要監督?
- 基於神經網路的演算法中使用的關鍵參數是什麼?
查看 EITC/AI/GCML Google Cloud Machine Learning 中的更多問題和解答
更多問題及解答:
- 領域: 人工智能
- 程序: EITC/AI/GCML Google雲機器學習 (前往認證計劃)
- 課: Google Cloud AI平台 (去相關課程)
- 主題: 在Cloud AI Platform上使用自定義容器訓練模型 (轉到相關主題)