自迴歸模型、潛在變數模型和生成對抗網路 (GAN) 等隱式模型是高階深度學習生成建模領域中的三種不同方法。這些模型中的每一個都具有獨特的特徵、方法和應用,這使得它們適用於不同類型的任務和資料集。要全面理解這些模型,需要詳細檢查它們的基本機制、優點和限制。
自迴歸模型
自迴歸模型是一類生成模型,它透過對給定先前資料點的每個資料點的條件分佈進行建模來產生資料。這種方法將資料的聯合機率分佈分解為條件機率的乘積。最知名的自回歸模型之一是 PixelCNN,它逐像素產生影像。
機制
在自迴歸模型中,觀察序列的機率 分解如下:
這種分解允許模型根據先前產生的資料點順序產生每個資料點。模型參數通常使用最大似然估計來學習,這涉及最小化觀測資料的負對數似然。
優點
1. 精確似然計算:自迴歸模型允許精確計算可能性,這有利於穩健的訓練和評估。
2. 高品質樣品:這些模型可以產生高品質的樣本,特別是在自然語言處理和圖像生成等領域。
3. 靈活性:它們可以應用於各種類型的數據,包括序列、影像和音訊。
限制
1. 順序生成:生成的順序性質可能很慢,尤其是對於影像等高維度資料。
2. 運算密集型:自迴歸模型的訓練和採樣的計算成本可能很高。
3. 有限並行性:順序依賴性限制了並行化生成過程的能力。
例
PixelCNN 是影像生成自迴歸模型的一個範例。它一次產生一個像素的圖像,其中每個像素都以先前生成的像素為條件。該模型使用帶有屏蔽濾波器的捲積層,以確保每個像素僅依賴其上方和左側的像素。
潛變量模型
潛在變數模型引入未觀察到的(潛在)變數來捕捉資料的底層結構。這些模型假設觀察到的數據是透過機率過程從一組潛在變數產生的。變分自動編碼器(VAE)是潛在變數模型的一個突出例子。
機制
在潛在變數模型中,觀察到的數據 假設是從潛在變數產生的 透過以下步驟的生成過程:
1. 對潛在變數進行採樣 從先驗分佈 .
2. 產生觀測數據 從條件分佈 .
觀察變數和潛在變數的聯合機率分佈由下式給出:
為了學習模型參數,通常會最大化觀察資料的邊際似然,這涉及整合潛在變數:
由於此積分通常很難處理,因此使用變分推理等近似推理方法。在 VAE 中,使用近似後驗分佈的辨識模型(編碼器)進行推理 具有變分分佈 .
優點
1. 捕捉複雜的分佈:潛在變數模型可以利用潛在空間捕捉複雜的資料分佈。
2. 高效採樣:經過訓練,這些模型可以透過先從潛在空間採樣然後解碼來有效地產生新樣本。
3. 可解釋性:潛在變數可以提供對資料底層結構的洞察。
限制
1. 近似推理:對近似推理的需要可能會引入偏差並影響生成樣本的品質。
2. 訓練複雜性:訓練潛在變數模型可能很複雜,需要仔細調整變分近似。
3. 模式崩潰:在某些情況下,這些模型可能會遭受模式崩潰,即它們無法捕獲資料分佈的所有模式。
例
變分自動編碼器(VAE)是一種潛在變數模型,它使用神經網路來參數化生成和識別模型。編碼器網路將觀測資料映射到變分分佈的參數,而解碼器網路將潛在變數映射到資料分佈的參數。
隱式模型 (GAN)
隱式模型,例如生成對抗網路 (GAN),沒有明確定義資料的機率分佈。相反,他們透過訓練生成器網路來學習產生數據,以產生由鑑別器網路判斷的與真實數據無法區分的樣本。
機制
GAN 由兩個神經網路組成:一個生成器 和一個鑑別器 。生成器網路採用隨機噪聲 作為輸入並產生合成數據 。鑑別器網路同時取得真實數據 和綜合數據 作為輸入並輸出指示輸入是真實還是虛假的機率。
訓練過程涉及極小極大遊戲,生成器試圖欺騙鑑別器,鑑別器嘗試正確區分真實資料和虛假資料。 GAN 的目標函數由下式給出:
生成器的目標是最小化這個目標,而鑑別器的目標是最大化它。
優點
1. 高品質樣品:GAN 因生成高品質且真實的樣本而聞名,尤其是在圖像生成任務中。
2. 靈活性:它們可以應用於各種類型的數據,並且可以擴展到條件生成任務。
3. 沒有明確的密度估計:GAN 不需要明確的密度估計,這可以簡化建模過程。
限制
1. 訓練不穩定:由於模式崩潰、梯度消失和不穩定等問題,GAN 非常難以訓練。
2. 缺乏可能性:GAN 不提供產生樣本的可能性,這使得模型評估具有挑戰性。
3. 對超參數敏感:GAN 的效能對超參數和網路架構的選擇高度敏感。
例
Goodfellow 等人提出的原始 GAN 模型。 (2014) 由一個簡單的完全連接的生成器和鑑別器網路組成。從那時起,人們提出了許多變體,例如深度卷積 GAN (DCGAN),它使用卷積層來提高生成影像的品質。
比較與應用
自迴歸模型、潛變數模型和 GAN 等隱式模型之間的選擇取決於當前任務的特定要求。每個模型都有其優點和缺點,使其適合不同的應用。
自迴歸模型
自迴歸模型特別適合資料順序性質很重要的任務。例如,在自然語言處理中,GPT-3(生成式預訓練 Transformer 3)等模型使用自迴歸方法來產生連貫且情境相關的文字。在影像生成中,PixelCNN 和 PixelRNN 等模型已被用於透過捕捉像素之間的依賴關係來產生高品質影像。
潛變量模型
潛在變數模型對於需要緊湊資料表示的任務非常有用。例如,VAE 已用於影像生成、異常檢測和資料壓縮。 VAE 學習到的潛在空間可用於在資料點之間進行插值,對潛在變數執行算術運算,並產生表現出所需屬性的新樣本。
隱式模型 (GAN)
GAN 對於產生高品質且真實的樣本特別有效。它們已廣泛應用於影像生成任務,例如生成逼真的影像、影像到影像的轉換和超解析度。 GAN 也被應用於其他領域,例如文字到圖像的合成、音樂生成和視訊生成。
結論
自迴歸模型、潛變數模型和 GAN 等隱式模型代表了三種不同的生成建模方法,每種方法都有其獨特的方法、優點和限制。自迴歸模型擅長捕捉順序依賴性並提供精確的似然計算,但它們可能很慢且計算量很大。潛變量模型提供了數據的緊湊表示和高效採樣,但它們需要近似推理,並且可能會遭受模式崩潰的影響。像 GAN 這樣的隱式模型無需顯式密度估計即可產生高品質樣本,但訓練和評估它們具有挑戰性。
了解這些模型之間的主要差異及其各自的優缺點對於為給定任務選擇合適的模型非常重要。每種方法在生成建模工具箱中都佔有一席之地,並且正在進行的研究不斷推進這個令人興奮的領域的最新技術。
最近的其他問題和解答 先進的生成模型:
- 與其他生成模型相比,使用生成對抗網路 (GAN) 的主要優點和限制是什麼?
- 現代潛變數模型(如可逆模型(標準化流))如何在生成建模中的表達性和易處理性之間取得平衡?
- 重新參數化技巧是什麼?
- 變分推理如何促進棘手模型的訓練,與之相關的主要挑戰是什麼?
- 生成對抗網絡(GAN)是否依賴於生成器和鑑別器的想法?