前言

本系列部落格文章將分享我在 Coursera 上台灣大學林軒田教授所教授的機器學習技法(Machine Learning Techniques)課程整理成的心得,並對照林教授的投影片作說明。若還沒有閱讀過 第 2 講 的碼農們,我建議可以先回頭去讀一下再回來喔!

範例原始碼:FukuML - 簡單易用的機器學習套件

我在分享機器學習基石課程時,也跟著把每個介紹過的機器學習演算法都實作了一遍,原始碼都放在 GitHub 上了,所以大家可以去參考看看每個演算法的實作細節,看完原始碼會對課程中的數學式更容易理解。

如果大家對實作沒有興趣,只想知道怎麼使用機器學習演算法,那 FukuML 絕對會比起其他機器學習套件簡單易用,且方法及變數都會跟林軒田教授的課程類似,有看過課程的話,說不定連文件都不用看就會使用 FukuML 了。不過我還是有寫 Tutorial 啦,之後會不定期更新,讓大家可以容易上手比較重要!

熱身回顧一下

在上一講中,我們介紹了 Dual SVM,這是為了讓我們可以對資料點做高維度的特徵轉換,這樣就可以讓 SVM 學習更複雜的非線性模型,但我們又不想要跟高維度的計算牽扯上關係,Dual SVM 將問題作了一些轉換,能夠將演算法跟高維度的計算脫鉤,但上一講中的 Q 矩陣實際上還是計算了高維度特徵矩陣內積,所以並沒有真的解決問題。

Dual SVM 仍與高維度 d 有依賴關係

目前推導出來的 Dual SVM 仍與高維度 d 有依賴關係,我們能不能簡化 Q 矩陣的高維度特徵矩陣內積計算呢?

觀察矩陣內積的每一個運算

我們用二次轉換拆開來觀察,發現原本將矩陣進行特徵轉換之後在做矩陣內積,可以分成 0 次項、1 次項、 2 次項分開來計算,結果會是一樣的。而更高維度的轉換也會有相同的性質。如此我們就可以限制計算量只在原本的特徵維度 O(d)。

Kernel 的概念

有了上述的性質,我們可以引進 Kernel 的概念,之前都是將矩陣進行特徵轉換之後再去計算內積,現在我們可以改成使用 kernel function 來做計算,znTzm 可以改成對應的 kernel function K(xn, xm)。

由於我們都不去 z 空間做計算了,因此也無法得到 z 空間的 w,所以 b 與 w 的式子都要改成使用 kernel function K(xn, xm) 來計算。

用 QP 解 Kernel SVM

導出 Kernel function 之後,我們一樣可以將 kernel function 計算出來的 Q 矩陣丟進去 QP Solver 來解 SVM。

Polynomial Kernel

我們可以將 Kernel Function 整理成更一般化的形式,這樣就可以推導出各式各樣的 Polynomail Kernel。

Poly-2 Kernel 圖示

我們使用一個例子來看一下 Poly-2 Kernel 的效果,我們可以調整 gamma 參數得出不一樣的分類曲線。

Polynomial Kernel 一般化

由 Poly-2 Kernel,我們可以再做更多變化,常數項用 zeta 當參數、特徵空間轉換用 Q 當參數,加上原本的 gamma 參數,Polynomial SVM 可以很自由地調整 Kernel 參數來得到更好的分類效果。

無限多維轉換的 Kernel

由於我們的演算法已經跟高維度的空間脫鉤了,所以我們有了這樣的想法,我們是不是可以使用無限多維轉換的 kernel 呢?

我們觀察一下指數函數 exp(-(x-x’)^2),結果發現就是一個對 X 的無限多維轉換,由此我們可以推導出下式的無限多維轉換 Kernel,也稱為 Gaussian kernel。

Gaussian SVM

推導出 Gaussian Kernel 之後,使用 Gaussian Kernel 的 SVM 就是 Gaussian SVM。Gaussian SVM 演算法會與 Polynomial SVM 一樣,只是 Kernel 不一樣,由於是無限多維轉換,我們也不用再去煩腦要用幾次的轉換。

觀察 Gaussian SVM 的效果

Gaussian SVM 是無限多維的轉換,因此可以預期它有很強的 power 可以做好分類,同時又保證 mergin 最大可以避免 overfit。但下圖中實驗調整 Gaussian Kernel 的 gamma 參數,其實還是有可能會產生 overfit,所以 Gaussian SVM 也不是萬能的,還是要謹慎驗證計算出來的結果。

回顧 Linear Kernel 優缺點

我們來回顧一下目前學過的 Kernel。首先是 Linear Kernel,優點是模型較為簡單,也因此比較安全,不容易 overfit;可以算出確切的 W 及 Support Vectors,解釋性較好。缺點就是,限制會較多,如果資料點非線性可分就沒用。

回顧 Polynomial Kernel 優缺點

再來是 Polynomial Kernel,由於可以進行 Q 次轉換,分類能力會比 Linear Kernel 好。缺點就是高次轉換可能會有一些數字問題產生,造成計算結果怪異。然後太多參數要選,比較難使用。也因此 Polynomial Kernel 可能會用在比較低次轉換的 SVM 問題上,但這樣也許就可以用 Linear SVM 取代。

回顧 Gaussian Kernel 優缺點

最後是 Gaussian Kernel,優點就是無限多維的轉換,分類能力當然更好,而且需要選擇的參數的較少。但缺點就是無法計算出確切的 w 及 support vectors,預測時都要透過 kernel function 來計算,也因此比較沒有解釋性,而且也是會發生 overfit。比起 Polynomail SVM,Gaussian SVM 比較常用。

其他 Kernel

除了目前介紹的 Kernel 之外是否還有其他 Kernel 呢?當然有,你也可以自己定義自己的 Kernel,只要符合 Mercer’s condition 就是一個合法的 Kernel。不過要定義自己的 Kernel 並不是件容易的事。

總結

在這一講中,我們終於脫離了高維度空間的計算依賴,使用 Kernel Funciton 來解 Dual SVM,因此引進了 Polynomial Kernel SVM 的概念,最後甚至推導出了無限多維轉換的 Gaussian Kernel SVM。

前言

本系列部落格文章將分享我在 Coursera 上台灣大學林軒田教授所教授的機器學習技法(Machine Learning Techniques)課程整理成的心得,並對照林教授的投影片作說明。若還沒有閱讀過 第 1 講 的碼農們,我建議可以先回頭去讀一下再回來喔!

範例原始碼:FukuML - 簡單易用的機器學習套件

我在分享機器學習基石課程時,也跟著把每個介紹過的機器學習演算法都實作了一遍,原始碼都放在 GitHub 上了,所以大家可以去參考看看每個演算法的實作細節,看完原始碼會對課程中的數學式更容易理解。

如果大家對實作沒有興趣,只想知道怎麼使用機器學習演算法,那 FukuML 絕對會比起其他機器學習套件簡單易用,且方法及變數都會跟林軒田教授的課程類似,有看過課程的話,說不定連文件都不用看就會使用 FukuML 了。不過我還是有寫 Tutorial 啦,之後會不定期更新,讓大家可以容易上手比較重要!

熱身回顧一下

從機器學習基石課程中,我們已經了解了機器學習一些基本的演算法,在機器學習技法課程中我們將介紹更多進階的機器學習演算法。首先登場的就是支持向量機(Support Vector Machine)了,第一講中我們將先介紹最簡單的 Hard Margin Linear Support Vector Machine。

非線性 SVM

學會了 Hard Margin Linear SVM 之後,如果我們想要訓練非線性模型要怎麼做呢?跟之前的學習模型一樣,我們只要將資料點經過非線性轉換之後,在高維空間做訓練就可以了。

非線性的轉換其實可以依我們的需求轉換到非常高維,甚至可能到無限多維,如果是無限多維的話,我們怎麼使用 QP Solver 來解 SVM 呢?如果 SVM 模型可以轉換到與 feature 維度無關,那我們就可以使用無限多維的轉換了。

與特徵維度無關的 SVM

為了可以做到無限多維特徵轉換,我們需要將 SVM 轉為另外一個問題,在數學上已證明這兩個問題其實是一樣的,所以又稱為是 SVM 的對偶問題,Dual SVM,由於背後的數學證明很複雜,這門課程只會解釋一些必要的原理來讓我們理解。

使用 Lagrange Multipliers 當工具

我們在正規化那一講中曾經使用過 Lagrange Multipliers 來推導正規化的數學式,在推導 Dual SVM 也會使用到 Lagrange Multiplier。

將 SVM 的限制條件轉換成無限制條件

在以往的課程中,我們已經了解有限制條件時,會造成我們找最佳解的困難,所以第一步我們先想辦法把 SVM 的限制條件轉換成無限制條件看看。

有了這樣的想法,我們把原本 SVM 的數學式改寫成一個 Lagrange Function,如下圖所示,原本的 N 的限制式改成了 1-yn(wTZn + b),並用 N 個 Lagrange Multiplier 來做調整(N 個 alpha)。

數學需要證明 SVM 會等於 min (max Largrange Function, all alpha >= 0),我們可以先看一下 Largrange Function 的意涵。我們希望 SVM 可以完美的分好資料,所以 1-yn(wTZn + b) 應該都是 <= 0,假設現在 1-yn(wTZn + b) 有一些正值的話,那 max Largrange Function 就會趨向無限大,所以如果我們找到正確的 b, w 分好資料,那 max Largrange 就會趨向 1/2wTw,這樣加上前面的 min,就可以知道 Lagrange Function 的轉換解出來的答案會跟原本的 SVM 一樣。

Max Min 做交換

由於 Lagrange 對偶性質,Max Min 可以透過下圖的關係式做調換,原本的 min(max Lagrange Function) 有大於等於 max(min Lagrange Function) 的關係,在 QP 的性質上,其實又說兩邊解出來的答案會一模一樣。(這邊用單純的說明,沒有數學推導證明)

解 Lagrange Dual (1)

導出目前的 Lagrange Dual 式子 max(min Lagrange Function)之後,我們要來解看看最佳解了。由於 min Lagrange Function 是沒有限制條件的,所以我們可以用偏微分來求極值。

首先我們對 b 做偏微分,會得到 - sigma(anyn) =0,負號可以不用管,所以寫成 sigma(anyn) = 0。

將這個限制式代入原本的式子,就可以把原本的式子做一些簡化,如下圖所示。

解 Lagrange Dual (2)

接下來我們對 wi 做偏微分,可以得到 w = sigma(anynzn),一樣將這個限制式代入原本的式子,原本式子中的 w 就都可以換掉。

KKT Optimality Conditions

將過這些最佳換轉換的式子,導出了一些限制式:

  1. yn(wTZn + b)>= 1,這是原本要將資料分好的限制式
  2. an >= 0,對偶問題 Lagrange Multiplier 的條件
  3. sigma(ynan) = 0,w = sigma(anynzn),這是最佳解時會有的條件
  4. 在最佳解時,an(1-yn(wTZn + b)) = 0

這就是著名的 KKT Optimality Conditions,目前這些 b,w 最佳解時的限制式,其中的變數就只剩下 an,所以實務上我們就要去找出最佳解時的 an 會是什麼,再利用上述的關係解出 b, w。

Dual SVM

導出最佳解時的所有限制式之後,原來的式子可以改成下圖中的式子,這個式子其實也是一個 QP 問題,我們可以用 QP Solver 來解出最佳解時的 an。

用 QP Solver 解 Dual SVM

我們可以用 QP Solver 解 Dual SVM,造上一講的做法去將 QP Solver 所需要的參數找出來,會有下圖中的參數。相等關係的限制式可以改成一個 >= 及 一個 <= 的關係,如果你所使用的 QP Solver 有提供相等關係的參數,那就不用這樣做。

特殊的 QP Solver

找出 Dual SVM 的所有 QP Solver 所需參數之後,我們就可以將參數丟進去 QP Solver 讓它幫忙解出最佳解。由於其中的 Q 參數可能會很大,因此使用有對 SVM 問題做特殊處理的 QP Solver 會比較沒問題。

找出最佳的 w , b

機器學習演算法最終就是要找出最佳的 w, b 來做未來的預測,不過現在 QP Solver 解出來的只有最佳解時的 an,我們要怎麼求出最佳解時的 w, b 呢?從 KKT Optimality Conditions 我們可以找出 w, b,w =sigma(anynzn) 這個條件可以算出 w,an(1-yn(wTZn + b)) = 0 這個條件可以算出 b,因為 an 通常會有大於 0 的情況,所以 1-yn(wTZn + b) 等於 0 才能符合條件,所以 b =yn - wTZn。

由於 an 大於 0 的點才能算出 b,這些大於 0 的 an 的資料點其實就是落在胖胖的邊界上。

Support Vector 的性質

由於 w = sigma(anynzn),所以其實也只有 an 大於 0 的點會影響到 w 的計算,b 也是只有 an 大於 0 時才有辦法計算,所以 an 大於 0 的資料點其實就是 Support Vector。

Support Vector 可以呈現胖胖的超平面

我們來看看 w = sigma(anynzn) 的含義,其實他的意思就是 w 可以被 Support Vecotr 線性組合呈現出來。這跟 PLA 也有點像,PLA 的 w 含義是被它犯錯的點的線性組合呈現出來。其實在 Logistic Regression 及 Linear Regression 也可以找到類似的性質,簡而言之,我們最後來出來做預測的 w 其實都可以被我們的訓練資料線性組合呈現出來。

比較一下 Primal 及 Dual SVM

我們將 Primal 及 Dual SVM 的式子放在一起比較,其實可以發現 Dual SVM 與資料點的特徵維度 d 已經沒有關係了,因此可以做很高維度的特徵轉換。

但其實 Dual SVM 只是把特徵維度藏起來

但其實仔細一看 Dual SVM 只是把特徵維度藏起來,在計算 Q 時,就會與特徵維度牽扯上關係,這樣就還是無法做無限維度的轉換,我們如何真正不需要計算到高維度特徵呢?這是下一講的課程了。

總結

在這一講中,我們介紹了 Dual SVM,這是為了讓我們可以對資料點做高維度的特徵轉換,這樣就可以讓 SVM 學習更複雜的非線性模型,但我們又不想要跟高維度的計算牽扯上關係,Dual SVM 將問題作了一些轉換,算是把高維度的計算藏了一半,另一半就是下次的課程了。

前言

本系列部落格文章將分享我在 Coursera 上台灣大學林軒田教授所教授的機器學習技法(Machine Learning Techniques)課程整理成的心得,並對照林教授的投影片作說明。若還沒有閱讀過 機器學習基石系列 的碼農們,我建議可以先回頭去讀一下再回來喔!

範例原始碼:FukuML - 簡單易用的機器學習套件

我在分享機器學習基石課程時,也跟著把每個介紹過的機器學習演算法都實作了一遍,原始碼都放在 GitHub 上了,所以大家可以去參考看看每個演算法的實作細節,看完原始碼會對課程中的數學式更容易理解。

如果大家對實作沒有興趣,只想知道怎麼使用機器學習演算法,那 FukuML 絕對會比起其他機器學習套件簡單易用,且方法及變數都會跟林軒田教授的課程類似,有看過課程的話,說不定連文件都不用看就會使用 FukuML 了。不過我還是有寫 Tutorial 啦,之後會不定期更新,讓大家可以容易上手比較重要!

熱身回顧一下

從機器學習基石課程中,我們已經了解了機器學習一些基本的演算法,在機器學習技法課程中我們將介紹更多進階的機器學習演算法。首先登場的就是支持向量機(Support Vector Machine)了,第一講中我們將先介紹最簡單的 Hard Margin Linear Support Vector Machine。

線性分類回憶

回憶一下之前的課程中,我們使用 PLA 及 Pocket 來學習出可以分出兩類的線。

哪條線最好?

但其實可以將訓練資料分類的線可能會有很多條線,如下圖所示。我們要怎麼選呢?如果用眼睛來看,你或許會覺得右邊的這條線最好。

為何右邊這條線最好?

為何會覺得右邊這條線最好呢?假設先在我們再一次取得資料,可以預期資料與訓練資料會有點接近,但並不會完全一樣,這是因為 noise 的原因。所以偏差了一點點的 X 及 O 再左邊這條線可能就會不小心超出現,所以就會被誤判了,但在右邊這條線就可以容忍更多的誤差,也就比較不容易 overfitting,也因此右邊這條線最好。

如何描述這條線?我們可以說這條線與最近的訓練資料距離是所有的線中最大的。

胖的線

我們希望得到的線與最近的資料點的距離最大,換的角度,我們也可以說,我們想要得到最胖的線,而且這個胖線還可以將訓練資料分好分類。

Large-Margin Separating Hyperplane

這種胖的線名稱就叫 Large-Margin Separating Hyperplane,原本的問題就可以定義成要找最大的 margin,而且還要分好類,也就是 yn = sign(wTXn)。

最大的 margin 可以轉換成點與超平面之間最小的距離 distance(Xn, w),然後 yn = sign(wTXn),就代表 Yn 與 score 同號,所以可以轉換成 YnwTXn > 0,我們需要求解滿足這些條件的超平面。

點與超平面的距離 - 符號解釋

點與超平面的距離怎麼算呢?在這邊的推導,我們需要暫時將 w0 分出來,寫成 b,所以我們之前熟悉的 wTXn 在這邊暫時變成 wTxn + b,以方便推導。

點與超平面的距離 - 推導

如果我們現在有一個超平面 wTx + b = 0,假設 x’ 與 x” 都在這個超平面上,也就是 wTx’ + b 及 wTx” + b 都會是 0,如此就會得到 wTx’ = -b 及 wTx” = -b。現在我們將 wT 與 (X”- X’) 相乘,由於剛剛的式子,我們會得到 0。(X”- X’)是一個在 wTx + b = 0 超平面上的向量,W 與這個向量相乘會是 0 就代表 w 是這個超平面的法向量,要算 x 與超平面的距離,就是將 (x-x’) 這個向量投影到 w,就可以算出點與超平面的距離了,公式如下所示。

分開訓練資料的超平面

由於我們要求的事可以分開訓練資料的超平面,因此已有 yn(wTXn+ b) > 0 這個條件,也因此距離公式中的 |wTx+b| 可以用 yn(wTXn + b) 來取代,這樣會比較容易求解。

減少超平面解的數量

觀察一下下圖中所有求解的條件,我們可以再進一步簡化。假設我們要找的是 wTx + b = 0 這個超平面,我們對這個超平面進行縮放其實是沒有任何影響的,現在我們也將 wTx + b 進行放縮,讓它跟 yn 相乘會是 1,也就是 yn(wTXn + b) = 1,這樣原本的 margin(b,w) 就是可以轉換成 1 除以 w 的長度,我們只要求讓這個值最大的平面就可以了。

再次簡化問題

經過上述的推導,我們的問題變成求滿足(1) max 1/||w|| 及 (2) min yn(wTXn + b) = 1 這兩個條件的超平面,但這樣我們好像還是覺得有些複雜不會解,可以再這麼簡化呢?

min yn(wTXn + b) = 1 這個條件我們可以讓它的限制再鬆一點,只要 yn(wTxn+b)>=1 就好了,理論上保證最後得到的解,一定會有等於 1 的情況,而不會全部都大於 1。

另外 max 1/||w|| 我們改成 min ||w||,||w|| 是 wTw 開根號,我們可以不理根號然後乘上 12 以方便後面的推導,所以轉換成 min 12(wTw)。

解一個簡單的問題來看看

現在我們求解的條件變成求 min 12(wTw) 且 yn(wTXn + b)>=1 的超平面,我們用一個簡單的例子來求解看看。如下圖所示,我們可以找出 w1 = 1, w2 = -1, b = -1 滿足我們的條件,這個超平面就是 x1 - x2 - 1,這個超平面也稱為 Support Vector Machine(SVM)。

支持向量機(Support Vector Machine)

從上面這個簡單例子,讓我們來了解一下支持向量機。首先,這個向量可以由 margin 的公式得出 marging 的寬度值。我們會發現有些點會剛好在這個 margin 的邊界上,這些點就是所謂的支持向量(Support Vector)。這些支持向量可以標出胖線的位置,其他的點則無法,所以其他的點在這個問題上是不重要的點。

所以 SVM 的意思就是:透過 Support Vector 的協助來學習出最胖的超平面。

實際上怎麼解這個問題?

我們剛剛只是從一個簡單的例子來解 SVM,那實際上怎麼解這個問題呢?之前我們學過 gradient descent,在這邊好像沒用,因為有很多限制,我們不能讓演算法自由自在的計算 gradient descent。

但這個問題其實有現存的方法可以解,觀察所有的限制式就會發現 SVM 可以用二次規劃(quadratic programming)來找出最佳解。

二次規劃

我們把 SVM 的限制式,跟二次規劃的限制式做一個比較,就發現可以將問題轉換成二次規劃的相關參數,找出 SVM 問題在二次規劃時的 u, Q, p, a, c,我們就可以把這些參數丟到 QP Solver 來幫我們解 SVM。

目前各語言都有提供 QP Solver,但是介面參數可能會不相同,要自己讀文件去了解各個參數,自己做轉換。

第一個 SVM

使用 QP Solver 你就可以解第一個學會的 SVM,這個 SVM 是 hard margin(需要訓練資料線性可分),且學習出來的是線性模型,如果要做非線性模型,只要將資料做非線性轉換就可以了。

探討一下其中的理論

為何胖的超平面會比較好呢?除了我們前述用例子說明之外,有沒有什麼理論基礎呢?其實如果觀察 SVM 的限制式,我們把它拿來與正規化做比較,會發現 SVM 與正規化實際上做的事情很類似,也因此兩個方法都有避免 Overfitting 的能力。

SVM 的優勢

SVM 的優勢在哪呢?之前我們學過可以將資料做特徵轉換到高維度,讓假設集合變多,可以學習更複雜的模型,但這很可能會造成 overfitting。但簡單的模型假設集合太少,無法學習複雜的模型。

我們希望可以讓假設集合不是太多,但又可以學習較複雜的模型,SVM 就可以兩全其美,他比起正規化更好的地方就在於正規化需要對原來的演算法作調整,但 SVM 本身就像是一個具備正規化的演算法。

總結

在這一講我們了解了 SVM,且知道 SVM 的特性就是去找出可以將訓練資料分好的一條最胖的超平面。而實務上我們會用二次規劃的工具來解 SVM。

前言

本系列部落格文章將分享我在 Coursera 上台灣大學林軒田教授所教授的機器學習基石(Machine Learning Foundations)課程整理成的心得,並對照林教授的投影片作說明。若還沒有閱讀過 第十五講 的碼農們,我建議可以先回頭去讀一下再回來喔!

範例原始碼:FukuML - 簡單易用的機器學習套件

我在分享機器學習基石課程時,也跟著把每個介紹過的機器學習演算法都實作了一遍,原始碼都放在 GitHub 上了,所以大家可以去參考看看每個演算法的實作細節,看完原始碼會對課程中的數學式更容易理解。

如果大家對實作沒有興趣,只想知道怎麼使用機器學習演算法,那 FukuML 絕對會比起其他機器學習套件簡單易用,且方法及變數都會跟林軒田教授的課程類似,有看過課程的話,說不定連文件都不用看就會使用 FukuML 了。不過我還是有寫 Tutorial 啦,之後會不定期更新,讓大家可以容易上手比較重要!

熱身回顧一下

在上一講中,我們了解了如何使用 Cross Validation 來幫助我們客觀選擇較好的模型,基本上機器學習所有相關的基本知識都已經具備了,這一講是林軒田老師給的三個錦囊妙計,算是一種經驗分享吧~

第一計 奧卡姆剃刀

資料的解釋應該要越簡單越好,我們應該要用剃刀剃掉過分的解釋,據說這句話是愛因斯坦說的。

如下圖,我們在使用機器學習時,也希望學習出來的模型會是左較簡單的模型。在直覺上我們會覺得左圖會比右圖夠有解釋性,當然理論上也證明如此了。

較簡單的模型

什麼是叫簡單的模型呢?較教簡單的模型,就是看起來很簡單,假設較少、參數較少,假設集合也比較好。

簡單比較好

那為什麼簡單會比較好呢?除了之前數學上的解釋之外,我們可以有這樣直觀的解釋:如果一個簡單的模型可以為數據做一個好的鑒別,那就代表這個模型的假設很有解釋性,如果是複雜的模型,由於它永遠都可以把訓練資料分的很好,這樣其實是沒有什麼解釋性的,也因此用簡單的模型會是比較好的。

所以根據這一計的想法,我們應該要先試線性模型,然後盡可能了解自己是不是已經盡可能地用了簡單的模型。

第二計 避免取樣偏差

取樣有可能會有偏差,VC 理論其中的一個假設就是訓練資料與測試資料要來自於同一個分佈,否則就無法成立。如果取樣有偏差,那機器學習的效果就會不好。

處理取樣偏差

要避免取樣偏差,要好好了解測試環境,讓訓練環境跟測試環境可以儘可能接近。舉例來說,如果測試環境會使用時間軸近期的資料,那訓練時要想辦法對時間軸較近的資料做一些權重的調整,在做 Validation 的時候也應該要選擇時間軸較近的資料。

另一個例子,其實信用卡核卡問題也有取樣偏差的風險,因為銀行只會有錯誤核卡,申請人刷爆卡的記錄,卻沒有錯誤不核卡,但該位申請人信用良好的資料。因此搜集到的資料本身就已經有被篩選過了,也因此可以針對這個部分在做一些優化。

第三計 避免偷看資料

之前我們的課程中有說過,我們可能會因為看過資料而猜測圈圈會有最好的效果,但這樣就會造成我們的學習過程沒有考慮到人腦幫忙計算過的 model complexity,所以我們要避免偷看資料。

資料重複利用地偷看

其實使用資料的過程中,我們就不斷地偷看資料,甚至看別人論文時,也是在累積偷看資料的過程,所以需要了解到這個概念,有可能讓你的機器學習受到影響。

處理資料偷看

實際上偷看資料的情況很容易發生,要做到完全不偷看資料很難,所以我們可以做的就是,一開始就將測試資料鎖起來,學習的過程中完全不用,然後使用 Validation 來避免偷看資料。

如果說希望將自己的 Domain Knowledge 加入假設,應該一開始就加進去,而不是看完資料再加進去。然後,要時時刻刻會實驗的結果存著懷疑之心,要有一種感覺這樣的結果可能受到的資料偷看污染的影響。

Power of Three

除了三個錦囊妙計,林軒田老師將機器學習的重點整理成 Power of Three,帶我們整個回顧一下。

第一個是機器學習有三個相關領域,Data Mining、Artificial Intelligence、Statistics。

  • Data Mining 是從大量的數據裡面找出有趣的特性,它跟 ML 是高度相關的。
  • Artificail Intelligence 是想讓機器做一些有智慧的事,ML 是實現 AI 的一種工具。
  • Statistics 是從數據裡做一些推論的動作,是 ML 的一種工具。

三個理論保證

  • Hoeffding 不等式,針對單一個 hypothesis 保證錯誤率在某個上界,我們會用在 Testing。
  • Multi-Bin Hoeffding,針對 M 個 hypothesis 保證錯誤率在某個上界,我們會用在 Validation。
  • VC Bound,針對所有的 hypothesis set 保證錯誤率在某個上界,我們會用在 Training。

三個模型

  • PLA/Pocket,用在二元分類,由於是 NP-Hard 的問題,我們使用特殊的方法來優化。
  • Linear Regression,線性迴歸很容易優化,可以用公式解。
  • Logistic Regression,用來計算機率,使用遞迴的方式優化。

三個重要工具

  • Feature Transform,可以轉換到高維空間,將 Ein 變小。
  • Regularization,與 Feature Transform 相反,讓模型變簡單,VC Dimenstion 變小,但 Ein 會變大。
  • Validation,留下一些乾淨的資料來做模型的選擇。

未來的方向

底下所有機器學習相關的關鍵字都是未來可以去學習的,將在後續的機器學習技法課程中講解。大致上有三個方向,一個是更多不一樣的轉換方式,不只有多項式的轉換;一個是更多的正規化方式;最後一個是沒有那麼多的 Label,比如說無監督式的學習等等。

前言

本系列部落格文章將分享我在 Coursera 上台灣大學林軒田教授所教授的機器學習基石(Machine Learning Foundations)課程整理成的心得,並對照林教授的投影片作說明。若還沒有閱讀過 第十四講 的碼農們,我建議可以先回頭去讀一下再回來喔!

範例原始碼:FukuML - 簡單易用的機器學習套件

我在分享機器學習基石課程時,也跟著把每個介紹過的機器學習演算法都實作了一遍,原始碼都放在 GitHub 上了,所以大家可以去參考看看每個演算法的實作細節,看完原始碼會對課程中的數學式更容易理解。

如果大家對實作沒有興趣,只想知道怎麼使用機器學習演算法,那 FukuML 絕對會比起其他機器學習套件簡單易用,且方法及變數都會跟林軒田教授的課程類似,有看過課程的話,說不定連文件都不用看就會使用 FukuML 了。不過我還是有寫 Tutorial 啦,之後會不定期更新,讓大家可以容易上手比較重要!

熱身回顧一下

在上一講中,我們進一步了解了如何透過正規化(Regularization)來避免 Overfitting,但正規化這個方法會有一個參數 lambda,這個 lambda 我們又要如何選擇呢?在這一講將會學習到使用 Validation 這個方法來幫助我們選擇比較好的 lambda 值,同理,這個方法也可以幫助我們用於選擇各種不同的學習模型。

許多學習模型可以使用

經過了前面 14 講,我們已經學會了許多學習模型,在演算法上我們有 PLA、Pocket、Linear Regression、Logistic Regression 可以做選擇;然後在模型學習的過程中,我們可以指定演算法要經過幾次的學習,每次學習優化的過程要走多大步;我們也可以有很多種線性轉換的方式將模型轉換到更複雜的空間來進行學習;如果模型太過複雜了,我們也有很多種正規化的方法來讓模型退回叫簡單的模型,並可透過 lambda 這個參數來調整退回的程度。

我們可以任意組合,但組合完之後我們要怎麼判斷哪個組合未來在做預測時效果會比較好呢?

用 Ein 來做選擇

如果我們用 Ein 來做選擇,那就永遠會選擇到比較複雜的模型,這在上一講中我們已經知道這很可能會有 Overfitting 發生。所以用 Ein 來做選擇是很危險的。

用 Etest 來做選擇

使用 Etest 來做選擇,基本上理論上是可行的,但 Etest 實際在我們訓練的過程中是不能拿來用的,直接拿 Etest 來幫助我們選擇模型其實是一種作弊行為。所以用 Etest 來做選擇也是不可行的。

引進 Eval

既然用 Ein 或 Etest 來做選擇是不可行的,那如果我們把我們手中的資料 D 保留一份下來作為 Dval,然後在訓練的過程中都不使用 Dval,等訓練完之後,在挑選各種模型的時候再用 Dval 來做選擇,那這樣會是一個比較安全的做法。

這有點像是我們在練習時,會把一些練習題留下來,等考試之前再驗證看看自己的成果如何,機器學習也用上了這個概念。

進一步了解 Dval

所以有了 Dval 的概念之後,我們就會把拿到的資料先分成 Dtrain 及 Dval,Dtrain 用來做訓練得出 g-,Dval 用來做驗證。在霍夫丁不等式的理論中,我們可以保證 Eout(g-) 會跟 Eval(g-) 很接近。所以用 Eval 來選擇最好的模型是可行的。

選出 Eval 表現最好的模型

所以現在當我們有很多個模型需要做選擇時,每個會用訓練資料先得出各自最好的 g-,然後我們再用驗證資料計算 Eval,Eval 表現最好的模型就是我們要的。不過 g- 使用的訓練資料較少,也因此未來的表現也可能因為訓練資料少而受影響。所以我們選出了最好的模型之後,會再將所有的資料使用進去訓練出一個最好的 g。

驗證資料的影響

我們用一些實驗來看驗證資料的影響,用 Ein 來選的話,Eout 就會是上面那條黑實線,因為 Ein 永遠會選擇最複雜的模型。然後用 Etest 來選模型,當然會得到最好的 Eout 值,但這是作弊。紅色的線代表我們用 g- 直接來做預測,當驗證資料越多的時候,g- 的 Eout 值就變高了,有時甚至比 Ein 選出來的模型還差。藍色的線代表我們用驗證資料選出模型之後,再將全部的資料丟進去訓練出 g,如此得到的效果都會比用 Ein 來選好。

那要保留多少驗證資料

從上面的實驗,我們會知道驗證資料的多寡也會影響選出來的模型,所以我們應怎麼選擇保留多少驗證資料呢?實務上我們目前都是用 15 的資料作為驗證資料。

一個極端的例子

我們從 Eout(g) 及 Eout(g-) 及 Eval(g-) 的關係中觀察,如果我們的驗證資料 k 越小,那 Eout(g) 與 Eout(g-) 就會越接近;但驗證資料 k 越大,那 Eout(g-) 及 Eval(g-) 就會越接近;有沒有方法可以讓 Eout(g) 跟 Eout(g-) 很接近,卻又可以讓 Eval 可以正確地挑出最好的模型。

這個方法就是 leave-one-out cross validataion,每次只保留一個資料作為驗證資料,重複這個過程,直到所有的資料都做過驗證資料,並將所有的 Eval 做平均之後,Eval 最好的那個模型就會是我們想要的模型。

用一個簡單的例子來說明 Leave One Out

我們用一個簡單的例子來說明 Leave One Out Cross Validation 選擇模型的效果。假設現在我們有三個點,現在有兩個模型要做選擇,一個是線性模型,一個是常數模型。從下圖我們可以看出常數模型的 Eloocv 會比較小,所以我們就會用常數模型作為我們最後訓練完的結果。

這也告訴我們,當資料很少的時候,有時選擇簡單的模型效果反而會比較好。

理論上也有保證

我們剛才都是以實驗上的角度來說明 cross validation 是有效果的,這邊有一個理論推導也可以支持這個結果。推導 Eloovc 的期望值時,最後可以得到跟 Eout(N-1) 平均相等。

Leave-One-Out Cross Validation 的缺點

雖然 Leave-One-Out Cross Validation 在理論上的確可以讓我們得到的結果很接近真實得到的 Eout,但這個方法也有缺點。如果我們有 1000 個資料,那我們就每個模型都要訓練一千次來計算出各自的 Eloocv,這樣計算量會非常大。

然後觀察下圖 Eloovc 的曲線,我們可以看出隨著 Feature 值的上升,Eloocv 值不會是一個穩定下降再上升的曲線,它會有跳動的情況發生(例如多個模型表現都很好的情況),所以有時會造成選擇的盲點。

因此實務上我們都不會使用 Leave-One-Out Cross Validation 這個方法來選擇模型。

分份數的概念

Leave-One-Out Cross Validation 很像是把 D 個資料分成 D 分來做 cross validation,那我們可以將份數變少,比如說分成 5 份或 10 份做 cross validation,這樣就可以大大減少計算量了。

目前實務上都是分 10 份,使用 10-fold cross validation。

一些提醒

Cross Validaton 是用來做模型的選擇,基本上也會是用風險,因此 validation 表現的結果很好,也不是百分之百未來做預測時效果都會很好。還是要記得觀察未來的預測情況。

總結

由於我們已經學會了很多機器學習的方法,有許多地方可以調整我們學習的模型,所以在眾多的學習模型中哪個是最好的,我們也需要有一個方法來幫助我們做選擇,這個方法就是 Cross Validation。

前言

本系列部落格文章將分享我在 Coursera 上台灣大學林軒田教授所教授的機器學習基石(Machine Learning Foundations)課程整理成的心得,並對照林教授的投影片作說明。若還沒有閱讀過 第十三講 的碼農們,我建議可以先回頭去讀一下再回來喔!

範例原始碼:FukuML - 簡單易用的機器學習套件

我在分享機器學習基石課程時,也跟著把每個介紹過的機器學習演算法都實作了一遍,原始碼都放在 GitHub 上了,所以大家可以去參考看看每個演算法的實作細節,看完原始碼會對課程中的數學式更容易理解。

如果大家對實作沒有興趣,只想知道怎麼使用機器學習演算法,那 FukuML 絕對會比起其他機器學習套件簡單易用,且方法及變數都會跟林軒田教授的課程類似,有看過課程的話,說不定連文件都不用看就會使用 FukuML 了。不過我還是有寫 Tutorial 啦,之後會不定期更新,讓大家可以容易上手比較重要!

熱身回顧一下

在上一講中,我們更進一步的了解了什麼是 Overfitting 是因為 stochastic noise 及 deterministic noise 而造成,與簡易地介紹了幾個簡單的方法來避免 overfitting,這一講將介紹一個比較內行的方法來避免 overfitting,這個方法叫做正規化(Regularization)。

正規化

正規化(Regularization)的想法,就是我們了解 overfitting 發生時,有可能是因為我們訓練的假設模型本身就過於複雜,因此我們能不能讓複雜的假設模型退回至簡單的假設模型呢?這個退回去的方法就是正規化。

退回簡單模型就像是加了限制

假設我們現在是一個 10 次多項式的假設集合,我們想要退回成為較為簡單的 2 次多項式假設集合,其實可以想成就像是 2 次以上的項的係數都是 0,也就像是我們為求解的過程加上了一些限制,希望 2 次以上的項的係數都是 0。

使用較鬆的限制

直接將高維的項次設成 0 可能不是一個好方法,通常我們會希望由學習的過程來決定哪些項次要是 0,這樣的得到的學習效果可能會比較好。所以我們的限制就改成,希望不為 0 的係數不超過三個,由機器從資料來學習出最好的 w,這樣可能會得到比較好的結果。而這樣的限制並不是平滑的函數,所以這是一個 NP Hard 的問題。

換個方式得出較為平滑的限制

所以我們需要換個方式得出較為平滑的限制,這樣在演算法上會比較容易求解,在 Regression 這個問題上,我們可以把限制改為 ||w^2|| <= C 來代表 w 不超過三個係數不為 0,這個含義就像是讓 w 限制在某些值裡面,也許他不一定代表 w 不超過三個係數不為 0,但它可能可以包含,而且 C 的值是一個連續的數,求解上會比較容易。

Regularized Linear Regression

加上 ||w^2|| <= C 這個限制的線性迴歸(Linear Regression)就是正規化線性迴歸(Regularized Linear Regression),如何求解優化這個問題呢?

使用 Lagrange Multiplier

讓我們用微觀的角度來看求解優化這個問題,原來沒有限制的時候,我們使用梯度下降法來求解,只需要讓目標函數沿著提度的反方向走,直到梯度為 0。加入了限制之後,這代表 w 需要在一個紅色的球裡面滾動,如圖所示。由圖來看,我們的解應該都是在求的邊界附近,只要梯度與 w 不是平行的,目標函數就可以再向谷底滾動一點點,可以得到更好的解。如此往下推,最佳的結果就是梯度與 w_reg 是平行的時候。所以使用梯度下降法解這個問題,就是去求解 w_reg 及 lamda,然後讓 w_reg 與梯度平行即為最佳解。(而這個 lamda 就是 Lagrange Multiplier)

Ridge Regression

有了上式的概念之後,我們只要知道 lamda,就可以很容易地求出 w_reg。這個式子經過整理之後,能夠直接得出最佳解,這個方法在統計上就稱為是 Ridge Regression。

擴增錯誤

我們將上式進行積分,可以得到下圖中的式子,在意義上我們要優化的除了 Ein 之外,也要考慮到擴增出來的錯誤。由於 WTW 是正的,lambda 及 N 也是正的,因此在優化求解的時候可以保證 WTW 不能太大。這個方法可以對模型複雜度進行懲罰,讓 Ein(W) 在解空間受到了限制。給定 C 跟給定 lamda 對我們來說可能是一樣的,使用這個角度所推導出來的式子對我們來說更容易求解。

如何求 lambda

現在就剩下,改如何給定 lambda 呢?總歸一句話,我們可以做實驗來決定。我們只要知道 lambda 的性質就好,選越大的 lambda 代表懲罰越多,這就代表 w 長度值越小,這其實就就代表 C 越小(限制越多)。

Legendre Polynomials

有一個小細節要注意,之前學過將空間轉換到高維度以求得更小 Ein 的方法,都可以配合正規化來避免 overfitting。不過單純轉換到高次,由於高次的維度 xi 值乘很多次,Regularizer 可能會過度懲罰這些高次項,因此我們需要使用 Legendre Polynomials 來進行高次轉換,讓高次項不會在訓練過程中被過度懲罰。

如何選擇最好的 lambda

如何選擇最好的 lambda?剛剛說要透過實驗,那麼怎麼做實驗呢?這就是下一次的課程了。

總結

在這一章我們學會了如何使用正規化這個方法來避免 overfitting,在核心概念上就像為解空間加上了限制,也因此可以避免過度優化。

前言

本系列部落格文章將分享我在 Coursera 上台灣大學林軒田教授所教授的機器學習基石(Machine Learning Foundations)課程整理成的心得,並對照林教授的投影片作說明。若還沒有閱讀過 第十二講 的碼農們,我建議可以先回頭去讀一下再回來喔!

範例原始碼:FukuML - 簡單易用的機器學習套件

我在分享機器學習基石課程時,也跟著把每個介紹過的機器學習演算法都實作了一遍,原始碼都放在 GitHub 上了,所以大家可以去參考看看每個演算法的實作細節,看完原始碼會對課程中的數學式更容易理解。

如果大家對實作沒有興趣,只想知道怎麼使用機器學習演算法,那 FukuML 絕對會比起其他機器學習套件簡單易用,且方法及變數都會跟林軒田教授的課程類似,有看過課程的話,說不定連文件都不用看就會使用 FukuML 了。不過我還是有寫 Tutorial 啦,之後會不定期更新,讓大家可以容易上手比較重要!

熱身回顧一下

在上一講中,我們了解了如何使用非線性轉換來讓我們的機器學習演算法可以學習出非線性分類模型,也了解了這樣的方法可能會讓模型複雜度變高,造成 Overfitting 使未來 Eout 效果不佳的情況,所以要慎用此方法。在這一講中將更進一步說明什麼是 Overfitting,並講解如何避免 Overfitting。

Bad Generalization 無法舉一反三

我們來看個例子,現在我們使用一個二次多項式加上一點 noise 產生資料點,由於有 noise,我們是無法學習出一個二次多項式讓 Ein 為 0。但如果我們使用了非線性轉換到四次多項式來進行學習,我們可以找到一個 w 讓 Ein 為 0,看起來可能會像是圖中的紅線。但可想而知紅線的 Eout 可能會非常高,如此我們的機器學習是失敗的,無法舉一反三。

Overfitting 過度優化

其實這就是一種過度優化,當我們發現 Eout - Ein 很大時,就是發生了 Bad Generalization。

我們觀察圖中的 dvc*,當 dvc* 越來越高時,Ein 會下降,但 Eout 會上升,這時就是產生了 Overfitting。

當 dvc* 往左時,Ein 會上升,Eout 也會上升,這時就是產生了 Underfitting。

Underfitting 不會很常發生,因為我們會追求低的 Ein,因此可以避免 Underfitting,但 Overfitting 卻常常發生,因為追求低 Ein,會讓我們不小心進入陷阱。

Case Study 12

我們再來看一個例子,我們現在有兩個 target function,一個是 10 次多項式加上一些 noise,一個是 50 次多項式然後沒有 noise,現在我們使用一個 2 次多項式及一個 10 次多項式來逼近學習這兩個 target function,以觀察 Overfitting 現象。

Case Study 22

結果我們發現,當我們將學習模型由 2 次多項式轉換到 10 次多項式時,無論是在 10 次或 50 次多項式的資料點都會產生 Overfitting,Ein 變小了,但是 Eout 卻變得非常大!

Learning Curve

我們將 Ein 及 Eout 的變化畫成圖示,我們可以看出 10 次多項式的模型在資料點 N 趨近于無限大時,的確可以得到很低的 Eout,但在資料點不夠多的情況下,Eout 卻會比原來的 2 次多項式模型高很多,圖中灰色的區域會很容易產生 Overfitting。

Noise 的影響

會產生 Overfitting 其實就是 Noise 的影響,尤其當資料點不夠多的情況下影響會很大,在有 Noise 的情況下,複雜的學習模型會去模擬 Noise,因此也就會造成未來在做預測時反而會不準確。所以在有 Noise 的情況下,有時簡單的模型反而會有好的效果。

Noise 除了我們一般所知的 stochastic noise 之外,還有另一種 Noise,當我們要學習的模型越複雜時,這其實對我們的學習演算法也是一種 Noise,這就是 deterministic noise。我們將這兩個 Noise 與 Data N 的數量畫成圖來觀察 Overfitting,我們可以得到四個結論:

  1. 當 data 越少時,Overfitting 越容易發生
  2. 當 stochastic noise 越大時,Overfitting 越容易發生
  3. 當 deterministic noist 越大時,Overfitting 越容易發生
  4. 當使用的學習模型越複雜時,因為他會模擬 Noist,Overfitting 越容易發生

避免 Overfitting 的方法

我們有幾個方法來避免 Overfitting:

  1. 先從簡單的模型開始學習,再慢慢使用複雜的模型,這在上一講有說過了。
  2. 使用資料清洗(Data Cleaning/Pruning),將錯誤的 label 修正,或直接刪除錯誤的數據。
  3. 製造資料(Data Hinting),使用合理的方法將原來手的的資料變得更多,比如在數字識別的這個問題將已有的數字透過平移、旋轉來製造出更多資料。
  4. 正規化(Regularization),下 14 講的主題。
  5. 驗證(Validation),第 15 講的主題。

總結

在這一講中,我們更了解了什麼是 Overfitting,也觀察到 Overfitting 是很容易發生的,也介紹了一些避免 Overfitting 的方法。

Fukuball

我是林志傑,網路上常用的名字是 Fukuball。我使用 PHP 及 Python,對機器學習及區塊鏈技術感到興趣。 https://www.fukuball.com

Co-Founder / Head of Engineering at OurSong

Taipei, Taiwan