本帖最后由 davyhero4 于 2019-10-1 08:05 編輯 . l/ v; l) I3 \/ L3 t, _
0 t/ ?6 H2 c4 j: X8 C3 H& z機(jī)器學(xué)習(xí)算法的分類是棘手的,有幾種合理的分類,,他們可以分為生成/識別,,參數(shù)/非參數(shù),監(jiān)督/無監(jiān)督等,。 例如,,Scikit-Learn的文檔頁面通過學(xué)習(xí)機(jī)制對算法進(jìn)行分組。這產(chǎn)生類別如:1,,廣義線性模型,,2,支持向量機(jī),,3,,最近鄰居法,4,,決策樹,,5,神經(jīng)網(wǎng)絡(luò),,等等… 但是,,從我們的經(jīng)驗來看,這并不總是算法分組最為實用的方法,。那是因為對于應(yīng)用機(jī)器學(xué)習(xí),,你通常不會想,“今天我要訓(xùn)練一個支持向量機(jī),!”相反,,你心里通常有一個最終目標(biāo),如利用它來預(yù)測結(jié)果或分類觀察,。 所以在機(jī)器學(xué)習(xí)中,,有一種叫做“沒有免費的午餐”的定理。簡而言之,,它的意思就是說沒有任何一種算法可以完美地解決每個問題,,這對于監(jiān)督式學(xué)習(xí)(即預(yù)測性建模)尤其重要,。 例如,你不能說神經(jīng)網(wǎng)絡(luò)總是比決策樹好,,反之亦然,。有很多因素在起作用,比如數(shù)據(jù)集的大小和結(jié)構(gòu),。因此,,您應(yīng)該為您的問題嘗試許多不同的算法,同時使用數(shù)據(jù)的“測試集”來評估性能并選擇優(yōu)勝者,。 當(dāng)然,,你嘗試的算法必須適合你的問題,這就是選擇正確的機(jī)器學(xué)習(xí)算法的重要性之所在,。打個比方,,如果你需要清理你的房子,你可以使用真空吸塵器,,掃帚或拖把,,但是你不會拿出一把鏟子然后開始挖掘。 因此,,我們想要介紹另一種分類算法的方法,,即通過機(jī)器學(xué)習(xí)所負(fù)責(zé)的任務(wù)來分類。 機(jī)器學(xué)習(xí)的任務(wù) 1.回歸 回歸是一種用于建模和預(yù)測連續(xù)數(shù)值變量的監(jiān)督學(xué)習(xí)任務(wù),。例如預(yù)測房地產(chǎn)價格,,股價變動或?qū)W生考試分?jǐn)?shù)。 回歸任務(wù)的特征是具有數(shù)字目標(biāo)變量的標(biāo)記數(shù)據(jù)集,。換句話說,,對于每個可用于監(jiān)督算法的觀察結(jié)果,您都有一些“基于事實”的數(shù)值,。 ![]() 1.1,。(正則化)線性回歸 線性回歸是回歸任務(wù)中最常用的算法之一。它最簡單的形式是試圖將一個直的超平面整合到你的數(shù)據(jù)集中(即當(dāng)你只有兩個變量的時候,,你只能得到一條直線),。正如您可能猜到的那樣,當(dāng)數(shù)據(jù)集的變量之間存在線性關(guān)系時,,它的效果是非常好的,。 實際上,簡單的線性回歸經(jīng)常被正則化的同類算法(LASSO,,Ridge和Elastic-Net)所忽略,。正則化是一種懲罰大系數(shù)的技術(shù),以避免過度擬合,,它應(yīng)該調(diào)整其懲罰的力度,。 優(yōu)點:線性回歸可以直觀地理解和解釋,,并且可以正則化以避免過度擬合。另外,,使用隨機(jī)梯度下降的新數(shù)據(jù)可以很容易地更新線性模型,。 缺點:當(dāng)存在非線性關(guān)系時,線性回歸表現(xiàn)不佳,。它們本身并不具有足夠的靈活性來捕捉更為復(fù)雜的模式,,對于添加正確的交互作用項或者多項式來說可能會非常棘手和耗時。 實現(xiàn):Python/ R 1.2,�,;貧w樹(集成) 回歸樹(決策樹的一種)是通過將數(shù)據(jù)集反復(fù)分割成單獨的分支來實現(xiàn)分層化學(xué)習(xí),從而最大化每個分割信息的增益效果,。這種分支結(jié)構(gòu)允許回歸樹自然地學(xué)習(xí)非線性關(guān)系,。 隨機(jī)森林(RF)和梯度增強(qiáng)樹(GBM)等集成方法結(jié)合了許多單獨樹的特性。我們不會在這里介紹他們的基本機(jī)制,,但是在實踐中,隨機(jī)森林通常表現(xiàn)地非常好,,而梯度增強(qiáng)樹則很難調(diào)整,,但是后者往往會有更高的性能上限。 優(yōu)點:回歸樹可以學(xué)習(xí)非線性關(guān)系,,并且對異常值相當(dāng)敏銳,。在實踐中,回歸樹也表現(xiàn)地非常出色,,贏得了許多經(jīng)典(即非深度學(xué)習(xí))的機(jī)器學(xué)習(xí)比賽,。 缺點:無約束的單個樹很容易過擬合,因為它們可以保持分支直到它們記住了所有的訓(xùn)練數(shù)據(jù),。但是,,這個問題可以通過使用集成的方式來緩解。 實現(xiàn):隨機(jī)森林 - Python / R,,梯度增強(qiáng)樹 - Python / R 1.3,。深度學(xué)習(xí) 深度學(xué)習(xí)是指能學(xué)習(xí)極其復(fù)雜模式的多層神經(jīng)網(wǎng)絡(luò)。他們使用輸入和輸出之間的“隱藏層”來模擬其他算法難以學(xué)習(xí)的數(shù)據(jù)中介碼,。 他們有幾個重要的機(jī)制,,如卷積和丟棄,使他們能夠有效地從高維數(shù)據(jù)中學(xué)習(xí),。然而,,與其他算法相比,深度學(xué)習(xí)仍然需要更多的數(shù)據(jù)來訓(xùn)練,,因為這些模型需要更多的參數(shù)來實現(xiàn)其更準(zhǔn)確的推測,。 優(yōu)點:深度學(xué)習(xí)是在諸如計算機(jī)視覺和語音識別等領(lǐng)域內(nèi),,目前可以被利用的最先進(jìn)的方法。深度神經(jīng)網(wǎng)絡(luò)在圖像,,音頻和文本數(shù)據(jù)上表現(xiàn)地非常出色,,可以輕松地使用成批量的傳播方法來更新數(shù)據(jù)。它的體系結(jié)構(gòu)(即層的數(shù)量和結(jié)構(gòu))可以適應(yīng)許多類型的問題,,并且它們的隱藏層減少了對特征工程的需要,。 缺點:深度學(xué)習(xí)算法不適合作為通用算法,因為它們需要大量的數(shù)據(jù),。事實上,,對于傳統(tǒng)的機(jī)器學(xué)習(xí)問題,它們的表現(xiàn)通常遜色于決策樹,。另外,,它們需要密集型的計算訓(xùn)練,而且需要更多的專業(yè)知識來做調(diào)試(即設(shè)置架構(gòu)和超參數(shù)),。 實現(xiàn):Python/ R 1.4,。特別提及:最近鄰居法 最近鄰居算法是“基于實例的”,這意味著它會保存每個訓(xùn)練觀察的結(jié)果,。然后,,通過搜索最相似的訓(xùn)練觀察值并匯集結(jié)果,來預(yù)測新的觀測值,。 這些算法是內(nèi)存密集型的,,對于高維度數(shù)據(jù)的表現(xiàn)不佳,并且需要有意義的距離函數(shù)來計算相似度,。在實踐中,,訓(xùn)練正則化回歸或決策樹可能會更節(jié)省你的時間。 2.分類 分類是建模和預(yù)測分類變量的監(jiān)督學(xué)習(xí)任務(wù),。例如預(yù)測員工的流失,,垃圾郵件,財務(wù)欺詐或者學(xué)生信件等級,。 如你所見,,許多回歸算法都有分類對應(yīng)。這種算法適用于預(yù)測類(或類概率)而不是實數(shù)類,。 k% S5 P3 w4 w5 @/ b
2.1,。(正則化的)邏輯回歸 邏輯回歸是線性回歸的分類對應(yīng)。它預(yù)測被映射到介于0和1之間的邏輯函數(shù),,這意味著預(yù)測可以被解釋為類概率,。 模型本身仍然是“線性的”,所以當(dāng)你的類是線性可分的(即它們可以被一個單一的決策表面分開)時候,,邏輯回歸算法十分有效,。邏輯回歸也可以通過具有可調(diào)懲罰強(qiáng)度的系數(shù)來實現(xiàn)正則化,。 優(yōu)點:數(shù)據(jù)的輸出有一個很好的概率解釋,算法可以正則化以避免過度擬合,。邏輯回歸可以使用隨機(jī)梯度下降的方法使得新數(shù)據(jù)的更新變得更為輕松,。 缺點:當(dāng)存在多個或非線性的決策邊界時,邏輯回歸往往表現(xiàn)不佳,。它不夠靈活,,無法自然地捕捉到更復(fù)雜的關(guān)系。 實現(xiàn):Python/ R 2.2,。分類樹(集成) 分類樹是回歸樹的分類對應(yīng)算法,。它們倆被統(tǒng)稱為“決策樹”,,或者被稱為“分類和回歸樹(CART)”,。 優(yōu)點:與回歸樹一樣,,集成分類樹在實踐中的表現(xiàn)也很好,。它們對于異常值的控制是可靠的和可擴(kuò)展的,并且由于它們的層次結(jié)構(gòu),,能夠自然地對非線性決策邊界進(jìn)行建模,。 缺點:不受約束的單個樹容易過度擬合,,但是這可以通過集成方法來緩解,。 實現(xiàn):隨機(jī)森林 - Python / R,,梯度增強(qiáng)樹 - Python / R 2.3。深度學(xué)習(xí) 延續(xù)其一貫的趨勢,,深度學(xué)習(xí)也很容易適應(yīng)分類問題。實際上,,深度學(xué)習(xí)往往是分類中比較常用的方法,,比如在圖像分類中。 優(yōu)點:在分類音頻,,文本和圖像數(shù)據(jù)時,,深度學(xué)習(xí)表現(xiàn)地非常出色。 缺點:與回歸一樣,,深度神經(jīng)網(wǎng)絡(luò)需要大量的數(shù)據(jù)進(jìn)行訓(xùn)練,,所以它不被視為通用算法。 實現(xiàn):Python的/ R 2.4,。支持向量機(jī) 支持向量機(jī)(SVM)使用稱為核心(kernels)的機(jī)制,,它計算兩個觀察對象之間的距離。隨后支持向量機(jī)算法找到一個決策邊界,,最大化不同類別的最近成員之間的距離,。 例如,具有線性內(nèi)核的支持向量機(jī)類似于邏輯回歸,。因此,,在實踐中,,支持向量機(jī)的好處通常來自于使用非線性的內(nèi)核來建模一種非線性的決策邊界。 優(yōu)點:支持向量機(jī)可以模擬非線性決策邊界,,并有許多內(nèi)核可供選擇,。它們對于過度擬合的控制力也相當(dāng)強(qiáng)大,特別是在高維空間,。 缺點:然而,,支持向量機(jī)是難以調(diào)整的內(nèi)存密集型算法,而且很依賴于選擇正確的核心,,并且不能很好地擴(kuò)展到較大的數(shù)據(jù)集里,。目前在行業(yè)中,隨機(jī)森林通常優(yōu)于支持向量機(jī),。 實現(xiàn):Python/ R 2.5,。樸素貝葉斯 樸素貝葉斯(NB)是一個基于條件概率和計數(shù)的非常簡單的算法。從本質(zhì)上講,,你的模型實際上是一個概率表,,通過你的訓(xùn)練數(shù)據(jù)得到更新。為了預(yù)測一個新的觀察結(jié)果,,您只需根據(jù)其“特征值”,,在“概率表”中查找該類的概率。 它被稱為“樸素的”,,是因為它條件獨立的核心假設(shè)(即所有輸入特征是相互獨立的),,這在現(xiàn)實世界中很少成立。 優(yōu)點:即使條件獨立性假設(shè)很少成立,,但樸素貝葉斯模型在實踐中表現(xiàn)得非常出色,,特別是它十分簡單。而且很容易實現(xiàn),,并可以和數(shù)據(jù)集同步擴(kuò)展,。 缺點:由于其簡單化的原因,樸素貝葉斯模型經(jīng)常被經(jīng)過適當(dāng)訓(xùn)練的其他模型和之前已經(jīng)列出的算法吊打,。 實現(xiàn):Python/ R 3.聚類 聚類是一種無監(jiān)督的學(xué)習(xí)任務(wù),,用于基于數(shù)據(jù)集中的固有結(jié)構(gòu)來發(fā)現(xiàn)自然的觀測分組(即聚類)。例子包括客戶細(xì)分,,電子商務(wù)中的類似項目分組以及社交網(wǎng)絡(luò)分析,。 因為聚類是無監(jiān)督的(即沒有“正確答案”),所以通常使用可視化的數(shù)據(jù)來評估結(jié)果,。如果有“正確的答案”(即你的訓(xùn)練集中有預(yù)標(biāo)記的聚類),,那么選擇分類算法通常更合適。 ![]() 3.1。K-Means算法 K-Means算法是一種通用算法,,它根據(jù)點之間的幾何距離(即坐標(biāo)平面上的距離)進(jìn)行聚類,。這些集群圍繞著質(zhì)心分組,使它們成為球形,,并具有相似的大小,。 對于初學(xué)者來說,這是我們推薦的一種算法,,因為它很簡單,,而且足夠靈活,可以為大多數(shù)問題獲得合理的結(jié)果,。 優(yōu)點:K-Means算法是最流行的聚類算法,,因為如果您想預(yù)處理數(shù)據(jù)或者編譯有用的功能,它是一種快速,,簡單和擁有令人驚訝的靈活性的一種算法,。 缺點:用戶必須指定簇的數(shù)目,這并不總是很容易的,。另外,,如果數(shù)據(jù)中真實的底層聚類不是球狀的,那么K-Means算法將產(chǎn)生錯誤的聚類,。 實現(xiàn):Python/ R 3.2,。近鄰傳播 近鄰傳播是一種相對較新的聚類技術(shù),可以根據(jù)點之間的圖距進(jìn)行聚類,。集群傾向于變得更小和具有不均勻的大小,。 優(yōu)點:用戶不需要指定簇的數(shù)量(但是需要指定“樣本偏好”和“阻尼”超參數(shù))。 缺點:近鄰傳播的主要缺點是速度很慢,,占用內(nèi)存很大,,難以擴(kuò)展到較大的數(shù)據(jù)集。另外,,它也需要假設(shè)真正的底層集群是球狀的。 實現(xiàn):Python/ R 3.3,。分層/凝聚 分層聚類,,又名聚集聚類,是基于相同思想的一套算法:(1)從它自己的聚類中的每個點開始,。(2)對于每個簇,,根據(jù)一些標(biāo)準(zhǔn)將其與另一個簇合并。(3)重復(fù),,直到只剩下一個群集,,并留下一個簇的層次結(jié)構(gòu)。 優(yōu)點:分層聚類的主要優(yōu)點是不會假設(shè)球體是球狀的,。另外,,它可以很好地擴(kuò)展到更大的數(shù)據(jù)集里,。 缺點:就像K-Means算法一樣,用戶必須選擇聚類的數(shù)量(即在算法完成之后要保留的層次級別),。 實現(xiàn):Python/ R * d$ N! y3 J% {% c% v* f
|