• <sub id="pqc61"><p id="pqc61"></p></sub><sub id="pqc61"></sub>
    在线精品视频一区二区,亚洲中文字幕无码一久久区,正在播放肥臀熟妇在线视频,国内精品视频一区二区三区八戒 ,国产毛片三区二区一区,国产精品一区中文字幕,丰满少妇被猛烈进出69影院,国产成人无码
    您正在使用IE低版瀏覽器,為了您的雷峰網(wǎng)賬號安全和更好的產(chǎn)品體驗,強烈建議使用更快更安全的瀏覽器
    此為臨時鏈接,僅用于文章預(yù)覽,將在時失效
    人工智能開發(fā)者 正文
    發(fā)私信給AI研習(xí)社
    發(fā)送

    0

    機器學(xué)習(xí)算法實踐 K均值聚類的實用技巧

    本文作者: AI研習(xí)社 2017-02-17 11:56
    導(dǎo)語:如何使用聚類分析對數(shù)據(jù)自動分段。

    機器學(xué)習(xí)算法實踐 K均值聚類的實用技巧

    編者按:本文作者為美國數(shù)據(jù)分析專家 Bilal Mahmood,他是用戶數(shù)據(jù)分析平臺 Bolt 的創(chuàng)始人之一。在本文中,他詳細介紹了一種稱為 K-Means Clustering(k均值聚類)的算法,其中包括如何衡量算法效果,以及如何確定你需要生成的數(shù)據(jù)段集數(shù)量。雷鋒網(wǎng)編譯整理,更多AI開發(fā)技術(shù)文章,關(guān)注AI研習(xí)社(微信號:okweiwu)。

    Bilal Mahmood:我們最常做的分析之一,便是在數(shù)據(jù)中提取模式。 比方說,某公司的客戶可被劃分入哪些細分市場? 我們?nèi)绾卧谟脩艟W(wǎng)絡(luò)中找到特定群體的聚類?

    通過機器學(xué)習(xí)的方式,我們可以得到這些問題的答案。 即使當(dāng)我們不知道需要查找哪些特定數(shù)據(jù)段,亦或我們的數(shù)據(jù)格式是非結(jié)構(gòu)化數(shù)據(jù),我們都可以有這么一種技術(shù)手段,在算法上,分析出數(shù)據(jù)中合理的數(shù)據(jù)模式,合適的數(shù)據(jù)段和分類結(jié)果。

    在本文中,我們將會詳細介紹一種算法,K-Means Clustering(K均值聚類),包括如何衡量其效果,以及如何確定我們要生成的數(shù)據(jù)段集數(shù)量。

    監(jiān)督VS無監(jiān)督學(xué)習(xí)

      機器學(xué)習(xí)算法實踐 K均值聚類的實用技巧

    在數(shù)據(jù)分類領(lǐng)域里,有兩種有效的機器學(xué)習(xí)方式。

    通過監(jiān)督學(xué)習(xí),如果你搞清楚哪些輸入能映射到哪些離散數(shù)據(jù)段,便可以對結(jié)果的分類做預(yù)測。 但在許多情況下,實際上不會有這些預(yù)定義好的標(biāo)簽,而只有非結(jié)構(gòu)化數(shù)據(jù)——根本沒有定義好的數(shù)據(jù)段。這時,您可能就需要借助無監(jiān)督學(xué)習(xí),從未標(biāo)記的數(shù)據(jù)中推理出目標(biāo)數(shù)據(jù)段。

    為了更清楚一些,我們以分類T恤尺寸為例

    如果我們拿到如圖1A所示數(shù)據(jù)集,我們將有一組寬度(X1)和長度(X2)的輸入,以及他們對應(yīng)的T恤衫尺寸(S(藍色)L(綠色)) 。 在這種情況下,我們就可以通過監(jiān)督學(xué)習(xí)的技術(shù),如邏輯回歸,來繪制一個明確的決策邊界,并分離出各類T恤。

    但如果我們得到一個如圖1B所示的數(shù)據(jù)集,我們得到一組寬度(X1)和長度(X2)的輸入,但沒有對應(yīng)的T恤衫尺寸標(biāo)簽。 在這種情況下,我們就需要使用K均值聚類等無監(jiān)督式學(xué)習(xí)技術(shù),來找到相似的T恤衫,并將它們聚集到小(藍色圓圈)和大(綠色圓圈)的各個類中。

    在現(xiàn)實世界的許多應(yīng)用中,你將面臨如圖2A所示的情況,因此搞明白如何從非結(jié)構(gòu)化的數(shù)據(jù)中提取出結(jié)構(gòu),會有很大的用處。

    K均值聚類 機器學(xué)習(xí)算法實踐 K均值聚類的實用技巧

    K均值聚類給無監(jiān)督機器學(xué)習(xí)提供了一個非常直觀的應(yīng)用,在非結(jié)構(gòu)化的數(shù)據(jù)中歸納出結(jié)構(gòu),

    K均值聚類,正如其名,會將您的數(shù)據(jù)中相似的觀察結(jié)果,分配到同組簇中。 它包括4個簡單重復(fù)的步驟,迭代地評估對每個觀察值有最近(平均)距離的簇。 因此,如果一組觀察結(jié)果彼此接近,它們可能屬于一組簇。

    讓我們逐步細細了解該算法。 第一步,隨機初始化一組聚類中心(上面圖2A中的X),或者說,是各組簇的中心。在開始之前,你可以將這些聚類中心設(shè)置在任何地方,但我們建議,在你對其初始化的時候,用與你設(shè)定的觀察值相匹配的隨機點。您將依次利用這些類中心,來對你的觀察值進行分組,將那些與類中心平均距離最近的觀察值(圖2B中的藍色和綠色圓圈)確定一個聚類歸屬。

    該步驟會將數(shù)據(jù)初始化成幾組簇,將你的數(shù)據(jù)中與類中心最接近的觀察值聚集到一起。 但是這些第一次分配后的數(shù)據(jù)簇,可能不是十分合適的。 所以下一步,你會將你的聚類好的數(shù)據(jù)簇移動到一個更接近,更合適的位置。即在每個當(dāng)前已有的各個簇中 找到它們的平均觀察值,然后你的聚類中心移動到該位置來(圖2C)。 然后,以新的聚類中心為基準(zhǔn),找到的平均距離最近的觀察值,并將其分配到新的簇(圖2D)

    您可以重復(fù)進行此過程:簇分配-查找平均距離-移動聚類中心,直到達到收斂。 一旦你找到了一組簇,而且其中所有的觀察值都能找到最接近的聚類中心,那就不需要再繼續(xù)評估最近的平均距離和移動了。 那些分組在一起的觀察值將被聚類,這樣的話它們可以在輸入中共享相似性(如由它們對同一聚類中心所表現(xiàn)出的接近度),你也為你的數(shù)據(jù)找到了一組合適的聚類方式。

    你使用了多少組簇?

    機器學(xué)習(xí)算法實踐 K均值聚類的實用技巧

    K均值聚類是一種有效的方法,可以為你的數(shù)據(jù)找到一個良好的聚類方式。 但仍然有一個問題,一開始你如何決定要使用多少組簇?

    當(dāng)你不清楚非結(jié)構(gòu)化數(shù)據(jù)集的標(biāo)簽或者分類時,需要無監(jiān)督學(xué)習(xí)的方式(如K均值聚類)來輔助。 因此,數(shù)據(jù)本身不會告訴你,簇的正確數(shù)量(或標(biāo)簽)是多少。

    那么,你該如何衡量自己數(shù)據(jù)用多少組簇呢? 最簡單的方法是利用測量簇的誤差,具體如下:

    機器學(xué)習(xí)算法實踐 K均值聚類的實用技巧

    此函數(shù)通過比較觀察值(X)與其指定的聚類中心(μ)之間的距離來評估簇的誤差。 如果每個對應(yīng)的聚類中心均呈現(xiàn)最低距離,或者最低總體誤差最低,那么這些聚類中心就是與數(shù)據(jù)最符合的聚類結(jié)果。

    回到我們T恤衫尺寸的示例,我們?nèi)绾问褂迷撜`差函數(shù)來確定正確的簇的數(shù)目? 一種方法是“肘部法則”,如上圖3所示。 通過繪制數(shù)據(jù)相對于你初始化的簇的數(shù)量的誤差,你可以發(fā)現(xiàn)誤差變化率最尖銳的點。 圖3中似乎是在兩個簇的地方,表明我們應(yīng)該可能去劃分為小和大兩種。

    雷鋒網(wǎng)提醒,該方法需要注意:通常在你的誤差曲線中沒有明顯的拐點。 因此,不可能總是使用肘部法則來確定合適數(shù)量的簇。

    在這種情況下,建議依靠你的直覺或者待解決的問題的上下文。 例如,在T恤尺寸案例中,你可能很清楚你想將T恤分為5種尺寸 - 超小型,小型,中型,大型和超大型。但這并不是數(shù)據(jù)給你提示清楚的,但基于你的直覺,你可以初始化為五個簇數(shù)量,并得到合適的聚類。

    總而言之,對于到一個聚類問題,K均值聚類提供了一種可迭代的并且有效的算法來發(fā)掘數(shù)據(jù)中的結(jié)構(gòu)。

    雷鋒網(wǎng)注:這篇博文是基于吳恩達在 Coursera 機器學(xué)習(xí)課程中教授的概念。

    via kdnuggets

    機器學(xué)習(xí)算法實踐 K均值聚類的實用技巧

    分享:

    編輯

    聚焦數(shù)據(jù)科學(xué),連接 AI 開發(fā)者。更多精彩內(nèi)容,請訪問:yanxishe.com
    當(dāng)月熱門文章
    最新文章
    請?zhí)顚懮暾埲速Y料
    姓名
    電話
    郵箱
    微信號
    作品鏈接
    個人簡介
    為了您的賬戶安全,請驗證郵箱
    您的郵箱還未驗證,完成可獲20積分喲!
    請驗證您的郵箱
    立即驗證
    完善賬號信息
    您的賬號已經(jīng)綁定,現(xiàn)在您可以設(shè)置密碼以方便用郵箱登錄
    立即設(shè)置 以后再說
    主站蜘蛛池模板: 国产69精品在线| 亚洲第一页在线播放| 亚洲欧洲日产国产av无码| 一起草AV| 亚洲欧洲激情| 亚洲av无码一区二区三区18| 亚洲无码天堂| 蜜臀午夜一区二区在线播放| 国产美女久久久| 国产精品国三级国产av| 欧美性猛交XXXX乱大交| 91精品国产91久久久无码色戒| 性欧美videofree高清精品 | 无码专区无码专区视频网址 | 久久久久国色av免费观看性色 | 久操线在视频在线观看| 国产对白老熟女正在播放| 欧美一线天| 国产午夜片无码区在线播放| 啦啦啦WWW日本高清免费观看 | 少妇被粗大的猛烈进出动视频| 国产片av在线观看国语| 亚洲av二区| 91狠| 国产成人精品一区二区秒拍1o| 国产精品嫩模大尺度视频| 又色又爽又黄的视频网站| 国产欧美另类久久久精品不卡| 人人爽人人爽人人片a免费| 国语对白做受xxxxx在线中国| 国产成人av一区二区三| 精品a片| 末成年娇小性色xxxxx| 亚洲中文字幕国产精品| 日韩国产欧美亚洲v片| 久久99精品久久久久久| 熟女人妻视频| 精品一区二区三区视频| 欧美日韩免费做爰大片人| 老司国产精品视频91| 99中文字幕精品国产|