「分類」通常是大家進入資料科學會接觸到的第一個題目,雖說是資料科學,但其實分類在我們日常生活中無所不在,舉例來說,巷口那間你每天會去的早餐店,老闆娘收到錢後,會把收到的銅板分成一元、五元、十元方便後續作業,這就是生活中的一種分類問題。在商業應用中,分類也是大家耳熟能詳的題目之一,今天的文章,就要跟大家分享,為什麼需要分類?什麼是分類模型?又該如何驗證分類模型的有效度呢?

為什麼需要分類?

分類往往是預測 (Prediction) 的第一步,在資訊量爆炸的時代,我們收集各方資訊,並透過數據來預測未來事件發生的可能性,藉由預測結果以將風險降至最低。預測的運用範圍相當廣泛,在不同產業中皆有各自的應用情境,舉例來說,在電商產業中,某商品是否會成為熱銷商品; 在銀行產業中,信用卡客戶是否會違約; 在醫療產業中,病患是否有感染某疾病,這些皆是我們會可以透過模型來進行預測的問題。 

什麼是分類模型 (Classification)?

根據上述的應用情境,判斷人或是商品是否屬於某一個類型,我們將其定義為分類問題。分類模型如下圖所示,可分為二元分類 (Binary) 及多分類 (Multi-Class),而分類問題屬於監督式學習 (Supervised Learning),也就是在有標籤的資料下,透過分類模型找出劃分線,明確將不同標籤類別區隔出來。

如何驗證分類模型的有效度?

建立模型後,我們該如何評估分類模型的好壞呢?直觀的思考,其實就是判斷模型所找出的劃分線,正確區分類型的佔比。以下圖為例,若我們要建立一個貓狗的分類器,根據模型的輸出結果,發生了以下四種狀況:

  1. 實際為狗,模型預測結果為狗
  2. 實際為夠,模型預測結果為貓
  3. 實際為貓,模型預測結果為貓
  4. 實際為貓,模型預測結果為狗

從這個例子中,我們知道狀況 (1)、(3) 是正確的分類結果,狀況 (2)、(4) 則為誤判,這四個不同面向的結果,其實就是我們於評估分類模型中,常聽到的混淆矩陣。

什麼是混淆矩陣 (Confusion Matrix)?

混淆矩陣 (Confusion Matrix) 為衡量分類模型有效度的方法之一。針對分類模型,將模型預測值與實際實際狀況的答案劃分成以下四個部分,其中正面肯定的答案,定義為 「Positive 」,相反的,否定則定義為「 Negative 」,根據我們目標的不同,來定義「 Positive 」& 「 Negative 」,讓我們來參考下面這張表:

以上述的例子來說,模型目標為判斷是否為狗,我們就將狗定義為「 Positive 」,不是狗則定義為「 Negative 」。將此例子帶入四個指標中:

  • True Positive (TP) :實際為 「 狗 」,模型預測結果為「 狗 」。
  • False Positive (FP):實際為「 不是狗 」,模型預測結果為「 狗 」。
  • False Negative (FN):實際為「 狗 」,模型預測結果為「 不是狗 」。
  • True Negative (TN):實際為「 不是狗 」,模型預測結果為「 不是狗 」。

二元分類下的混淆矩陣,就是將預測目標定義為真「 Positive 」,反面就定義為假「 Negative 」,延伸開頭介紹的情境,電商產業中,商品為熱銷商品定義為「 Positive 」; 銀行產業中,信用卡客戶違約定義為「 Positive 」; 醫療產業中,病患感染某疾病定義為「 Positive 」。所以四個指標其實就是在定義於真和假的類別中,共正確預測到多少量。

  • True Positive (TP) :實際為「 真 」,模型預測結果為「 真 」。
  • False Positive (FP):實際為「 假 」,模型預測結果為「 真 」。
  • False Negative (FN):實際為「 真 」,模型預測結果為「 假 」。
  • True Negative (TN):實際為「 假 」,模型預測結果為「 假 」。

從矩陣中我們可以延伸出幾個常用的衡量指標:

  1. 準確率 (Accuracy) : 判斷整體的正確率,也就是實際類別與預測類別一致。
  2. 精確率 (Precision):判斷為真的正確率,也就是預測為真之中,真實為真的比例。
  3. 召回率 (Recall):判斷召回多少真實狀況,也就是實際為真之中有多少準確被預測為真。

如何篩選適合的衡量指標呢?

透過混淆矩陣所延伸出的指標中,我們都希望預測結果都落入於 True Positive (TP) & True Negative (TN) 這兩種情況,然而在大部分的情況下,我們很難將模型訓練到 100% 的準確率,這時候我們就應該思考,在分析情境中,能一種錯誤狀況是我們比較可以接受的,也就是說根據應用情境的不同應選擇不同的衡量指標。以信用卡違約為例,目標希望透過預測模型來降低風險,所以我們會希望沒有違約的人預測結果可以是違約的,也不希望將有違約的人預測為沒有違約,所以在這個情境下召回率 (Recall) 就會是我們會篩選的指標。

看到這邊,相信大家對於分類模型以及模型的評估指標都有一定程度的瞭解了,然而有哪些分類模型是我們較常使用的呢?我們會再下一篇文章做詳細的介紹哦!

如果你喜歡這一篇的大數據小知識,你也可以繼續閱讀 [大數據小知識] 文字雲(Word Cloud)與關鍵字分析(Keyword Extraction)

如果你喜歡我們的內容,也歡迎追蹤資料分析大小事 FB 粉專,我們將會持續發布有趣的資料分析小品文。

發佈留言

發佈留言必須填寫的電子郵件地址不會公開。 必填欄位標示為 *