什麼是文字雲(Word Cloud)?

顧名思義,這就是一個整體形狀很像雲朵的圖形,並且由文字所構成。相信你一點都不陌生這類的圖。

http://katiehafner.com/word-cloud/

這種由各種字詞組合成、如雲一般的圖形,稱作文字雲(Word Cloud)。我們常在各種社交網站與新聞網站中看到這類圖形的蹤跡,文字雲的存在目的在於能讓閱讀者在不閱讀所有文章的前提下,快速聚焦在大批文章中的主要內容。

網站上有一個可以玩文字雲的網頁,我們可以把想製作雲朵的文章往上面貼,它就可以畫出漂亮的文字雲,供我們日常分析作使用。網址如下 : https://wordcloud.timdream.org/#wikipedia:Cloud

什麼是關鍵字分析(Keyword Extraction)?

關鍵字是什麼意思?通常我們認為,出現愈多次的文字就代表它愈關鍵。

事實上,這樣的思考角度還有那麼一點美中不足,但只差一點點了。

PTT中有各式各樣的版,有八卦版、電影版、還有最近熱門的世足版等。

PTT版資訊

然而『覺得』這個詞,肯定會大量出現在每一個熱門板中,因為當鄉民發表感受與心得時,一定會用到『覺得』這兩個字,像是:『 我覺得瞞天過海-八面玲瓏這部電影好過癮啊!因為集結了各大好萊塢女演員,實在太正了!!!』。

取自 : https://movies.yahoo.com.tw/movieinfo_main.html/id=7690

如果我們今天想知道:『最近PTT電影版的關鍵字是什麼?』,那『覺得』肯定不屬於關鍵字,雖然它可能會頻繁的出現在每一篇電影版的PO文中,但這個詞不像是『電影版』的代表字,因為在世足版,可能也會有此類發文: 『 我覺得德國隊應該不會輸啊!!!』。

同樣以電影版的角度,我們可以看到:『 復仇者聯盟3:無限之戰 』這個詞近期也頻繁出現在許多電影版的文章中,例如:『 復仇者聯盟3:無限之戰,不但真的有一場接一場無止盡的對戰,還有一波又一波的驚奇呢 』。但『 復仇者聯盟3:無限之戰 』絕對不會頻繁的也出現在世足版、八卦版中。那『 復仇者聯盟3:無限之戰 』這個關鍵字,就會是代表電影版的關鍵字。

取自 : https://movies.yahoo.com.tw/movieinfo_main.html/id=7866?guccounter=1

這種關鍵字計算的概念叫做 TF-IDF 演算法,如果想參考TF-IDF的細節,這篇文章寫的簡單容易了解,可以參照下述網址看看。

[文件探勘] TF-IDF 演算法:快速計算單字與文章的關聯

藉由這個文字雲與關鍵字分析的資料科學技術,我們拿來應用於PTT-Boy & Girl版,以鄉民求助、分享等角度,了解版上的疑難雜症。如果你是喜愛上PTT的人,或是對於兩性的議題很有興趣,歡迎繼續閱讀:

http://artofdatascience.tw/index.php/2018/09/18/ptt-boy-girl-text-mining-analysis/

 

謝謝你閱讀完這篇文章,『我們期待能把資料分析的技術工作與時下有趣的事物相結合,帶給大家新穎的感受』,未來也將會有更多的嘗試。

有任何問題也歡迎在底下留言或是來信告訴我們: roboii0612@gmail.com

2 Comments

  1. Pingback: [PTT大數據] Boy-Girl兩性版之鄉民疑難雜症解析 – 資料分析大小事

發表迴響

你的電子郵件位址並不會被公開。 必要欄位標記為 *