本「文字探勘與數位轉型服務產學聯盟」,今年籌備了第三場的工作坊,目的是為教導聯盟會員們使用文字分析流程平台進行輿情分析。本次活動採用實體和線上的方式併行,線上是對於路途較遠的夥伴們,也能同步聆聽課程,遠距教學也讓學習不間斷。
工作坊一開始是由黃三益老師視訊開場,黃老師首先感謝當天蒞臨的業界先進、學術單位老師和同學們的熱情參與,因這次現場有夥伴是第一次參加,課程也會從基礎帶領大家一步步進入,最後會帶大家做個簡單的輿情分析。
黃老師接著說明這次除了邀請業界夥伴,也邀請學術界老師來參加,主要是文字探勘技術可以運用在文本分析以及社群媒體評論做研究,所以希望更多學者能接觸該平台,並運用來解決學術上的文字分析需求。所以明年聯盟也會規劃招收學術界會員,讓聯盟的技術能更廣泛的被推廣及應用。
黃老師也分享了當初文字分析工作流程平台設計的理念,統整坊間的一些文字分析系統遇到的問題,發想出一套符合一般人使用且便於操作的系統。目的是希望能降低門檻,不需要會寫程式,使用平台拖拉元件的方式,還有直觀的工作流程概念,節省下寫程式時間,達到分析的成效,且該流程是能被記錄下來,後續想做類似的分析,只要修改一些參數設定,就能馬上執行,立即得到結果。
在第三場的培訓中,是由黃三益教授團隊中的蔡易航博士生進行授課。此次工作坊的主題是美食,夥伴們將利用這個主題並配合授課老師的講解,進入到文字分析工作流程平台來進行實際操作。
第一堂課著重在文字分析的技術,即文字的處理,包含系統的介紹、抓取資料、資料前處理、字詞關係。在實體操作之前,與夥伴們解釋文字分析的基本概念,系統是使用網路爬蟲技術來抓取資料,接著資料前處理(格式統一、去除或取代符號),再來是文字分析的部份(斷句斷詞),使用ngram找出重要的片語,去除停用字(將不重要的字詞去除),本堂最後是字詞關係,先計算出字詞在該文章出現的次數,接著找出二個字詞間共同出現的次數,次數愈高則表示二個字詞間愈有相關性,並透過關鍵字網路分析圖來呈現。
第二堂課加入輿情分析,包含情緒分析(情緒字詞出現的次數,需定義正面、負面的詞彙)、主題分析(主題字詞出現的次數,如何人工給定主題,首先要製作主題字典,每一個主題包含多個字詞,利用主題字來判斷一個文件的主題)、主題分群彙總(將多筆資料分為一個或多個群組,並按組別依照匯總函數計算數值)、日期分群彙總(組別為日期格式),本堂最後是視覺化儀表板,將分群彙總的結果透過各式圖表,讓文字分析呈現更有感覺。
課程總結,此次工作坊是製作輿情分析,輿情分析最重要的二項事情就是:(1)找出文章討論的主題;(2)找出文章主題的聲量。透過社群媒體論壇資料的探索,讓原本需要透過寫程式才能達到的結果,利用文字分析工作流程平台元件就能輕鬆達成。聯盟透過工作坊能與夥伴們做知識的交流,讓夥伴們也更能了解聯盟的技術能力。此次的工作坊的實行,又達成一次的傳達目的,謝謝今日各位夥伴們的參與,工作坊我們明年再見。