6.以表格式清單呈現數據
這類的問題主要在於系統已經將匯出的資料整理成以表格式清單呈現數據資料,如下圖所示,清楚的列出每個產品每天的銷售數字,這樣的報表造成預設狀況下無法透過Excel 樞紐分析進行進一步的數據分析,這樣狀況在企業時常發生,因此,我將這類的問題也同樣歸屬於髒數據。
解決方法如果透過Excel,則需要撰寫十分…十分…煩雜的函數,相對的,如果使用Power Query 則可輕易解決。
7.合併儲存格,以報表呈現數據
這類的問題時常發生在企業中,製作者在製作報表時,思考如何美化其報告,由於目的不同,後續的數據可利用性相對降低,解決的方式則可透過Power Query移除多餘的資料行,並處理空白的欄位以保留所需的資料。
8.分散的活頁簿數據,造成處理成本增加
許多中小企業會以Excel 來進行資料管理,為了清楚的區分數據資料的差異,最常使用的方式便是用不同的活頁簿名稱來區分,以下圖為例,每個月的報表分別以不同的工作表標籤來區分,這樣的操作方式雖然很清楚,但如果我們需要進行後續的數據資料分析時,最常使用的方式則是以「複製/貼上」再將所有的工作表合併在一起,這樣的操作方式時常造成處理成本的增加。
解決的方式同樣可透過Power Query自動合併分散的活頁簿資料,並可在後續資料分析時透過「重新整理」,自動抓取更新過的數據資料。
9.分散的檔案,造成處理成本增加
分散的檔案與將資料分散在不同的活頁簿很類似,目的都是為了更容易的區分資料,然而也提昇了後續資料分析處理的難度,解決的方式同樣透過Power Query自動從資料夾中合併分散的檔案,同時,未來只要我們將檔案放置在同一個資料夾並進行「重新整理」,系統便會自動抓取更新過後的數據資料了。
只要用“對”方法,髒數據也可以很容易變乾淨
了解什麼是髒數據“Dirty Data”後,如果一開始就可以避免當然最好,但如果因為企業限制導致收到的數據都還需要額外處理,其實只要懂得“對”的方法,不需額外花太多時間,其實髒數據也可以變乾淨哦!
相關文章
延伸課程
作者:游振昌
●專案管理顧問有限公司 執行長
●中華國際專案經理人協會 理事長
●Project Club 發起人暨資深顧問