資料淨化(data cleaning)是從記錄集、資料庫表資料庫中檢測和糾正(或刪除)損壞或不準確的記錄的過程,是指辨識數據的不完整、不正確、不準確或不相關部分,然後替換、修改、或刪除髒數據或粗數據[1]。資料淨化可以與數據加工工具互動執行,也可以通過指令碼進行批次處理[2]

清洗後,一個數據集應該與系統中其他類似的數據集保持一致。 檢測到或刪除的不一致可能最初是由用戶輸入錯誤、傳輸或儲存中的損壞或不同儲存中類似實體的不同數據字典定義引起的。 數據清理與數據確認(data validation)的不同之處在於,數據確認幾乎總是意味着數據在輸入時被系統拒絕,並在輸入時執行,而不是執行於批次數據。

資料淨化不僅僅更正錯誤,同樣加強來自各個單獨資訊系統不同數據間的一致性。專門的資料淨化軟件能夠自動檢測數據檔案,更正錯誤數據,並用全企業一致的格式整合數據。[3]

參閱

編輯

參考資料

編輯
  1. ^ Wu, S., A review on coarse warranty data and analysis (PDF), Reliability Engineering and System, 2013, 114: 1–11 [2021-12-31], doi:10.1016/j.ress.2012.12.021, (原始內容存檔 (PDF)於2021-11-04) 
  2. ^ What is Data Cleaning?. Sisense. [2021-10-17]. (原始內容存檔於2022-01-24) (美國英語). 
  3. ^ Kenneth C. Laudon and Jane P. Laudon, 《Management Information Systems》, Pearson, 7 March 2011, Chapter 6 Information systems Organizations and Strategy p.157