幽靈數據(英語:Ghost data[1]), 是指從數據科學、統計學角度處理我們一般看不見的數據,量子成像幽靈成像,「暗物質」或「暗能量」及其在計算機視覺領域中的新發現,甚至還包括與文物資料、經歷等相關的認知數據。

量子場論的術語中,幽靈英語Ghost_(physics)(ghost)、幽靈場(ghost field)或規範幽靈(gauge ghost)是規範場論中的非物理狀態。在局部場超過多個物理自由度的情況下,必須使幽靈保持理論的不變性。在數據科學、統計學、計算機等術語中,幽靈數據包括為數字幽靈[2](digital ghost)[3], 虛擬數據(如仿真數據[4]、虛擬病人[5])、缺失數據[6]、偽造數據[7]、高度稀疏數據,及其他類似數據。令人容易聯想到的是缺失數據。由於缺失機制[8](可忽略或不可忽略、隨機缺失或非隨機缺失等)的不同,處理方法也不盡相同。除了缺失數據,幽靈數據還包括其他看不見的數據。這些數據可能是因為部分人員能夠感知而其他人不能感知的數據[1]

概述

編輯

幽靈數據由John SallDennis Lin教授率先在系列邀請報告[9][10][11][12]中闡述。幽靈數據廣泛存在於各種歷史記錄的數據中,包括記錄的日記、照片、錄音、視頻,甚至存儲在化石和文物等[13]中的記憶信息。儘管這些文物僅記錄部分表面特徵,但是一部分人能感知其相關的更多的信息,而其他人不能感知到那些信息。能夠感知更多信息的人就能構建部分並近似複製其整個生活過程。例如,在文物虛擬修復[13]方面,數據科學家與文物專家的合作,能夠能更多地存儲其記錄,並還原它們所攜帶的記憶信息。隨着技術的進步,將能為原始生活提供完美複製品。

數據類型

編輯

幽靈數據[1]常包括幽靈成像、虛擬數據、缺失數據、偽造數據、仿真數據、「暗物質」、高度稀疏數據,及其他類似數據。令人容易聯想到的是缺失數據。由於缺失機制的不同,處理方法也不盡相同。數據缺失可以分為隨機缺失(missing at random, MAR)和非隨機缺失(Missing not at random, MNAR)[6]。缺失數據處理方法[8]主要包括使用樣本抽樣推斷、貝葉斯推斷和似然法推斷等。對於實驗設計,隨機完全區塊設計[14]也會遇到缺失問題。不完整均衡區塊設計[14]也可被當成隨機完全區塊設計帶有缺失數據進行統計分析。


相關條目

編輯

參考文獻

編輯
  1. ^ 1.0 1.1 1.2 [1][失效連結])
  2. ^ (德)尤夫娜·霍夫施泰特. 陳巍 , 編. 大数据之眼:无所不知的数字幽灵( SIE WISSEN ALLES). 浙江文藝. 2018. ISBN 9787533950880. 
  3. ^ Eric Steinhart. Survival as a Digital Ghost. Minds & Machines: 261–271. [2020-08-10]. (原始內容存檔於2020-10-08). 
  4. ^ Kaitai Fang; Dennis J.K. Lin. Rao CR, Khattree R , 編. Uniform experimental design and its applications in industry. North Holland, Amsterdam. 2003. 
  5. ^ 徐曼; 沈江, 余海燕. 大数据医疗:认知科学时代的医疗智能. 北京: 機械工業出版社. 2017. 
  6. ^ 6.0 6.1 余海燕; 陳京京 邱航 王永 王若凡. 嵌套删失数据期望最大化的高斯混合聚类算法. 自動化學報. 2019-08-12.  [失效連結]
  7. ^ Hodges, Sarah; Garnett, Emma. The ghost in the data: Evidence gaps and the problem of fake drugs in global health research. Global Public Health. 2020: 1103–1118 [2020-08-10]. (原始內容存檔於2022-04-13). 
  8. ^ 8.0 8.1 Roderick JA Little; Donald B Rubin. Statistical analysis with missing data. John Wiley & Sons. 2019 [2020-08-11]. (原始內容存檔於2020-09-16). 
  9. ^ uwaterloo.ca. Statistics and Actuarial ScienceEvents2018November. https://uwaterloo.ca/. [2018-11-08]. (原始內容存檔於2020-11-24). 
  10. ^ Dennis Lin. Ghost Data. https://math.asu.edu/. [2019-11-07]. [失效連結]
  11. ^ 余海燕. Dennis K.J. Lin教授后大数据Ghost Data研究的学术报告. 重慶郵電大學經濟管理學院. [2018-07-17]. (原始內容存檔於2019年7月23日). 
  12. ^ bc.njupt.edu.cn/. “Ghost Data(幽灵数据)”的讲座圆满举行. 南京郵電大學管理學院. [2019-05-28]. 
  13. ^ 13.0 13.1 Grau, Oliver. Museum and archive on the move: changing cultural institutions in the digital era.. Walter de Gruyter GmbH & Co KG. 2017 [2020-08-10]. (原始內容存檔於2016-01-05). 
  14. ^ 14.0 14.1 George E. P. Box, J. Stuart Hunter, William G. Hunter. Statistics for Experimenters: Design, Innovation, and Discovery. wiley. 2005 [2020-08-11]. ISBN 978-0-471-71813-0. (原始內容存檔於2019-04-13).