統計學工程學經濟學和醫學研究領域中,刪失是指值的測量觀測只有部分數據的一種情況。

例如,假設一項研究進行了測量影響的一種藥物的死亡率。研究中,可知一個人的死亡年齡為至少75年。如果測試對象在75歲退出研究,或如果該人在75歲的時候仍然在世,刪失的情況就發生了。

刪失還發在測量儀器的可測量範圍之外發生。 例如,一個浴室秤可能只達到140公斤。如果一個160公斤的人使用這個秤,觀察員只會知道這個人的重量至少為140公斤。

刪失數據問題,和缺失數據問題有關,前者是其中觀察值的一些可變部分地已知,後者是在那裡觀察值的一些變量是未知的。

不應將刪失與截斷的相關概念概念混淆。通過刪失,觀察結果要麼知道適用的確切值,要麼知道值在一個區間內。通過截斷,觀察結果永遠不會導致超出給定範圍的值:如果看到範圍之外的人口中的值,則永遠不會看到或永遠不會記錄。請注意,在統計學中,截斷與捨入不同

類型

編輯
  • 左刪失:一個數據點小於某一個確定的值,但它的實際值是未知的。
  • 區間刪失:一個數據點的值在兩個特定的值之間。
  • 右刪失:一個數據點大於某一個確定的值,但它的實際值是未知的。
  • 類型I刪失:如果實驗有一定數量的受試者或項目並在預定時間停止實驗,則可能發生類型I刪失,此時剩餘的受試者將被右刪失。
  • 類型II刪失:如果實驗有一定數量的受試者或項目並在觀察到預定數量的受試者或項目失敗時停止實驗,則可能發生類型II刪失,此時剩餘的受試者將被右刪失。
  • 隨機 (或 非信息) 刪失 是在每個主題都有一個刪失時間 的統計學上的獨立 ,他們的故障時間。 所觀察到的價值是最小的刪失和失敗的次數;主題的失敗的時間大於其刪失的時間適當刪失。

當觀察值需要後續或檢查時,可能會發生間隔刪失。左右刪失是區間刪失的特殊情況,區間的開始分別為零或結束於無窮大。

使用左刪失數據的估計方法各不相同,並且並非所有估計方法都適用於所有數據集,或者最可靠。 [1]

對時間間隔數據的常見誤解是將其作為左刪失間隔,其中開始時間未知。 在這些情況下,我們在時間間隔上有一個下限,因此數據被正確刪除 (儘管在被視為時間軸時,缺失的起點位於已知區間的左側!)。

分析

編輯

可以使用特殊技術來處理刪失數據。具有特定故障時間的測試被編碼為實際故障;對於刪失類型和已知的間隔或限制,對刪失數據進行編碼。特殊軟體程序(通常是面向可靠性的)可以對摘要統計,置信區間等進行最大似然估計。

流行病學

編輯

分析涉及刪失數據的統計問題的最早嘗試之一是丹尼爾伯努利 1766年對天花發病率和死亡率數據的分析,以證明疫苗接種的效果。 [2] 使用Kaplan-Meier估計器估算刪失成本的早期論文是Quesenberry等人。 (1989), [3]然而這種方法後來於1997年由Lin等人發現。 [4]除非所有患者隨著時間的推移累積具有共同確定性率函數的成本,否則它們無效,他們提出了一種稱為Lin估計量的替代估計技術。 [5]

 
五次重複測試的示例,導致四次失敗和一次暫停時間。

可靠性測試通常包括對項目(在特定條件下)進行測試,以確定發生故障所需的時間。

  • 有時會計劃和預期故障,但不會發生:操作員錯誤,設備故障,測試異常等。 測試結果不是所需的故障時間,但可以(並且應該)用作終止時間。 使用刪失數據是無意的,但卻是必要的。
  • 有時工程師會計劃一個測試程序,以便在一定的時間限制或失敗次數之後,所有其他測試都將終止。 這些暫停時間被視為右刪失數據。 使用刪失數據是有意的。

對複製測試數據的分析包括失敗項目的失敗時間和未失敗的測試終止時間。

刪失的回歸

編輯

早期的刪失回歸 模型 , 托比特模型 ,由詹姆斯托賓於1958年提出。 [6]

參見

編輯

參考文獻

編輯
  1. ^ Helsel,D。 很多關於Nothing:Nonconstects in Science, Ann。 OCCUP。 Hyg。,Vol。 54,第3期,第257-262頁,2010年
  2. ^ 伯努利D.(1766)「Essai D'UNE新式分析德拉mortalitécausée齊名的La Petitevérole 記憶棒。數學物理層學院院刊羅伊,科學,巴黎 ,轉載於布拉德利(1971年)21和鼓風機(2004年)
  3. ^ CP Quesenberry,Jr,B Fireman,RA Hiatt和JV Selby,對獲得性免疫缺陷症候群患者住院治療的生存分析,Am J Public Health 1989
  4. ^ Lin DY,Feuer EJ,Etzioni R,Wax Y.,估算不完整隨訪數據的醫療費用,生物識別1997
  5. ^ Wijeysundera HC,Wang X,Tomlinson G,Ko DT,Krahn MD,通過審查數據估算醫療保健成本的技術:醫療服務研究員概述,Clinicoecon Outcomes Res。 2012
  6. ^ Tobin, James. Estimation of relationships for limited dependent variables. Econometrica. 1958, 26 (1): 24–36. JSTOR 1907382. doi:10.2307/1907382. 

進一步閱讀

編輯
  • Blower, S. (2004), D, Bernoulli's "An attempt at a new analysis of the mortality caused by smallpox and of the advantages of inoculation to prevent it (PDF). [2019-05-25]. (原始內容 (PDF)存檔於2017-08-08).  (146 KiB)", Reviews of Medical Virolology, 14: 275–288
  • Bradley, L. (1971) Smallpox Inoculation: An Eighteenth Century Mathematical Controversy, Nottingham
  • Mann, N. R.; et al. Methods for Statistical Analysis of Reliability and Life Data. New York: Wiley. 1975. ISBN 047156737X. 
  • Bagdonavicius, V.,Kruopis, J., Nikulin, M.S. (2011),"Non-parametric Tests for Censored Data", London, ISTE/WILEY,ISBN 9781848212893.

外部連結

編輯