本站小編為你精心準備了生存分析的方法及運用參考范文,愿這些范文能點燃您思維的火花,激發您的寫作靈感。歡迎深入閱讀并收藏。
《華南預防醫學雜志》2016年第5期
關鍵詞:
統計學;壽命表;統計學,非參數
引言
生存分析是一種既考慮事件結局,又考慮出現結局時間(即生存時間)的統計分析方法,被廣泛運用于醫學領域,如臨床試驗、疾病預后分析、疾病預測等,已成為醫學統計學的重要分支之一[1]。
1生存分析的基本方法生存分析
所分析的數據通常稱為生存數據,生存數據按照觀測數據所提供的信息不同,可以分為完全數據和刪失數據[2]。完全數據指觀察對象在觀察期內出現結局(終點事件),這時記錄到的時間信息是完整的,這種生存時間的數據稱為完全數據。刪失數據指尚未觀察到研究對象發生終點事件,即由于某種原因(如失訪、退出等)停止了隨訪,記錄到的時間信息是不完整的,常用符號“+”表示。生存分析通常關注2個信息點,第一是研究對象是否在觀察期內出現結局事件,通常在觀察期內出現結局事件編碼為1,未出現則編碼為0。第二是各隨訪對象的隨訪時間長度。主要包括以下3種分析方法。
1.1描述性分析
基本方法是根據樣本觀察值提供的信息,計算每一時間點或每一生存區間上的生存函數、生存率及生存時間等相關指標,并用生存曲線展示生存時間分布規律。若觀察時段內沒有刪失,n年生存率=活滿n年例數/期初觀察例數。若觀察時間段內有刪失,則按照概率原理計算。具體可以用Kaplan-Meier法(乘積極限法)或壽命表法實現[3]。前者主要用于觀察例數較少而未分組的生存資料,后者適用于觀察例數較多且分組的資料。兩者的計算方式相似,最大的不同在于Kaplan-Meier法使用的是所觀察到的結局變量實際出現次數和刪失數據的實際次數,而壽命表法將時間間隔視為等分,在壽命表法中不同的時間間隔劃分方式會導致計算結果不同,因此Kaplan-Meier法更常用。在Kaplan-Meier法中,設S(t)表示t年的生存率,S(ti/ti-1)表示活過ti-1年又活過ti年的條件概率,例如S(1)、S(2)分別表示1年、2年的生存率,而S(2/1)表示活過1年者再活1年的條件概率,該概率的乘法定律有:S(2)=S(1)×S(2/1),即公式為:S(ti)=S(ti-1)×S(ti/ti-1)。生存曲線(survivalcurve)是以觀察時間為橫軸,生存率為縱軸,將各時間點對應的生存率連接在一起的曲線圖,因此是一條下降的曲線,分析時應注意曲線的高度和下降的坡度。平緩的生存曲線表示高生存率或較長的生存期,陡峭的生存曲線表示低生存率或較短的生存期。
1.2單變量分析
即比較2組或多組的生存時間及生存率。由于醫學研究資料中生存時間大多為不規則分布或分布未知,因此常用非參數法比較2組或多組的生存時間及生存率。非參數法是將生存率曲線作為整體進行曲線與曲線之間的比較,零假設為各總體分布率曲線相同。最常用的是log-rank檢驗[4],log-rank檢驗的基本思想是對不同生存時間點取相同權重進行計算,通過比較實際死亡數與期望死亡數之間有無差別,比較2組或多組生存曲線或生存時間是否重合相同。用log-rank檢驗對樣本的生存率進行比較時,要求各組生存率曲線不能交叉,若生存率曲線交叉則提示存在某種混雜因素,可用分層或多因素分析來控制混雜因素。在比較與預后或者治療方法相關的生存曲線時,必須要保證各組研究對象的其他因素相似(例如年齡)。在隨機試驗中,可以通過隨機分配研究對象來實現;在觀察性研究中,可以在前期用Kap-lan-Meier法調整年齡、性別、癌癥階段等混雜因素。
1.3多變量分析
即分析生存過程中的影響因素,評價各因素對生存時間的影響。在生存分析中,生存時間的長短不僅與干預措施相關,還受一些協變量(如患者年齡、性別、心理、環境等)影響。若想更精確地研究干預措施的效果,除了干預措施不同,所有研究對象的其他因素必須相近,但在實際研究中難以做到。因此可以考慮分析包括干預措施在內的多因素對生存時間的影響,即多變量統計分析方法。但由于生存時間多為正偏態分布,不適合采用普通線性回歸或logistic回歸分析。Cox比例風險回歸模型可以分析多因素對生存時間的影響,且允許“截尾”數據的存在,是生存分析中重要的多因素分析方法[5]。Cox模型不直接考察生存函數與協變量的關系,而是用風險率函數h(t)作為因變量。比例風險模型的構建需滿足假設:危險因素的作用不隨時間變化而變化,即在基礎風險和其他協變量固定不變的前提下,某一協變量每增加1個單位,得到的風險函數的取值等于原來的風險函數取值乘以1個固定系數。基本表達式如下:h(t,x)=h0(t)exp(β1x1+β2x2+…+βpxp)其中h(t,x)表示t時間點風險函數、風險率或瞬時死亡率;h0(t)表示基準風險函數,即所有變量都取0時t時刻的風險函數;x1、x2……xp表示協變量或預后因素,均不隨時間發生變化;β1、β2……βp表示回歸系數。公式右側可分為兩部分:第1部分為非參數部分即h0(t),由于沒有明確定義,其分布無明確假定,其參數也是無法估計的;其他部分為參數部分,可以通過樣本的實際觀察值來估計。因為Cox模型有非參數和參數兩部分,因此稱為半參數模型。例:在Framingham心臟研究中,共有5180名45歲以上的研究對象納入研究[6],并對研究對象的隨訪持續到他們去世,如研究結束仍健在,則隨訪時間為10年。在研究開始時,研究對象從45歲到82歲不等,平均年齡為56.8歲,標準差為8歲,男性占46%,女性占54%。在隨訪對象中,有402人出現死亡結局,研究對象基本情況見表1。用Cox模型進行評估,將性別、年齡與死亡時間關聯起來。Cox比例風險回歸的結果見表2。分析結果顯示,年齡、性別分別和死亡率存在正相關,可以解釋為年齡越大的研究對象及男性研究對象的死亡率更高。在這里參數估計值所代表的含義為:將其他指示變量當作常量時,每1個單位的指示變量變化所引起的相對風險的log轉換值變化。即把性別當作常量,研究對象的年齡每增加1歲,相對風險的log轉換值增加0.11149個單位;把年齡當作常量,男性研究對象比女性研究對象的相對風險的log轉換值高0.67958個單位。為了方便解釋,可將參數估計值求冪生成風險比,年齡的風險比=exp(0.11149)=1.12,表示研究對象和比他小1歲的人相比,死亡的期望風險值為后者的1.12倍。
2生存分析的運用
2.1運用于臨床試驗數據
生存分析被運用于比較不同組別患者的情況已經有近百年歷史。檢驗藥物健康效應的隨機試驗設計的誕生,更促進了生存分析這一方法的發展。當結局變量為二分類變量、且可能在觀察期的任意時間發生的情況下,可以借助Kaplan-Meier法來進行統計分析。可以使用生存分析的情況有:計算死亡或者出現結局的時間長短(如乳腺癌患者術后生存時間、白血病患者化療后緩解持續的時間),比較使用新藥和普通藥物的2組人群的生存率等。隨機試驗中常遇到的生存數據包括:總生存率,將任一原因的死亡都作為結局變量;無病生存率;經治療康復人群中的無復發生存率。
2.2運用于觀察性研究
在觀察性研究(如病例對照、隊列研究)中,生存分析最常用于比較不同地區或時間點人群的生存情況,此外還可用于比較不同性別之間的生存率差異,以及某一危險因素(如是否患有高血壓或糖尿病)對患者生存率的影響。但是生存分析在觀察性研究中缺乏對因果關系的解讀,也存在失訪等問題[7],存在一定局限性。
3小結
由于生存分析能很好地處理刪失數據,因此在生物醫學領域運用廣泛。隨著統計軟件的不斷發展,生存分析的理論和運用將更加深入。
參考文獻:
[1]方積乾.衛生統計學[M].7版.北京:人民衛生出版社,2012:410.
[4]羅勝蘭.生存分析的方法及應用[J].浙江預防醫學,2013,25(5):29-34.
[5]嚴若華,李衛.Cox回歸模型比例風險假定的檢驗方法研究[J].中國衛生統計,2016,33(2):345-349.
作者:李杏 單位:廣東省疾病預防控制中心