摘 要: 針對現有醫療IT技術在診斷及預防措施方面的漏洞,設計了一種基于風險處理機制的醫療數據挖掘算法。在最佳風險處理機制的前提下,引入病情特征碼值,通過帶有一定權重的風險處理數據算法來定義病情特征碼值的權重參數。經醫療數據信息集測試實驗表明,此醫療數據挖掘算法能夠從海量醫療數據信息中抽取最具說明性的病情特征碼值,并給予一定權重參數,得到高效的數據挖掘效率。
關鍵詞: 風險處理機制;病情特征碼值;數據挖掘;權重參數
近年來,針對醫療IT信息化系統產生的海量數據信息無法得到高效利用的問題,為了提高醫療IT系統中對病情數據信息的高效深度控制,國內外學者們做了深入研究與分析,提出一系列醫療數據處理算法,形成一些新型的、高效的醫療數據挖掘結構模型,例如應用于醫療結構診斷分析的C4.5決策控制樹算法。然而過于精確地衡量尺碼的缺陷阻礙了此算法在醫療IT系統數據挖掘領域的應用與拓展。另一種是在醫療數據挖掘領域研究較深的關聯規則算法,此算法的原理是利用不同特征關系的數據信息規則項進行挖掘研究,現已廣泛應用于醫學臨床領域。目前典型的關聯規則算法主要有Apriori和FP-growth方法。但在低符合率的條件下,關聯規則算法會產生過多無用或冗余規則信息,而且存在可識別程度與效率過低的問題。
目前,基于安全風險參數與比值概率的醫療數據挖掘也已經應用于IT系統模型中。在此前提下,參考文獻[1-2]都已設計出基于最優化安全風險結構模型數據挖掘算法,然而其缺陷都是冗余數據信息過多,且數據模型與信息展示過于復雜。
在上述研究成果的基礎之上,本文設計出一種基于風險處理機制的醫療數據挖掘算法MRPM(Medical Risk Processing Mechanism),引入病情特征碼值,使用權重參數抽取及病情有關的安全風險、預防與診斷因素。該算法在醫療IT系統數據挖掘與分析中數據信息冗余度較低、效率高,并且展現方式更加立體、直觀。
1 相關研究
1.1 相關算法
1.1.1 最優化安全風險模型算法
病情種類情況從醫療數據信息角度可以分為惡性與良性兩種。模型一般被說明為:特征碼值的集合,最優化安全風險模型獲取的結果是惡性,而其預防與診斷模型出現的結果是良性。針對此種情況,參考文獻[3]提出了一種MORE算法,用于得到最優化安全風險與預防數據結構模型。
MORE算法一方面采取部分支持度挖掘使用頻率較高的數據結構模型,再采用病理學中對應于安全風險指標項得到最優化安全風險與預防數據結構模型。為了使模型更加直觀,本文通過病情特征碼值的長度設置操作模型坐標值項,該模型滿足反單調原則。
1.1.2 醫療數據挖掘算法
基于最優化安全風險與預防數據結構模型盡管能識別典型病情數據結構,但其結構存在明顯的誤區,影響醫療IT系統病情診斷環節。針對這一缺陷,本文設計了一種基于風險處理機制(包含最優化安全風險與預防能力)的醫療數據挖掘算法。此算法創造性地加入病情特征碼值,形成了最優化風險集合與預防集合。并采用權重參數對每個集合進行度量,使集合中每個病情特征碼值的權重參數與病情數據信息使用頻率構成正比函數關系,從而體現出每個病情特征碼值對醫療診斷與預防方面貢獻程度[4]。
1.2 MRPM算法
相關符號的定義如下:m1是最優化安全風險結構模型的數量;m2是最優化預防結構模型的數量;spt是部分支持度的參數值;m1*spt是初始化安全風險集合的期望使用頻率參數標準值;m2*spt是初始化預防集合期望使用頻率參數標準值;R1、R2是初始化安全風險與預防集合中病情特征碼值數量;R1′、R2′是非初始化安全風險與預防集合中病情特征碼值數量。為了方便,分別使用IRS、IPS、RS、PS代表初始化安全風險與預防集合以及非初始化狀態的安全風險與預防集合,RFS、PFS分別表示安全風險與預防使用頻率指標項,RSM、PSM分別表示安全風險分數矩陣與預防分數矩陣(RSM、PSM分別對應RS、PS中每個病情特征碼值參數項)。
若IRS=[IRi1,IRi2,…,IRiR1]T、IPS=[IPi1,IPi2,…,IPiR2]T,對應的IRFS=[IRf1,IRf2,…,IRfR1]T、IPFS=[IPf1,IPf2,…,IPfR2]T。其中集合滿足以下特性:
(1)IRf1≥IRf2≥…≥IRfR1≥m1*spt
(2)IPf1≥IPf2≥…≥IPfR2≥m2*spt
若IRS與IPS有交集,且不為空,因為IRS與IPS彼此矛盾,因而需要將其公共特征值參數鏟除,則可以得到包括RS、PS、RFS、PFS集合,它們之間的相互關系如下:RS?奐IRS;RFS?奐IRFS;PS?奐IPS以及PFS?奐IPFS。若RS=[Ri1,Ri2,…,RiR1]T、PS=[Pi1,Pi2,…,PiR2]T,對應于RS、PS的RFS=[Rf1,Rf2,…,RfR1]T、PFS=[Pf1,Pf2,…,PfR2]T。其中滿足以下特性:
(3)Rf1≥Rf2≥…≥RfR1≥m1*spt
(4)Pf1≥Pf2≥…≥PfR2≥m2*spt
RSM與PSM則滿足以下特性:
若病情特征碼值權重參數≥式(5)中第一項與第二項之和,則可以判定病者存在一定安全風險,與之相對應,當病情特征碼值權重參數≥式(6)中第一項與第二項之和,則可以判定病者暫無安全風險。
MRPM算法中包含兩個核心函數機制,一個產生(IRS、IPS),另一個產生帶有病情特征碼值權重參數的(RS、PS)。這兩個函數的機制原理分析如下。
1.2.1 函數1:產生(IRS、IPS)
輸入參數:最優化安全風險與預防數據結構模型、m1*spt、m2*spt;輸出參數:IRS與IPS。
(IRS、IPS)輸出過程如下:
(1)得到最優化安全風險與預防數據結構模型,計算出初始化與非初始化安全風險集合的期望使用頻率參數標準值m1*spt、m2*spt。
(2)對病情特征碼值進行使用頻率統計,過濾其中期望使用頻率值小于期望使用頻率參數標準值。
(3)對統計的期望使用頻率值進行降序排列,其中IRS由最優化安全風險數據結構模型中病情特征碼值參數項構成,IPS由最優化預防數據結構模型中病情特征碼值參數項構成。
盡管函數1得到(IRS、IPS),然而它們之間的公共特征參數項會給安全風險與預防機制帶來數據誤差,因此需要預先鏟除。
1.2.2 函數2:產生(RS、PS)
輸入參數:(IRS、IPS);輸出參數:(RS、PS、RSM、PSM)。(RS、PS、RSM、PSM)輸出的過程如下:
(1)鏟除(IRS、IPS)的公共特征參數項。
(2)重新對病情特征碼值進行使用頻率統計,且降序排列,得到RS=IRS、PS=IPS。
(3)依次計算RS和PS的病情特征碼值權重參數,獲取RSM、PSM。
步驟(3)過程是通過1.2節的步驟(5)、(6)推導得出的,其中100為總權重參數值。
2 測試結果與應用分析
本文使用了兩組UCI數據庫中取得的醫療數據信息基準集合以及最典型的最優化安全風險與預防數據結構模型[5],采用對比論證方式進行測試應用與分析,其中數據信息說明如表1所示。
2.1 安全風險與預防模型對比分析
由UCI醫療數據信息說明中可知,本文依次使用了類比率為30的免疫系統功能衰退與類比率為4的淋巴癌示例進行測試,為了保證實驗的廣泛性,使用了不同的類比分布概率。兩種醫療數據信息集合分別進行了最小熵離散化與隔離分布處理,數據信息集合中的spt的最小值分別為7%和33%,病情特征碼參數值度量分別為L=6、L=7,相對安全風險參數最小值為1.2。
在取得最優化安全風險與預防數據結構模型以及從核心函數機制中輸出的病情特征碼參數項的前提下,采用MRPM算法在醫療數據信息中深度挖掘帶有權重參數值的安全風險與預防集合。
為了對比最優化安全風險與預防數據結構模型、最典型的安全風險和預防數據結構模型以及(RS、PS)中的病情特征碼參數值,當數據源為免疫系統功能衰退時,與最優化安全風險和預防數據結構模型相關的病情特征碼值分別是334和194,典型性安全風險與預防數據結構模型涉及的病情特征碼值分別是13和4。相類似,當數據源為淋巴癌時,與最優化安全風險與預防數據結構模型相關的病情特征碼值分別是714和296,典型性安全風險與預防數據結構模型涉及的病情特征碼值分別是45和57,而RS、PS中涉及的病情特征碼值分別是13和4。
上述病情特征碼值對比結果說明:在最優化安全風險與預防數據結構模型相關的病情特征碼值、典型性安全風險與預防數據結構模型涉及的病情特征碼值遠遠大于(RS、PS)中的相關病情特征碼值。其中帶有權重參數值越大,病情特征碼值影響程度就越高,對病情影響也越大,反之一樣。從而表達了(RS、PS)能夠深度挖掘出與病情最具有關聯[6]的安全風險及預防因子。
2.2 (RS、PS)中每個病情特征碼值的權重參數
對于病情特征碼值而言,其內部的權重參數出自于(RS、PS)中的百分比率。它能夠判定其病情特碼值的影響程度,并且也能夠通過它來觀察病者病情的安全風險權重參數與預防權重參數。MRPM算法在免疫系統功能衰退數據信息集合中的RS、PS如圖1、圖2所示,其中spt=0.06,L=5,圖中下面一欄統一是病情特征碼值。
從圖1可以得出結論:RS中最大的兩個病情特征碼值權重參數是immune_surgery=r(18.315 0)和query_
hypoimmune=r(12.087 9)。所以,相對于免疫系統功能衰退,兩個最大的病情特征碼值的權重之和為30.402 9。依據上述推理論證說明此病者的病情特征碼值的權重參數之和≥30.402 9,此病情患有免疫系統功能衰退的安全風險;但是在PS中,最大的兩個病情特征碼值權重參數分別是immune_surgery=p(23.7 624)、immunty=p(20.792 1)。可知其權重參數之和為44.554 5。因此,若病者病情特征碼值的權重參數<44.554 5,則患有免疫系統功能衰退的概率較高。
在最優化安全風險與預防數據結構模型及最具典型的安全風險與預防數據結構模型的基礎之上,本文在醫療數據挖掘中創造性地引入了病情特征碼值,并對其設置相關權重參數,且通過權重參數判定其病情特征碼值的安全風險與預防影響程度,對醫療數據信息進行深度挖掘。測試結果顯示,所設計出的MRPM算法可以深度挖掘具有典型性質的病情特征碼值,且展示立體、直觀,對醫療工作者提供了更加有效的參考價值。
參考文獻
[1] Wang Guoyin.Rough reduction in algebra view and informa-tion view[J].International Journal of Intelligent System,2003,18(3):679-688.
[2] 葉明全,伍長榮,胡學剛.基于粗糙集的醫療數據挖掘研究與應用[J].計算機工程與應用,2010,46(21):232-237.
[3] 邵峰晶,于忠清.數據挖掘原理與算法[M].北京:中國水利水電出版社,2003.
[4] KANTARDZIC M.Data mining concept,models,methods and algorithms[M].IEEE Press,2002,12(4):223-263.
[5] 張俊鵬,賀建峰,馬磊.基于最優風險與預防模型的醫療數據挖掘算法[J].計算機工程,2011,37(22):33-37.
[6] Li Jiuyong,Fu Waichee,FAHEY P.Mining risk patterns in medical data[C].Proceeding of the 7th ACM SIGKDD Inter-national Conference on Knowledge Discovery in Data Mining,New York,USA:ACM Press,2005:770-775.