摘要:摘要:結合數據分析和數據挖掘的一些方法對醫療垃圾數據進行分析.文中對某區域5年來醫療垃圾數據進行采集、清洗和集成,結合醫院的地址、級別、床位數和職工數,對現有數據進行統計分
摘要:結合數據分析和數據挖掘的一些方法對醫療垃圾數據進行分析.文中對某區域5年來醫療垃圾數據進行采集、清洗和集成,結合醫院的地址、級別、床位數和職工數,對現有數據進行統計分析.在垃圾數據時間序列分析中,發現垃圾量呈上升趨勢,發現不同位置不同類型醫院之間醫療壓力的不平衡現狀.通過對醫院數據進行K-means聚類分析和PARETO貢獻度分析,進一步證實了醫療壓力在區域和城鄉之間的不均衡.不均衡發展造成醫療資源一定程度上的浪費.
關鍵詞:醫療壓力;相關性;K-means;PARETO
我國人口眾多,擁有世界上五分之一的人口,因此所面臨的醫療問題非常嚴峻.我國政府對此高度重視,并不斷地推出新政策來促進我國醫療服務水平的提高和醫療資源的平衡[1],取得了長足的進步,但醫療資源和醫療壓力在城鄉和不同區域間的差距依舊沒有消除[2].本文對醫療垃圾數據進行統計分析,在時間上和空間上探討某地區不同醫院間的醫療壓力不平衡的現狀[3].數據挖掘[4],即DM(DataMining),是從數據庫中發現知識,通過算法從海量數據中發現隱藏的、未知的,并有潛在價值的信息的非平凡過程.這包括數據集成、分類、聚類、預測變化、檢測異常等.文獻[5]提出了一種基于系統動力學技術的醫院廢棄物管理仿真模型,用來統計不同類型醫院的垃圾產生量,預測未來產生的廢物和治療費用,相關因數包括:床位數、服務水平、人口數量、出生率、死亡率等.文獻[6]發現衛生機構數量在不斷增加,一次性醫療產品的使用量也在不斷增加,導致了衛生保健廢物產生率的增加.研究發現醫療廢物的產生率與住院病人數有很強的線性相關性,與醫院的門診病人有較弱的相關性.文獻[7]運用人工神經網絡(ANNs)和多元線性回歸(MLR)兩個預測模型,預測醫療廢物生成的速率.文獻[8]闡述臺灣醫院醫療廢物產生的相關因素,預測平均每天每床產生垃圾重量在2.6到4.1公斤.床位數量是重要的預測因素,發現在醫療中心,產生的污染廢物的平均數量是最高的.參考以上文獻,本文旨在分析醫療壓力的不平衡性,增加了醫院職工數作為特征字段,將醫療垃圾分成3類分析,保留了醫院類型、床位數等字段,運用時間序列對垃圾產生量進行分析和預測,實證了不同類型醫院的貢獻度差異,發現了醫療保險報銷比例和病床數量是垃圾產生率的重要因素;發現了垃圾呈上升趨勢,但中心醫院的貢獻度增加很少,表明了分層醫療改革取得了較好效果.

1數據情況
1.1醫療垃圾
本數據是某地區2010年10月至2016年8月的醫療垃圾處理記錄,總共有近64萬條.
1.1.1醫療垃圾采集該地區的醫療垃圾有授權定點處理單位,負責處理地區內68家醫療機構產生的垃圾.垃圾有專人進行分類包裝,用專用的包裝箱,包裝箱上粘貼有條形碼,該條形碼共有共5位信息,其中3位用作醫院代號,1位代表所在行政區,最后1位是垃圾分類.垃圾在處理前必須進行登記,通過專用的計算機進行掃描、記錄稱量,并自動錄入登記日期,數據格式如表1所示.然后交給專業技術人員通過專用設備進行處理.
1.1.2醫療垃圾分類醫療垃圾是指由醫院產生,是接觸過病人血液、肉體等的污染性垃圾.醫療垃圾的危害性是普通生活垃圾的成百上千倍[9].如果對醫療垃圾處理的不合適,將對環境造成嚴重污染,也會引發傳染病.本文將醫療廢物分成感染性,BCID為0;損傷性,BCID為1;病理性,BCID為2.感染性廢物是指被血液和其他體液污染的廢物;損傷性廢物是指醫用針頭、縫合針、玻璃試管等;病理性廢物是指人體組織、器官或體液,被污染的動物尸體等.
1.1.3醫療垃圾清理與集成
醫療垃圾有授權定點處理單位,通過計算機掃描條形碼,垃圾重量自動錄入數據庫,記錄有序.數據清理主要集中在:第一,數據重復,備份后的數據在錄入平臺沒有清理,部分數據重復,根據時間清理了重復記錄;第二,個別醫院沒有持續的5年數據,如企業改制,企業內部的醫院撤銷了,私立醫院倒閉了,去除了信息不完整的醫院有3家.數據集成:第一,數據合并.行政區域的重新劃分,有4家醫院合并成2家,按日期將數據合并,歸屬到現在的醫院;第二,在垃圾數據匯總后,進行聚類和貢獻度等分析,數據庫中加入了醫院職工數和床位數,集成了新的數據庫.
1.2醫院簡介
本文中涉及的醫療機構數據由該地區衛生局提供,城市有17,046位專業技術人員,其中醫療服務和醫療管理部門有3,789位,如從事于血站,計劃生育,婦幼保健等,農村僅有2,233位.根據醫療機構床位數據,該地區城市醫院擁有床位數為14,661張,其中醫療服務和醫療管理部門有床位895張,農村醫療有床位數為3,035張.醫療資源高度集中于城市,農村醫療服務供給相對不足[10][11].
1.2.1醫療機構基本情況
本次數據中所包含的醫療機構有68家,包括公立醫院、衛生院、婦幼保健院、血站、疾病控制中心、私立醫院等.其中有2家是三級甲等醫院,12家二級甲等醫院,6家二級乙等醫院,25家一級醫院,服務機構18家,數據處理剔除了5家信息不完整的醫院.醫院分布在市區、縣城和鄉鎮.
1.2.2醫院編碼
BCID為醫院所在區域編碼,在垃圾數據表中定義為1位,取值1-9,代表行政區劃分,市區為1,市瞎8個縣區,分別為2-9.BHID為醫院代碼,用三位阿拉伯數據表示,市中心醫院為001.
2基本的統計分析
通過對垃圾數據的統計,展示了3類垃圾的分布情況,該地區的垃圾日產量,市中心醫院每類垃圾占總量的比例.
2.1所有醫院醫療垃圾總量的時間重量曲線
醫療垃圾由定點單位專門負責處理,政府監督,分類、包裝、運輸等環節規范有序.通過條形碼采集垃圾信息,計算機同步錄入垃圾重量,避免了手工操作的失誤.但在2016年5、6兩個月,企業設備維護,數據缺失.企業提供了手工記錄,記錄凌亂,信息不完整,如圖1-3為3類垃圾按日重量分布圖.
2.2市中心醫院垃圾量分析
為了解市中心醫院的醫療垃圾產量與該地區63家醫療機構垃圾產量的關系,分類對垃圾量進行了統計,垃圾重量采用年均值,如表2所示.
3醫療垃圾數據處理
通過對垃圾數據的相關性、聚類、貢獻度和城鄉區別等方面的分析,掌握垃圾數據變化規律,為管理部門預算、決策和監管提供數據支撐.
3.1三類垃圾的比例
從圖5可以看出感染性垃圾最多,占總量的79.96%,損傷性垃圾占總量的19.51%,而病理性垃圾只占0.53%.
3.2三類垃圾相關性分析
相關性是指變量之間的一種非確定性關系.用相關系數表示變量之間的線性相關程度.相關系數(Correlationcoefficient)是由著名統計學家卡爾·皮爾遜(Pearson)設計的統計指標[10].因為相關表和相關圖無法確切地表示兩個變量之間相關的程度,在二元變量的相關性分析過程中,皮爾遜相關系數是最常用的,其計算公式如下:
4結論
醫院之間醫療水平、服務質量差距太大,使得我國民眾都喜歡涌入大城市,去級別高的醫院看病.為緩解城市大醫院的壓力,的醫療改革在不斷完善分級診療體系,加大扶持定點醫院的人、財、物優質資源建設,加大優質醫療人力資源在城鄉間流動,加大在定點醫院消費的報銷比例,引導居民消費偏好,提高城鄉居民對醫療服務的受益度,緩解“看病難,看病貴”問題.
本文通過醫療垃圾數據的實證分析,了解到居民對不同類別醫院的信任度不同,就醫偏好也就不同,導致地方的中心醫院醫療負擔最繁重,城區醫院承擔區域內大部分醫療任務,鄉鎮醫院比較清閑,也造成了一定的資源浪費[12].通過5年內采集的醫療垃圾數據,結合醫院職工數和床位數,通過聚類和貢獻度分析,城鄉醫療壓力分析,垃圾量預測,有一定的實際意義,但由于數據不夠豐富、細致,后續研究將采集更加豐富的醫療數據,深入研究.
參考文獻:〔1〕薛宇,吳鳳平,王長青,等.醫療衛生資源配置改革與城鎮化協整分析[J].河南社會科學,2016,24(2):47-56.〔2〕危鳳卿,袁素維,劉雯薇,等.“十二五”末我國公立醫院數量與規模配置評價[J].醫院管理,2015,35(2):6-9.〔3〕郭玉玲,劉欽普.醫療衛生發展水平區域差異綜合評價[J].衛生統計,2016,33(2):251-253.〔4〕HanJW,KamberM.數據挖掘:概念與技術[M].范明,孟小峰譯.第二版.北京:機械工業出版社,2007.〔5〕ChaerulM,TanakaM,ShekdarAV.Asystemdynamicsapproachforhospitalwastemanagement[J].WasteManagement,2008,28(2):442-449.
王本有1,黃和平2