摘 要
医保欺诈行为,是指以非法占有为目的,用虚构事实或者隐瞒的方法,骗取公私财物的行为。医保欺诈,可以从病人资料,消费明细等数据记录来体现。本文主要通过分析记录的数据,找出可能的医保欺诈行为。总结出欺诈行为的数据特征,以便判断是否是医保欺诈。
首先,根据已有文献,对涉嫌诈骗行为进行分析,找出所给数据中对应数据,然后采用多元统计分析方法进行分析,主要使用SPSS软件中标识重复个案、K均值聚类分析、相关分析的方法,若个案重复次数过多以及聚类的案例数较少,则可能为欺诈。
针对数据一病人资料,我们从三方面分析,一方面对病人身份证号进行标记重复个案,发现重复个案占总数的4.1%,;另一方面对于医保手册号同样采取标记重复个案的方法,从结果可以看出重复个案占0.3%;最后,对Userupdate(用户更新次数)进行K均值聚类分析,发现第1类的聚类中心数大(即更新次数多)占总案例数的8%。以上三种数据特征则表示极可能是医保欺诈行为。
针对数据二费用明细表,我们也从三方面考虑。首先,单张处方的总价过高可能为欺诈,但是考虑到总价与单价、数量之间的相互影响,对此我们先对单价、数量、总价进行相关分析,发现单价与总价呈弱相关;然后用聚类分析对医嘱子类、单价、数量、总价进行分类,案例数少的类即有欺诈嫌疑;其次,对病人ID号标记重复个案,由于重复个案所占比例较大,对重复个案进一步进行了聚类分析;最后,若下医嘱科室与病人科室不一致则可能为欺诈,对此我们绘制了简单线图,不在y=x直线上的即为欺诈记录。
最后分析了所建立模型的优缺点,并在所提模型基础上进一步建立预测欺诈的程序框图,以便在真实数据的基础上能快速筛查是否为医保欺诈行为。
关键词:医保欺诈 k均值聚类 标识重复个案 相关分析 SPSS
一、问题的重述
医疗保险欺诈,是指公民、法人或者其他组织在参加医疗保险、缴纳医疗保险费、享受医疗保险待遇过程中,故意捏造事实、弄虚作假、隐瞒真实情况等造成医疗保险基金损失的行为。骗保人进行医保欺诈时通常使用的手段,一是拿着别人的医保卡配药,二是在不同的医院和医生处重复配药。下面这些情况都有可能是医保欺诈:单张处方药费特别高,一张卡在一定时间内反复多次拿药等。请根据附件中的数据,找出可能的欺诈记录。
二、模型的假设
在我们的模型中做了如下假设:
1.假设数据来源真实有效;
2.假设分析过程中,数据无缺失;
3.假设对每个聚类分析结果,使用同一评判标准.
三、符号说明
本文用到的符号及其意义见下表:
| 变量 | |
| 标准方差 | |
| 初始聚类中心 | |
| 样本与聚类中心的距离 | |
| 误差平方和准则函数 | |
| 欧式距离 | |
| 新聚类中心 | |
| Pearson相关系数 | |
| Pearson相关系数检验统计量 |
因为单张处方药费特别高一张卡及在一定时间内反复多次拿药可能涉嫌医保欺诈,故分别采用标记重复个案、聚类分析、相关性分析的方法对病人资料及费用明细进行分析。
4.1基于病人资料的医保欺诈行为主动发现
4.1.1问题的分析
判断是否为医保欺诈行为,需要从病人资料中的身份证号、医保手册号、Userupdate(用户更新次数)这三方面考虑。对此利用SPSS软件使用标识重复个案、聚类分析的方法,通过分析运行结果,做出重复个案与主个案所占比例、聚类中两类所占比例的饼状图。通过饼状图,可直观看出,所占比例的小的可能为欺诈记录。
4.1.2模型的建立:标识重复个案与聚类分析
标识重复个案:
当输入大量数据时,有时候会意外地出现输入同一条记录多次;或同一条记录的某部分多次出现,即多个个案具有相同的主标识值,但它们有不同的次标识值(比如,同一个身份证号有多个不同的序列号)。另外一种出现重复个案的情况是,多个个案代表同一个案,但是除这些个案的标识变量取值相同之外,其他变量的取值不同。
聚类分析:
对Userupdate(变量)的标识重复个案的结果,进行分类主要采用聚类分析法,而求取类之间的距离有多种方法,其中最常用的是欧几里德距离。
(1)数据标准化
由于所选数据的量纲和数值大小都不一致,数值的变化范围也不同,因此必须首先对所选数据进行标准化处理,如果有个样本,个指标,则每个变量可表示为,均值
标准方差
则标准化后
(2)聚类
系统聚类;,将个重复个案结果各自看成一类,然后规定样本之间的距离和类与类之间的距离。开始,因每个结果自成一类,类与类之间的距离与个案之间的距离是相等的,选择距离最小的一对并成一个新类,计算新类与其他类的距离,再将距离最近的两类合并,这样每次少一类,直至所有的个案都成一类为止,最终完成分类。
①设有n个样本,令I=1,选取K个初始聚类中心:;
②计算每一个数据样本与聚类中心之间距离:
如果满足,则;
③计算误差平方和准则函数JC,公式如下:
④判断是否满足聚类算法结束条件:如果,则表示算法结束,否则,I=I+1,计算下一个新的聚类中心,并返回②,新的聚类中心计算公式如下:
距离:对重复个案结果进行聚类时,“靠近”往往由某种距离来刻画。
令表示第个重复个案结果的第个指标,表示第个重复个案与第个重复个案之间的距离,最常见计算距离的方法是:
欧几里德距离
即为欧氏距离
4.1.3模型的求解
(1)用SPSS中标记重复个案对身份证号有重复个案的记录进行统计,由于有些数据无记录,因此只统计了有记录的数据,结果见图1。图2为根据统计结果绘制的饼状图。
图1 病人身份证号重复个案统计表
图2 病人身份证号重复个案统计表
(2)用标识重复个案对医保手册号有重复个案的记录进行统计,图表中记录为“1”的数据认为是无医保病人,则不可能出现医保欺诈,将此部分数据算作为主个案,不认为是重复个案,结果见图3。图4为根据统计结果绘制的饼状图。
| 所有最后一个匹配个案的指示符为主个案 | |||||
| 频率 | 百分比 | 有效百分比 | 累积百分比 | ||
| 有效 | 重复个案 | 188 | .3 | .3 | .3 |
| 主个案 | 57830 | 99.7 | 99.7 | 100.0 | |
| 合计 | 58018 | 100.0 | 100.0 | ||
图4 医保手册号重复个案饼状图
(3)用SPSS中k均值聚类分析对Userupdate(用户更新次数)进行分类,最终聚类中心结果见图5,图6为每个聚类的案例数,图7为根据最终聚类中心结果绘制的饼状图。
图5 最终聚类中心统计表 图6 每个聚类的案例数
图7 最终聚类中心饼状图
4.1.4模型结果分析
(1)由图1结果统计表中可知,身份证号总记录为35176个(删除掉无效记录后),重复个案的记录有1437个,所占比例为4.1%;图2直观看出重复个案所占比例的大小。从侧面反应出同一病人在一定时间内多次使用医保。
(2)由图3的表中,可以看出医保手册号总记录为58018个,重复个案的记录有188个,占总数的0.3%;图4中可明显看出表示有效重复个案的蓝色区域是极小的。此分析结果表明一定时间内医保手册号重复使用次数过多的占总体的0.3%,这些记录表现极可能是医保欺诈行为。
(3)从图5中看出,将Userupdate(用户更新次数)分为两类,最终聚类中心分别为4141和859;图6显示每个聚类的案例数,可以看出第1聚类的案例数很少,占总案例数的8.1%,表明更新次数过多有可能是欺诈行为。
4.2基于费用明细的医保欺诈行为主动发现
4.2.1问题的分析
医疗保险欺诈行为,通过分析病人的费用明细表中的各项数据也可以找出可能的欺诈行为表现,主要从单张处方的总价过高、病人ID号是否重复过多、下医嘱科室与病人科室是否一致这三个方面考虑。
在附件给出的表2中,通过对各个变量进行K均值聚类分析,可以将数据分为几类,案例数少的则可能是欺诈行为。但是考虑到单价、数量、总价之间的相互影响,对此我们使用了SPSS中相关性分析找出三个变量的相关性,并用图标构建程序绘制了简单3-D散点图。对于病人ID号与模型一的分析一样,使用标记重复个案的方法,找到重复的记录,即可能为医保欺诈行为。而下医嘱科室与病人科室应该是一致的,若不一致即为欺诈,因此对下医嘱科室和病人科室绘制简单线图。
4.2.2模型的建立:聚类分析与相关性分析
聚类分析:
(1)数据标准化
由于所选数据的量纲和数值大小都不一致,数值的变化范围也不同,因此必须首先对所选数据进行标准化处理,如果有个样本,个指标,则每个变量可表示为,均值
标准方差
则标准化后
(2)聚类
系统聚类;,将个样本结果各自看成一类,然后规定样本之间的距离和类与类之间的距离。开始,因每个结果自成一类,类与类之间的距离与个案之间的距离是相等的,选择距离最小的一对并成一个新类,计算新类与其他类的距离,再将距离最近的两类合并,这样每次少一类,直至所有的个案都成一类为止,最终完成分类。
①设有n个样本,令I=1,选取K个初始聚类中心:;
②计算每一个数据样本与聚类中心之间距离:
如果满足,则;
③计算误差平方和准则函数JC,公式如下:
④判断是否满足聚类算法结束条件:如果,则表示算法结束,否则,I=I+1,计算下一个新的聚类中心,并返回②,新的聚类中心计算公式如下:
距离:对重复个案结果进行聚类时,“靠近”往往由某种距离来刻画。求取类之间的距离有多种方法,其中最常用的是欧几里德距离。
令表示第个重复个案结果的第个指标,表示第个重复个案与第个重复个案之间的距离,最常见计算距离的方法是:
欧几里德距离
即为欧氏距离
相关性分析:
相关分析是描述两个变量间关系的密切程度,主要由相关系数值表示,当相关系数的绝对值越接近于1,则表示两个变量间的相关性越显著。双变量系数测量的主要指标有卡方类测量、Spearman相关系数、pearson相关系数等,在进行两者间的相关性检验时用pearson相关系数来判断,其公式为:
Pearson简单相关系数检验统计量为:
其中统计量服从个自由度的分布。
4.2.3模型的求解
(1)考虑到单价、数量、总价之间的相互影响,对这三个变量进行了双变量相关分析,图8为三个变量的相关性分析统计表, 图9单价、数量、总价的简单3-D散点图。
图8 单价、数量、总价相关性分析统计表
图9 单价、数量、总价的简单3-D散点图
(2)用k均值聚类分析对医嘱子类、单价、数量、总价进行聚类。最终聚类中心结果见图10,图11是这四个变量的单因素方差分析表,图12为每个聚类的案例数,图13是根据图12的结果绘制的简单条形图。
图10 医嘱子类、单价、数量、总价的最终聚类中心
图11 医嘱子类、单价、数量、总价的单因素方差分析
图12 医嘱子类、单价、数量、总价的每个聚类的案例数
图13 医嘱子类、单价、数量、总价的最终聚类中心条形图
(3)用标识重复个案对病人ID号进行重复个案分析,结果见图14。再用k均值聚类分析对图14 中的重复个案进行聚类,结果见图15。图16为病人ID号重复个案的每个聚类的案例数。
图14 病人ID号重复个案统计表
图15 病人ID号重复个案的最终聚类中心
图16 病人ID号重复个案的每个聚类的案例数
(4)图17为绘制的下医嘱科室与病人科室的简单线图
图
17
下
医简
嘱单
科线
室图
与
病
人
科
室
4.2.4模型结果分析
(1)图8的统计表中,可以看出单价与总价的相关性为0.456(弱相关),而数量与总价的相关性为0.116(不相关),所以认为,单价与总价有一定的相关性。
(2)从图10中看出,将医嘱子类、单价、数量、总价分为10类;图12为医嘱子类、单价、数量、总价的每个聚类的案例数,发现第1、2、4类的单价过高;第3、10类退药数量大,第8类买药数量大;第1、3类单张处方退药金额大;第2、4、6类单张处方药费高。以上所述的聚类特征,都有可能为医保欺诈记录。
(3)图14统计出病人ID号重复个案占总数的77.6%,对此再进行聚类分析,结果见图15;由图16可知,第5、7、8、10类案例数较少,这些类的最终聚类中心大于25,此特征可能为欺诈。
(4)根据图17绘制的下医嘱科室与病人科室简单线图,可以看出有个别记录不在y=x线上,即为下医嘱科室与病人科室不一致,因此为医保欺诈行为。
(5)在图11的单因素方差分析中,医嘱子类、单价、数量、总价的P值均为0,说明各类在统计学上均有明显差异,将其作为分类标准是合适的。
五、模型的综合评价
1.模型的优点:
(1)针对构建解决模型问题,我们对题目附件所给数据进行仔细的分析,针对原始数据所提供的信息不断分析。进一步标准的处理数据,去除无用的或者不相关的,得到了更精确和更易分析的结果。体现了思维的严谨性,增加了模型的科学性。
(2)对于模型得到的结果,结合生活实际,进行大胆的推测,合理地分析,最后验证推测的可能性。
(3)采用多元统计中的聚类分析、回归分析等方法建立模型,并充分利用EXCEL 及 SPSS等专业统计软件求解问题,将统计学理论和专业统计软件在解决问题中有机结合起来,并得到理想结果。
2.模型的缺点:
(1)在处理2.1病人资料,2.2 费用明细表数据时,对于不完整数据和主观认为不相关数据源进行了主观性忽略,可能会导致一些重要指标的丢失以及各个因素间的影响。
(2)医疗诈骗的行为很多,所以表现也多。本模型分析的医疗诈骗行为可能不完善,所以有的诈骗行为可能难以区分。
6、参考文献
[1] 刘长骞,《K均值算法改进及在网络入侵检测中的应用》,《计算机仿真》,28(3):190-193,2011年
[2] 向继 高能 荆继武,《聚类算法在网络入侵检测中的应用》,《计算机工程》,29(16):48-50,2003年
[3] 姜启源 谢金星 叶俊,《数学模型》,北京:高等教育出版社,2010年
[4] 李德宜 李明,《数学建模》,北京:科学出版社,2009年
[5] 丁国盛 李涛,《SPSS统计教程》,北京:机械工业出版社,2006年
[6] 薛薇,《统计分析与SPSS的应用》,北京:中国人民大学出版社,2008
附录:
预测程序框图:
(1)从身份证号、医保手册号、Userupdate(用户更新次数)这三方面预测是否为医保欺诈行为:
a:医保手册号 b:医保手册号使用次数
c:身份证号使用次数: d:Userdate(用户更新次数)
用以下数据可验证上述程序框图是较为准确的:
| 序号 | 医保手册号 | 医保手册号使用次数 | 身份证号 | 身份证号 使用次数 | userupdate |
| 1 | 1 | 42112719910707 | 1 | 307 | |
| 2 | 1 | 52260019790608 | 5 | 297 | |
| 3 | 1 | 44162219851017 | 3 | 297 | |
| 4 | 1 | 1 | 4095 | ||
| 5 | 1 | 1 | 1843 | ||
| 6 | 501034053 | 2 | 44030520130620 | 2 | 396 |
| 7 | 501163747 | 2 | 44030520131026 | 4 | 1862 |
| 8 | 600115048 | 2 | 44010581081157 | 1 | 303 |
| 9 | 600226795 | 2 | 43052219770412 | 3 | 1860 |
| 10 | 600469157 | 2 | 43010378071400 | 2 | 303 |
| 11 | 600502234 | 3 | 44142281071951 | 3 | 540 |
| 12 | 600602580 | 2 | 62050219971015 | 2 | 575 |
| 13 | 6051857 | 2 | 36250165071000 | 2 | 413 |
| 14 | 605144655 | 2 | 36052119831002 | 2 | 5 |
| 15 | 605375610 | 2 | 43050219841101 | 2 | 296 |
| 16 | 605463444 | 2 | 43040319821111 | 2 | 163 |
| 17 | 1057275 | 1 | 36210158062406 | 3 | 571 |
| 18 | 1054937 | 1 | 44148181011309 | 1 | 568 |
| 19 | 1051482 | 1 | 44512219710602 | 1 | 1840 |
| 20 | 1049435 | 1 | 44010262051048 | 1 | 573 |
e:数量 f:总价
g:病人ID号次数 h:病人科室
i:下医嘱科室
用以下数据可验证上述程序框图是较为准确的:
| 序号 | 数量 | 总价 | 病人ID号 | 病人ID号次数 | 下遗嘱医嘱科室 | 病人科室 |
| 1 | 10 | 57.26 | 2 | 2 | 10 | 10 |
| 2 | 216 | 177.48 | 1269 | 2 | 8 | 8 |
| 3 | -1 | -254.10 | 49 | 3 | 106 | 106 |
| 4 | 28 | 281.74 | 171654 | 14 | 133 | 133 |
| 5 | 8 | 26.70 | 17177 | 3 | 123 | 123 |
| 6 | 70 | 3.28 | 31920 | 16 | 112 | 112 |
| 7 | -50 | -4.35 | 169790 | 51 | 112 | 112 |
| 8 | 120 | 12.84 | 574404 | 20 | 203 | 203 |
| 9 | -12 | -20.27 | 174086 | 3 | 143 | 143 |
| 10 | -100 | -1.40 | 180691 | 18 | 159 | 159 |
| 11 | 1 | 103.00 | 604046 | 3 | 105 | 105 |
| 12 | -28 | -129.12 | 610601 | 20 | 181 | 181 |
| 13 | -3 | -112 | 0478 | 12 | 159 | 159 |
| 14 | -1 | -73.05 | 44 | 7 | 203 | 203 |
| 15 | 600 | 407.80 | 652151 | 6 | 179 | 179 |
| 16 | 40 | 35.20 | 650134 | 1 | 171 | 171 |
| 17 | 1800 | 252.00 | 190355 | 3 | 111 | 111 |
| 18 | -570 | -536.88 | 654624 | 1 | 329 | 329 |
| 19 | 40 | 25.30 | 9063 | 1 | 110 | 18 |
| 20 | 55 | 37.28 | 9078 | 1 | 310 | 528 |