基于数据挖掘算法的骨盆损伤判别模型

王飞翔，姬锐，张鹿鸣，王鹏，刘太昂，宋鲁杰，汪茂文，周智露，5，郝虹霞，6，夏文涛

1.司法鉴定科学研究院上海市法医学重点实验室司法部司法鉴定重点实验室上海市司法鉴定专业技术服务平台，上海 200063；
2.武汉大学人民医院生殖医学中心，湖北武汉 430072；
3.启东赢维信息科技有限公司，江苏启东 226200；
4.上海交通大学附属第六人民医院，上海 200233；
5.贵州医科大学法医学院，贵州贵阳 550009；
6.佳木斯大学基础医学院微生态-免疫调节网络与相关疾病重点实验室，黑龙江佳木斯154007

骨盆损伤多由高能量创伤所致，常合并盆腔内器官损伤，可危及生命，且损伤愈合后还可能遗留勃起功能障碍等后遗症。由于骨盆解剖结构特点，骨盆损伤X 线片检查存在一定的漏诊率，CT 扫描图像后处理可以提高检出率。近年来，人工智能技术迅速发展，基于图像信息深入挖掘，并在此基础上建模，进行自动识别，成为临床研究的热点。深度学习是人工智能研究的最新趋势，作为一个快速发展的崭新领域，越来越受到研究者的关注。卷积神经网络（convolutional neural networks，CNN）模型是深度学习模型中最重要的一种经典结构，其性能在近年来深度学习任务上逐步提高。

人工智能已被广泛运用于肺结节良恶性预测、乳腺癌诊断、甲状腺结节良恶性分类、骨龄评估[1]等领域。本研究拟采用卷积神经网络深度学习方法对骨盆损伤特征进行自动提取，选用主成分分析（principal component analysis，PCA）、偏最小二乘法（partial least squares，PLS）降维方法对基于骨盆CT 图像提取的特性信息进行降维，然后利用降维的数据建立判别骨盆是否受伤的判别模型，并对两种降维方法及算法的模型进行准确性比较，甄选出最佳模型。

1.1 样本采集

本研究采集146 例骨盆CT 扫描图片，其中骨盆正常组样本108 例，骨盆受伤组样本38 例，均为成年男性。受伤骨盆和正常骨盆CT 图片如图1 所示。从上述骨盆CT 图片样本中采取随机抽样的方法抽取80%作为训练集用于拟合模型，共116 例样本，其中正常骨盆86 例，受伤骨盆30 例；
剩余20%用于检验模型的准确性，共30 例样本作为测试集，其中正常骨盆22 例，受伤骨盆8 例。

图1 骨盆CT 三维图像重组片Fig.1 CT reconstruction of pelvis 3D images

本研究经司法鉴定科学研究院伦理委员会审查通过，所有研究符合医学伦理学有关条款规定。

1.2 图像预处理

删除CT 片上的片号、姓名、日期等干扰信息。为方便神经网络获取图像特征，使用阈值化图像分割方式提取图像主体部分，然后根据主体部分在图像中的位置和方向进行裁剪和旋转，以保证主体部分在每张图片中的位置和方向统一，然后使用双线性差值的方法对图像进行缩放，将每张图片的尺寸都统一成500 像素×500 像素大小。

1.3 数据挖掘流程

数据挖掘流程包括CT 图像输入、图像预处理、特征提取、特征降维、特征选择、参数选择、模型建立和模型比较几个步骤（图2）。

图2 数据挖掘流程Fig.2 Data processing flow

（1）特征提取

在ImageNet的CNN数据集上进行预训练，ImageNet是图像分类、检测领域的常用数据集，包含14 197 122张照片，在该数据集上进行预训练可以提高模型效果，降低模型训练难度。本研究使用的网络模型是经过参数优化的vgg16 网络。输入的图像数据经过预处理后进入CNN 进行特征提取，然后对CNN 的输出进行自适应平均池化，降低参数数量。

（2）特征降维

分别利用PCA[2]和PLS[3]对CT 图像提取的特征进行降维。PCA 可以理解为用几个较少的综合变量来代替原来较多的变量，而这些较少的综合变量不仅能反映原来较多指标的有用信息，且相互之间正交[2]。PCA 可以用来探索高维数据结构，通过把具有一定相关性的高维变量转化成无相关性的低维变量，由于新的低维变量是原来高维变量的线性组合，因此尽可能地保留原始数据的信息。PLS 也可以用于探索高维数据结构，但PLS 不仅可以排除原始变量相关性，过滤自变量的噪声，还可以过滤因变量的噪声。在降维的基础上进行特征选择。

（3）特征选择和参数选择

在特征选择和参数选择时，以建立是否受伤的分类判别模型的留一法准确率为衡量标准，对比降维后不同因子个数对模型留一法准确率的影响，进而根据准确率来选择合适的因子个数。

（4）模型建立

选择支持向量机（support vector machine，SVM）算法建立模型。SVM 是VAPNIK 等于1995 年创立，该算法基于统计学习理论，结合了Huber 稳健回归、Wolfe 对偶规划等理论发展而成[4]。该算法在解决样本数少、非线性及高维模式识别问题中具有比较明显的优势，在计算过程中采用结构风险最小化代替传统的经验风险最小化，使得SVM 具有全局优化、预报能力强等优点，克服了神经网络的过拟合等缺点[5-6]。本研究将SVM 应用到骨盆是否受伤的2 类问题识别中，SVM 中的核函数选择径向基核函数，惩罚因子C选择10。

（5）模型比较

选择SVM 算法和朴素贝叶斯分类器（naive Bayesian classifier，NBC）方法进行模型比较。NBC 方法是在统计计算的基础上，以概率公式为前提，对具有目前特征的样本计算出其属于某个类别的概率，对于给出的待分类项选择最大的概率分类[7]。NBC 建模过程大致分为三步。第一步根据具体数据来确定特征属性，并适当划分出每个特征属性，再人工将一部分待分类项进行分类，形成训练集样本。第二步的任务是确定分类器，主要是为了计算每个类别在训练集中的出现频率及每个特征属性划分对每个类别的条件概率估计，并记录标记结果。输入的是特征属性和训练集样本，输出是分类器。第三步是使用已确立的分类器对分类项进行分类，在此输入的是分类器和待分类项，输出的是待分类项与类别的对应关系。由于NBC 方法计算快捷、精确度高，并且有着坚实的理论基础而得到广泛的应用[8]。

在对不同算法进行对比后，将数据挖掘算法和人工阅片的结果进行对比，进一步考察数据挖掘算法的实用性。测试集的30 张CT 图像由2 位工作5 年以上具有影像学背景知识的法医进行人工阅片，并将人工阅片结果准确率和模型测试结果准确率进行比较，评估模型判别准确率。

2.1 特征提取

对输入的骨盆CT 图像进行预处理后，提取其特征信息，共提取了961 维特征信息，然后分别利用PCA 和PLS 对特征信息数据进行降维。以骨盆是否受伤SVM 分类判别模型的留一法准确率为指标，优化选择了前16 个PCA 因子和前12 个PLS 因子。

2.2 SVM 模型结果

分别基于16 个PCA 因子和12 个PLS 因子建立骨盆是否受伤SVM 分类判别模型。

2.2.1 建模结果

骨盆是否受伤SVM 分类判别模型的建模结果（表1）显示，基于16 个PCA 因子和12 个PLS 因子建立的骨盆是否受伤的SVM 判别模型，正常和受伤建模结果准确率均为100.00%。

表1 骨盆是否受伤的SVM 建模结果Tab.1 SVM modeling results of whether the pelvis is injury

2.2.2 留一法结果

骨盆受伤SVM 分类判别模型的留一法结果（表2）显示，正常骨盆PCA 算法和PLS 建模结果准确率分别为97.67%和100.00%，受伤骨盆的分别为96.67%和100.00%。

表2 骨盆是否受伤的SVM 留一法结果Tab.2 SVM leave-one-out modeling results of whether the pelvis is injury

2.2.3 测试结果

骨盆受伤SVM 分类判别模型的测试结果（表3）显示，正常骨盆PCA 算法和PLS 测试结果准确率均为95.45%，受伤骨盆分别为75.00%和87.50%。PLS 总准确率为93.33%。

表3 骨盆是否受伤的SVM 测试结果Tab.3 SVM test results of whether the pelvis is injury

由表1～3 可以看出，基于12 个PLS 因子建立的骨盆受伤SVM 分类判别模型，留一法和测试集准确率比基于16 个PCA 因子建立的骨盆受伤SVM 分类判别模型，特别是对于受伤个体的测试更准确，因此，最终选择PLS 方法进行降维。

2.3 模型比较

本研究尝试了基于12 个PLS 因子建立骨盆是否受伤的NBC 分类判别模型，该模型的建模、留一法和测试结果如表4 所示。对比骨盆是否受伤的SVM 分类判别模型，NBC 分类判别模型的建模结果和留一法准确率均达到了100%。在测试集的验证结果中，NBC 模型对正常骨盆的预测准确率达到了100%，高于SVM 模型的95.45%。但是NBC 模型对受伤骨盆的预测准确率仅为62.50%，远低于SVM 模型的87.50%。

表4 NBC 模型准确率Tab.4 The accuracy rates with NBC model

2.4 与人工阅片的比较

由于此次分类模型的判别目标仅涉及骨盆是否损伤，不涉及受伤位置、程度的判断，对于法医工作者而言，这是一个较为简单的图像识别问题，因此其人工阅片的结果准确率达到了100%，明显高于机器学习模型的预测结果（表3～4）。但机器学习的判别过程耗时较短，且不受时间约束地长期不间断工作，可以减轻专业人员的工作量、降低其工作成本。

目前对于骨盆影像学资料的研究，主要是利用骨盆图片对人体骨龄进行推测[9]，利用骨盆图像进行骨龄预测一定程度上解决了12.0～22.0 岁青少年的骨龄评估问题。骨盆受伤是导致男性性功能障碍的常见外伤，骨盆不同部位的损伤与性功能障碍的相关性值得深入研究。对于骨盆影像学图片，目前主要靠法医直接观察骨盆CT 图片来判别骨盆是否受伤及其受伤部位和程度。但是否可以基于骨盆图片，利用数据挖掘方法建立骨盆是否受伤的快速检测模型，尚有待研究。一方面可能是目前对骨盆损伤缺少关注，或受限于积累的受伤骨盆图片较少，而深度学习需要大量的图片；
另一方面可能是髂嵴上腹部器官叠加产生的伪影可能会影响模型的准确性。本研究利用适合处理小样本的SVM 算法，尝试建立骨盆是否受伤的分类识别模型。

本研究发现，对于小样本的骨盆图片，虽然深度学习的应用受到限制，但适合处理小样本的SVM 算法可以建立准确率高的骨盆是否受伤的分类判别模型，其建模、留一法和测试准确率都超过了90%。虽然这一准确率和法医专业人员相比，优势并不明显，主要原因是本研究是对骨盆是否损伤的判别，不涉及受伤的位置、程度，因此对法医工作者来说，这是一个简单的图像识别问题，会有比较高的准确率。但机器学习的判别过程耗时短，可以减轻法医专业人员的工作量，节约时间成本，可以作为法医专业人员判别骨盆是否受伤初步筛查的一个方法，将来随着研究深入，提高准确率，可以开发出骨盆是否受伤的自动化判别工具。

在建立骨盆是否受伤的SVM 分类判别模型的过程中，重要的一个步骤是特征提取。本研究特征提取是在ImageNet 上预训练的CNN 进行，使用的网络模型为vgg16，提取了骨盆图片的大量特征，这些特征虽然包含大量的有效信息，但不可避免地引入噪声信息。噪声信息的剔除对于提高骨盆是否受伤SVM 分类判别模型的准确率起着比较大的作用。本研究尝试利用PCA 和PLS 2 种方法进行降维，在降维过程中虽然损失部分有效信息，但也剔除了噪声信息，对后续模型准确率的提高起到了正面影响。从模型测试准确率来看，PLS 的降维方式更优于PCA 的降维方式。

本研究建立的骨盆是否受伤的分类预测模型，整体上看模型比较简单，其准确率对比法医专业人员也没有明显的优势，但本研究为骨盆损伤人工智能快速识别提供了方法上的可行性。深度学习受到骨盆图片偏少的影响，还不能很好地应用在骨盆是否受伤的判别上。本研究尝试了SVM 算法和NBS 算法，从模型的测试准确率来看，SVM 的准确率更高，体现了SVM 算法在处理小样本数据上的优势。SVM 算法和人工阅片比较，其测试准确率还有一定的差距，但也对用数据挖掘方法建立骨盆是否受伤的快速检测模型进行了探索，提供了可行性，在后续工作中可以收集更多的骨盆影像学图片，尝试更多算法，力争发现更适合的算法。

由于目前骨盆受伤的样本数量有限，尚不能进行细化分组，因此，本研究仍存在一定的局限性，只能判别骨盆是否受伤，而对于具体受伤的部位，尚不能自动识别。因此，下一步研究的方向是，在收集到足够数量的样本后，研究骨盆受伤骨折的类别、骨盆受伤的具体部位，与性功能障碍进行关联，并将受伤分为轻伤、中等程度受伤和重伤等不同等级，尝试建立更细致的分类和更有意义的应用模型。

猜你喜欢降维骨盆准确率混动成为降维打击的实力东风风神皓极车主之友(2022年4期)2022-08-27基于数据降维与聚类的车联网数据分析应用汽车实用技术(2022年4期)2022-03-07乳腺超声检查诊断乳腺肿瘤的特异度及准确率分析健康之家(2021年19期)2021-05-23多层螺旋CT技术诊断急性阑尾炎的效果及准确率分析健康之家(2021年19期)2021-05-23不同序列磁共振成像诊断脊柱损伤的临床准确率比较探讨医学食疗与健康(2021年27期)2021-05-13颈椎病患者使用X线平片和CT影像诊断的临床准确率比照观察健康体检与管理(2021年10期)2021-01-03降维打击海峡姐妹(2019年12期)2020-01-14痛经，当心是骨盆歪幸福·健康版(2018年4期)2018-04-20痛经，小心是骨盆歪家庭百事通·健康一点通(2017年11期)2017-11-29“翘臀”腰疼，警惕骨盆前倾家庭百事通·健康一点通(2017年5期)2017-05-19

推荐访问:骨盆判别损伤