大数据文摘出品

编译：Joey、杨威

对乳腺癌的早期筛查一直是机器学习的一个热门研究方向，可是已有的筛查模型大多数依赖于白人女性样本，因此对于非白人女性的筛查准确率令人堪忧。

最近麻省理工开发的新模型不仅很好地解决了这个问题，而且还能够提前五年筛查出乳腺癌病患！

这一项突破性研究，标志着深度学习技术推动下的医学进步，可以提前了解病情，做针对性治疗，这对于病患来说，是一大福祉。

Regina Barzilay和Lehman与CSAIL博士生的主要作者Adam Yala共同撰写了这篇论文。

感兴趣的读者可以查阅下载

https://pubs.rsna.org/doi/pdf/10.1148/radiol.2017170549

已有的筛查模型

之前的疾病筛查模型大多是CNN（卷积神经网络）的改良版本，CNN是前馈神经网络，模拟人的视觉对于图像的理解。网络结构中的卷积核提取图像的边缘、轮廓等信息，Relu等激活函数模拟大脑对于外界信号刺激的应答，对提取到的图像信息做整合，浅层卷积层提取到局部的图像信息，层数越深的卷积层能提取到全局的图像信息，在CV（Computer Version）领域也称为感受野（Receptive Field），CNN网络模型对于图像的分类任务处理十分友好，下图很好地展示了CNN网络的结构和原理：

CNN图像理解示意图

疾病筛查任务也就是二分类任务，对于输入的图像，需要得到是否患病的判断。给医学图片做标签（在计算机科学中标记为0或1，0表示没有患病，1表示患病），在模型中，通过Label(标记)好图片的训练和反向传播的参数调整，使得模型具备一定的学习能力，最终能够对未标记的医学图片做疾病筛查。但是训练的结果依靠数据集的好坏，已有的很多乳腺癌预测数据集都偏向于白人女性的研究，鲜少考虑到其他族裔。麻省理工大学研究人员开发的诊断模型考虑到了这一点。

将研究扩展到少数族裔

麻省理工的研究人员在一篇博客中指出，事实上这个看起来不起眼的一个细节是乳腺癌预测的关键：因为黑人女性死于乳腺癌的概率比白人女性高 42%。而正是目前的乳腺癌早期诊断技术中对黑人女性的诊断模型缺失造成了这一巨大差异，因为包括黑人女性在内的少数族裔样本在已有的深度学习模型开发中通常鲜有被考虑进去。

而麻省理工的研究人员表示，他们对乳腺癌预测模型的研究正是为了弥补这一缺陷，他们希望通过这一研究提高对少数族裔健康评估的准确性。针对同一个问题的研究同时也是近期很多业界公司研究和产品开发的重心。

模型结果表明，对于黑人和白人女性的预测效果都相当好。

之所以强调对黑人与白人女性的效果一样好，是因为研究人员在开发过程中发现同类的人工智能模型存在大量偏差——因为它们对样本的采集严重地倾向白人女性，黑人女性则很少。因此来自麻省理工的研究团队仔细地设计了他们的模型，使得它对于两种族裔的女性都能够很好地作出预测。

基于风险评估的提前预测

麻省理工学院教授Regina Barzilay本人是一名乳腺癌幸存者，她表示希望这样的系统能让医生在个人层面定制筛查和预防计划，使得晚期诊断成为历史。

所有性别都有患乳腺癌的风险，而大部分人通常认为只影响女性。自1989年第一个乳腺癌风险模型以来，研究者发展患乳腺癌的风险在很大程度上取决于人类的知识和对主要危险因素的直觉，如年龄、乳腺癌和卵巢癌的家族史、激素和生殖因素以及乳房密度。

然而，这些标志物中的大多数仅与乳腺癌微弱相关。因此，这些模型在个人层面上仍然不是很准确，并且鉴于这些限制，许多组织仍然认为基于风险的筛查计划是不可能的。

另一方面，“自20世纪60年代以来，放射科医生已经注意到女性在乳房X线照片上可以看到独特且变化很大的乳房组织模式，”Lehma说。“这些模式可以代表遗传，激素，怀孕，哺乳，饮食，体重减轻和体重增加的影响。我们现在可以在个人层面的风险评估中更准确地利用这些详细信息。”

不同于已有的预测模型，麻省理工计算机与人工智能实验室开发出的模型准确地将31％的癌症患者置于风险最高的类别，而传统模型仅为18％，可以至多提前五年预测乳腺癌细胞发展。

数据集来源

MIT / MGH团队不是手动识别乳房X线照片中驱动未来癌症的模式，而是训练深度学习模型直接从数据中诱导模式。麻省理工开发的这一预测模型的开发基于超过六万名来自麻省总医院（Massachusetts General Hospital）的病人样本，其中包括超过九万份乳房X光检查报告和病人们病情发展情况。

这一模型从这些数据出发，通过深度学习甚至能够辨识出一些人类医生都无法辨认出的病情。因为已有的关于乳腺癌的假设和风险因素都充其量是一个指导性的判断框架，而麻省理工的这个模型并不是基于类似的框架，因此模型的准确性在预测性诊断和预筛查方面会更加准确。

总结与展望

总的来说，麻省理工计算机与人工智能实验室的这一项目旨在协助医生们为病人尽早选择正确的治疗方案，而不是像现在的大多数情况下一样，在病人们的病情恶化甚至发展到晚期时才告诉他们这一残酷的事实。

同时，最近在nature中也有报道，对于BRCA1和BRCA2基因的突变检测也能更有效地开展乳腺癌的治疗。

链接如下：

https://www.nature.com/articles/d41586-019-02015-7

展望未来，来自麻省理工的团队希望能够用这一技术来提高其他类似疾病的预测准确性，如通过扫描脑部结构，可以对阿尔茨海默病和多发性硬化症做预测，同理也可以对心血管疾病做预测。只要针对某种疾病的研究已经有成型的风险模型，这一技术就有可能大大提高对它预诊断的准确性。

扫描脑部图片检测疾病

乳腺癌预测模型只有白人女性数据，MIT刚刚把它扩展到了所有族裔

已有的筛查模型

将研究扩展到少数族裔

基于风险评估的提前预测

数据集来源

总结与展望

你可能也喜欢这些文章