西湖大学郭天南从元宇宙视角,探秘蛋白

近日，由雷峰网医健AI掘金志主办的GAIR「医疗科技高峰论坛」在深圳正式召开。

论坛上，西湖大学特聘研究员、西湖欧米创始人郭天南以《AI赋能的蛋白质组大数据助力精准医疗》为题发表了演讲。

郭天南表示：“AlphaFold2使用AI技术在蛋白质结构预测上取得了突破性进展，但此类AI驱动的生命科学的更大价值将体现在蛋白质组学中。”

他说到，一个战场上，有各类兵种和武器，各自的性能就如同是一个蛋白质的结构。要赢得一场战斗，不仅要知道各类兵种和武器的性能，更需要知道他们的数量、运行及修复方式，以及所有军力在整个作战系统中的互动，这个过程在生命健康中就如同是动态的蛋白质组。这个类比在一定程度上体现了蛋白质结构和蛋白质组的关系。”

演讲中，郭天南还重点介绍了一种新的蛋白质组大数据展示形式——怎样将蛋白质组数据转化成为张量（即Tensor，多维矩阵）。

“张量可转化为多种数据格式视频，包括这里每个像素就是某个蛋白质的一个多肽的一个片段，平铺后可以得到一副有规律的、类似宇宙的图像，密集像素之间的间隔都是一个分子单位。这种数据可直接用于深度学习，将人体内的小宇宙转化为大数据。”

以下为演讲的全部内容，雷峰网做了不改变原意的整理和编辑：

大家好，我是西湖大学特聘研究员郭天南，给大家分享AI蛋白质组大数据辅助精准医疗的一些想法和实践。

我的演讲分为六个部分：

第一，什么是蛋白质组学；

第二，蛋白质组学最新临床技术进展；

第三，蛋白质组学大数据的概念，以及AI发挥的作用；

第四，AI助力甲状腺结节的诊断；

第五，AI在尿检中实现新冠肺炎分类；

第六，将蛋白质转化为Tensor的多维矩阵新概念。

宏观世界中存在各种各样的疾病，不同的检测方法会把结果以图像、文字、数字等呈现在我们面前。而AI能将这些大数据进行整理、分析、归纳、预测，给我们的疾病诊治带来极大便利。

同时，还有一个我们看不到的微观分子的世界，虽然目前还没有技术可以直接看到微观世界里分子机器如蛋白质等的具体呈现和动态，但它是真实存在的，并且所有生命活动都是在微观世界中以蛋白质为主的分子层面上发生的。

例如在感染新冠肺炎的时候，病毒入侵细胞后，细胞内各种蛋白质等分子会发生相应的改变。一个成年人大约有30万亿个细胞，一个真菌细胞大约有万个蛋白质。而人体的每一个白细胞、红细胞到底有多少种类型的蛋白质，而每一类蛋白质有多少个，现在还没有准确数据。所以，人体其实包含了无数个非常宏大的微观世界。

这张图展示的是一个人的基因组，一个人的基因组基本上固定不变，从出生到死亡，心肝脾肺肾各个不同器官的基因组非常稳定。但每一个器官、每一个细胞都不一样。我们有红细胞、白细胞、神经细胞、肿瘤细胞等，它们在形态上有很大差别，功能也不尽相同，这些差别也主要体现在蛋白质层面，也就是蛋白质组。

蛋白质组是一个非常复杂的体系，这里展示的是其中一些蛋白质，每一个蛋白质就像汽车的一个零件，研究所有蛋白质的科学就叫蛋白质组学(Proteomics)，与基因组(Genomics)的概念相对应。

最近，在生命科学和AI领域有一个突破性进展，将AI应用于蛋白质结构的预测，因为AI预测在理论上可以无限并行计算，也有人将之称为“蛋白质组”结构的预测。

每一个蛋白质都有独特的结构，并且这个结构处于动态变化中，不同蛋白质结构间还有相互作用，目前这些结构在一定程度上可以由AI进行预测。

第一，蛋白质结构预测跟蛋白质组关系是什么？

我有一个比喻。这里展示有不同的战士、不同的武器和不同的装备，他们就如同是微观分子世界的一个个蛋白质。每一个装备有什么性能、有什么样的形态、可以做什么，都需要研究。

而且，要赢得一场战斗，还需要知道各种士兵和武器的数量、运行及修复方式，以及所有军力在整个作战系统中的互动，这个过程在生命健康中就是蛋白质组学。这个类比在一定程度上体现了蛋白质结构预测和蛋白质组学的关系。

第二，蛋白质组学的临床最新技术进展。

我一直以来都是从事临床蛋白质组研究，十几年前还很难将蛋白质组学技术应用在临床，因为当时蛋白质组学技术非常复杂，价格昂贵，距离临床应用尚有很长的路。

但最近几年，这个领域有了显著进步，多种新的技术可有效分析各类临床样品。

例如血清、血浆、尿液、眼泪、唾液等各种体液样本，以及活体组织、石蜡切片、细胞等固体样本，甚至像毛发、骨骼、牙齿、粪便等特殊组织样本都可以进行蛋白质组分析，且只需极小量样本就可进行蛋白质组分析。

图中这个案例的组织，直径是0.5毫米，上部90%以上都是白色石蜡，下面红色部分是仅肉眼可见的组织样本。

在这部分组织上，我们可以提取出足够量的样本进行多次高通量的蛋白质组分析。通过独特的压力循环技术，3小时能处理16个微量组织样品；从组织提取到进行质谱分析，只需要3个小时。

这是我们几个月前在Cell发表的关于Clinicalproteomics的Snapshot文章，总结了最新的针对各类临床样品的蛋白质组分析方法。

还有一个重要问题，蛋白质组分析的成本。

根据估算，年使用质谱测一个蛋白质的成本大约是3美金；而年测一个蛋白质的成本是0.1美金左右。

如果用在临床，经过更好地工业优化，使用质谱进行蛋白质检测的成本还会进一步降低。

有了高通量微量蛋白质组学技术，我们就有可能将AI纳入蛋白质组学驱动的精准医疗当中。

AI医疗的初衷是希望通过人工智能和医疗大数据来实现对疾病的早期预测、准确诊断、有效治疗、靶点发现、预后判断等。目前使用的医疗数据主要是临床数据、图像、文本分析，或简单的生化检测。

而组学数据正在兴起，因为组学可以得到微观世界分子的动态信息，其中蛋白质是最主要的靶点，几乎所有药物的靶点和效应分子都离不开蛋白质。我们在蛋白质组方面的进展会让我们加深对生命的理解。

上图来自于我们最近的一篇综述，AI医疗的核心驱动力是AI，还有临床数据、蛋白质组、转录组、基因组。蛋白质组从临床队列到样本到制备分析，整个流程会越来越容易，我们将产生越来越多的蛋白质组大数据。

所以我们提出“蛋白质组大数据”概念。蛋白质组大数据可以通过各种临床样本含有的蛋白质组的内容，和各种蛋白质的量，获取AI医疗以前无法获得的信息。

下面介绍一下蛋白质组在临床上的应用。

第一，甲状腺结节。甲状腺结节很常见，几乎一半成年人都有甲状腺结节，而这些绝大多数为良性。

如果出现甲状腺结节，一般都是通过B超、血液检测进行诊断，如果怀疑结节是恶性的，还需要做穿刺活检，判断组织的良恶性。

如果是恶性，就要通过手术切除，虽然这并不是很大的手术。但切除之后，病人需要终生服用人工激素。因为甲状腺是一个非常重要的器官，切除之后就无法分泌甲状腺素。

这其中有个关键问题，30%左右的甲状腺结节目前无法判断是良性还是恶性，因此患者通常有非常大的心理压力。压力之下，大多数人会选择甲状腺切除。但手术后却经常发现其实是良性结节，原本并不需要切除这么重要的器官。这是因为缺乏对甲状腺结节良恶性进行准确判断的方法。

美国有多项研究尝试使用基因测序方法，为这些无法判断的甲状腺结节作

进一步诊断，通常要测多个基因，其中包括DNA和RNA。

以上表格是目前市面上所有经过FDA批准的商业化试剂盒。经过第三方评估，发现这些检测灵敏度很高，接近百分之百，但特异性只有10%-52%，也就是被判断为恶性的结节，实际上有大约50%-90%是良性的，这就导致过度治疗，大量良性甲状腺结节被切除。

所以，我们就尝试开发基于蛋白质的甲状腺结节诊断系统。具体来说，我们将新加坡位患者的数据作为训练数据集。

首先这些患者的结节良恶性情况是已知的，利用这部分数据我们训练出了一个神经网络模型，这个模型最初包含了多个蛋白。

最后我们挑选出了19个蛋白质，在一个回顾性的临床队列中进行了验证，并在一个前瞻性的多中心临床队列中也做了验证，目前已医院参与到这项工作中。

该方法在回顾性与前瞻性的队列里面都能够达到比较好的效果，具有90%的准确率，尤其在特异性方面优于基因组的效果。我们正在通过更大规模的前瞻性的队列去验证、进一步优化这个基于蛋白质的AI模型，并正在开发可以在临床使用的试剂盒。

蛋白质组不仅仅可以用作诊断，还可以发现潜在的药物靶点，几乎所有的药物都是要以蛋白质作为靶点。

例如，我们在甲状腺癌中发现有一个特殊的亚型叫Hürthlecell亚型，目前的分子机理研究非常少，也没有特别有效的药物治疗。

目前仅知道这种肿瘤主要患者群体是老年女性，在显微镜下酸性染色比较强，但原因未知。我们的数据显示，在这一群特殊的肿瘤中，有个蛋白跟其它肿瘤是不一样的，其中有个蛋白都跟线粒体蛋白相关。

这些线粒体相关的蛋白，很多都是潜在药物的靶点，有可能用来开发针对这一特殊亚型肿瘤的新方法。

第二个案例是新冠诊断。绝大部分患者感染新冠之后，自身免疫力都可以将病毒消灭，核酸阳性患者只有很少的部分，其中约20%的阳性患者会出现重症和危重症。根据年的数据统计，占80%的轻症患者可以通过一般抗病毒治疗或隔离治愈，而占20%的重症患者，如果早期干预也可以转化为轻症。

但现在世界上还有很多国家的重症、危重症病人无法转好。重症诊断一般都是基于临床数据判断，也就是宏观世界的数据——病人呼吸急促、血氧饱和度非常低等。

当这些指征出现的时候，病人已经处于重症，治疗窗口期已经非常短，要进行紧急处理，如吸氧、上呼吸机等。

所以，我们试图在血液中找到一些分子，在患者演变为重症之前，通过AI进行鉴别诊断，通过分子的改变，提前预判重症，以期为每一位患者提供更加精准的治疗。

为此，我们在年收集了一些轻症患者、重症患者以及健康人群对照样本，将患者分为训练集和验证集。

我们在训练集中测量了蛋白，其中包含22个蛋白和7个代谢物，最终在训练集中AI达到了93.5%的准确度，有两个患者的预测结果和临床结果不符。其中一位70岁男性患者，临床是轻症，但模型认为他是重症，而我们发现，他在所有患者中年龄最大，所以这位男性的治疗方法也跟重症患者最相似。

而在验证集中的19位患者中，有3个患者跟临床诊断不相符，后来发现主要是因为患者复杂的病史情况。

其中，XG45这位患者临床判断为重症，但AI认为他是轻症，后来得知，这位患者入院前做了20多天各种的抗病毒治疗，所以入院时虽然临床表现为重症，但很快就康复出院。

另外一位患者XG22，临床症状是轻症，AI模型判断为重症，后来诊断发现有乙肝和糖尿病，是所有观察组中住院时间最长的一位。其他重症患者都已经出院，他还没有明显的好转，连续50多天检测都呈阳性。这位患者的微观世界数据表明，他的慢性疾病导致他的免疫系统与其他人都不一样，比重症患者对病毒清除能力更弱。

另外一个独立队列有十几位患者，其中3位患者与临床诊断不相符，后来发现不一定是我们错了，甚至我们微观世界的数据其实更加准确。

例如，X2-22这个患者是一位66岁的女性，她的分数是所有患者中最低的，比重症患者还要低，她在采血当天，血糖达到27.8，这是典型的高血糖危象。

我们通过蛋白质和代谢的分析，利用AI模型，准确找到了这位患者，未来如果我们有可能将这个方法在临床广泛使用，有可能让医生更加从容的应对类似患者。

除了对疾病诊断和预后进行判断之外，蛋白质组数据同时还可以提供分子通路信息，这些改变的通路里通常含有潜在的治疗靶点。

我们的文章发表之后，确实有很多临床研究针对其中一些潜在靶点，对新冠药物进行了开发。

此外，我们也做了新的研究，利用尿液做新冠诊断。一般我们认为尿液中没有蛋白，如果发现蛋白尿，一般认为是肾脏功能出了问题。

但这种观念是因为过去临床使用的一般的蛋白检测技术比较陈旧，而目前蛋白质谱技术可以发现正常尿液里有非常多的蛋白。为此，我们采集新冠和相应对照患者的血样和尿样，展开了更多蛋白质组学分析。

我们发现尿液里有多个蛋白，而同样的方法只能在血液中发现大约个蛋白，我们在血液中发现的蛋白，其实在尿液样本中绝大多数都可以测到，且分子量分布差不多，并不是只有小的蛋白才能进入尿液。

得到结果之后，我们再用机器学习预测，使用血蛋白和尿蛋白进行新冠轻重症鉴别，发现和目前使用血液检测蛋白的方法效果类似。

并且，重症患者尿蛋白模型的分数刚开始还比较高，康复期才逐渐下降。这说明尿蛋白也可以对新冠病情进行分类和预测。

此外，尿液中还可以发现很多细胞因子，一般通过抗体检测新冠重症患者，在细胞因子风暴数据中一般只测量十数个细胞因子。

用质谱检测可以测到多个细胞因子以及受体，我们发现一些新发现的细胞因子都与新冠有密切相关性，这些都是目前只能通过蛋白质谱检测到的。蛋白质谱可以让我们看到肉眼无法察觉的，但在微观世界中真实发生着的蛋白分子的一举一动。

最后介绍一下我们的新技术——蛋白质大数据。

大数据一定要有展示形式，大数据领域有一个基本的、适用于深度学习的大数据格式，叫做张量(Tensor)，即多维矩阵。各种大数据形式，包括文本、声音、图像都可以转化成Tensor。

那么蛋白质组数据能不能转化成Tensor？

我们最近将蛋白质转化为Tensor多维矩阵，这个矩阵可以转化为视频。

如图所示，每个像素就是某个蛋白质的一个多肽片段，平铺后可以得到一副有规律的图片，如果再放大就会发现每个像素之间像宇宙图像一样有一些间隔，每个间隔都是一个分子单位。

我们的微观世界蛋白质组就像宇宙一样，有大量信号，这些信号绝大部分都不是随机存在的，而是生物信号。

我们做了统计，45分钟内质谱机采集的像素点达到多亿个。我们也建立了一些针对蛋白质组tensor的计算流程，像TensorFlow一样，可以进行各种深度学习分析，用于疾病诊断、新靶点发现等。

西湖欧米是我们实验室的Spin-off，医院和社区合作，满足大家对健康及医疗的需求。虽然有很多宏观世界数据，但是微观世界分子运作数据极其匮乏。欧米工厂生产试剂盒、做样本制备，可以将各类临床样品转化为蛋白质组数据。在数据中心处理之后，AI可发现并总结规律，用于指导疾病诊疗。同时，也有望发现新的药物靶点，与制药公司合作，开发更好的治疗方法。

转载请注明：http://www.abuoumao.com/hykh/7385.html

上一篇文章：钳形表检测电力线路是否漏电

下一篇文章：没有了