徐路:化学的模糊性和人工智能与理论化学的融合—“深度云效/场效关系”十问十答研究数以百万计的不同结构的化学分子的性质和活性,是化学家的核心任务之一。由于目前的化学研究通常仍然是以实验为主,导致有很多人认为,至少与物理学相比,化学在很大程度上仍然是一门实验学科。长期以来,理论和计算化学家在探索分子的结构和性质的关系上进行了大量的尝试和努力。但是,在预测一般分子的性质/活性时,目前仍然缺少广泛适用的规律或规则。为了建立广泛预测各种分子的性质/活性的模型,近期,我校徐路教授与长江大学杨琴博士合作,基于人工智能、严格量子力学方法和大数据构建与分析,提出了深度云效关系 (Deep Electron Cloud-activity Relationships, DECAR)和深度场效关系(Deep Field-activity Relationships,DFAR)的概念和方法,在此基础上提出了构建由人工智能和大数据驱动的分子定量构效关系(Quantitative Structure-Activity Relationship, QSAR)系统的构想,在理论上有望实现对一般分子的各种性质的可靠预测,相关研究于近期在国际预刊印平台Research Square上公布。基于DECAR/DFAR方法,目前正在筹建“铜仁学院分子云效关系国际研究中心”,预期将进一步推动人工智能与计算化学的融合。为了进一步了解DECAR/DFAR的原理和前景,并揭示“铜仁学院分子深度云效关系国际研究中心”的工作前景,我们向徐路教授提出了10个相关问题,以下是谈话的整理材料。(1)问:什么是“深度云效/场效关系”(DECAR/DFAR)?答:简单说,就是基于精确密度泛函理论计算的大量分子的三维电子云或场数据,用深度神经网络学习和推断分子的性质或活性(图1)。DECAR/DFAR包括三个要素。第一,需要大量的分子实体(几千、几万乃至几百万,也可能达到我们计算资源的极限)和已知分子活性数据作为机器学习的对象;第二,要求用严格的量子力学方法(目前看来,密度泛函理论是合适的)计算分子的三维电子云密度(或相关的场数据),作为精确的分子结构描述符。第三,需要一个对上述大数据来说足够强大和灵活的机器学习方法或模型(目前看来,三维卷积深度神经网络是最合适的,如图1所示)。 图1 包括3个卷积层和池化层的深度云效/场效关系网络结构图(2)问:量子力学是关于化学学科的最基本理论之一,也是计算和解释分子性质的基本工具。为什么在DECAR/DFAR中还需要用到人工智能或机器学习方法?答:理论或计算化学的基础是量子力学,它在计算和解释分子性质上发挥了很大的作用。但是,我们在用量子力学研究分子的性质时还有很多不容易解决的问题。我想这可能和化学的“经验性”或“模糊性”有关,就是说量子力学常常是用来计算那些具有比较清晰、明确的物理作用/关系的那些分子性质,而很多我们感兴趣的化学性质,其实都是基于人们的经验或者实验观察的,比如说一个分子有没有抗癌、抗新冠病毒的活性?一个分子又有多大的毒性和致癌作用?毫无疑问,这些性质本质上都是由物理(包括化学)作用引起的,但是这些性质/活性却很难用准确清晰的物理作用/关系表达出来。这种“经验性”或“模糊性”,很大程度上又来自分子活性机制的复杂性和模糊性。例如,分子结构的种类不可胜数,其作用的靶标往往又是未知和不唯一的,其中涉及的物理(包括化学)作用往往是错综复杂的。我们认为,一般来说,量子力学是很难直接计算或者准确的解释这些具有“经验性”或“模糊性”的分子性质。所以,我们关于分子性质的经验或实验的结果,很难用直观统一的物理或化学规律进行准确的解释或说明。我们认为,正是由于上述这些分子性质的“经验性”或“模糊性”,如果想要统一的解释或预测这些性质,是离不开机器学习方法的,必须从已知的分子结构-性质关系的大量实例中进行学习和推测。所以,DECAR/DFAR本质上也是一种基于机器学习的QSAR。(3)问:据我所知,机器学习常常被认为是一个“黑匣子”,人们对它的主要批评是缺少可解释性。答:您谈到模型的可解释性,当然这非常重要。预测能力和可解释性是一个模型的两个方面,缺一不可。如果按照物理学的惯例和要求,无论是一个模型,还是一个规律或者规则,如果它本身不具有广泛的预测能力,那么基于它的解释,一定是近似的或者是模糊的(这么说可能显得有些激进)。一个显著的问题是,目前还没有能广泛用于预测分子性质的一般原理或规律。DECAR/DFAR看起来是很有希望实现这个目标的,我们认为,只有实现了广泛的预测,才可能得到更加准确的解释。(4)问:那么应该如何解释DECAR/DFAR的结果?答:实际上,对所有DECAR/DFAR的模型,我们有一个一般性的假设或解释,那就是“全局或局部的电子云/场的形状和分布,决定了一个分子的某种性质”。至于具体的性质和对应的形状、分布如何,这可以通过三维卷积的形状来解释和了解。我们的论文对此也有体现,还给出了解释三维卷积的一个方法(如图2所示)。 图2. 甜味分子和非甜味分子与第三层卷积核的最大相关系数(5) 问:同样是基于机器学习方法,DECAR/DFAR和传统的定量构效关系(QSAR)方法什么区别?答:从DECAR/DFAR的定义上可以看出,主要有三点不同。一是DECAR/DFAR要求的分子实体是越多越好,我们预计,随着数据的积累,几万、几十万甚至几百万个分子,都是有可能的。传统的QSAR大多是几十个、几百个分子的机器学习;二是它的分子描述符是比较精确的量子力学方法计算的三维电子云和相关场数据,这比传统的分子描述更加精确,信息量也更丰富(传统的分子描述符有几千种/类,但是其中的绝大多数都是近似的);最后,DECAR/DFAR还用到了三维卷积深度神经网络。当然现在也有QSAR研究用到了深度学习,但是真正基于大量的严格数据或精确描述符的深度学习,我们在文献中尚未发现。后面会提到,分子数据的积累只能是渐进的过程,在我们的第一篇DECAR/DFAR论文中,处理的分子数大约是3000个,考虑到数据被扩充了6倍,最后学习的数据量达到了18000个左右,每一个数据有800万个数据点(一般精度下)。可以预见,今后的数据量将会越来越大。(6)问:DECAR/DFAR有哪些潜在的优势?答:第一,只有充分考虑到分子结构的多样性,也只有通过学习足够大量的分子实体,才能广泛的预测各种分子的性质。一般来说,传统的QSAR是不能预测母体结构不同的分子的性质;第二,目前已经发展了至少几千种分子描述符,绝大多数都是近似和经验的。在机器学习领域有一句话叫“垃圾进,垃圾出”,这并不是说传统的分子表征方法没有价值(实际上它们在不同时期甚至直到目前,都发挥了一定作用。其中有些非常直观实用,而且大多数的传统分子描述符的计算都很方便快速),而是说这种近似的分子描述符,恐怕很难得出可靠和准确的模型和预测结果,至少对组成和结构差异很大的分子是这样的。我们知道分子的实际结构是非常复杂的,根据Hohenberg-Kohn定理,基态分子的三维电子云密度决定了它的一切性质。那么我们是否也可以说,只要量子计算的方法足够精确,三维电子云和场数据有可能是目前为止信息量最丰富、最准确的化学分子描述符(后面提到,一个不太大的分子的足够精度的电子云就包括了几百万乃至更多的数据点)。因此,根据Hohenberg-Kohn定理,DECAR/DFAR在理论上能够同时预测很多种分子性质(如果不是全部的话);第三个可能的优势来自人工智能和深度学习,深度学习已经在海量的图像、点云分类中大放异彩,而且它学习的有效数据越多,模型的预测效果也越好。那么,如果把电子云看作是分子结构的精确图像,DECAR/DFAR也非常有可能在化学领域获得这种成功。(7)问:按照您的说法,将需要计算几万、几十万甚至上百万种分子的电子云或场数据,这个计算代价会不会太大?或者说DECAR/DFAR在数据和计算上是不是真的可行呢?答:DECAR/DFAR的计算量确实很大,但是这个计算是很高效和高回报的。电子云或者场数据的计算,目前主要的计算量在于分子的结构优化和波函数计算。虽然计算时间(主要由分子大小和计算精度决定)比传统的描述符要多得多,但是因为百万分子的计算可以是并行的(在不同国家、研究机构、人员和计算机上并行计算),完全有可能比较快的完成和实现。为什么又说计算是高回报的呢?只要我们计算的电子云足够精确,对于同一个分子无需重新计算,这个分子数据就可用于其它性质的学习和推断,所以说,这些数据其实是可累积、可共享、可重复使用和高回报的。当然,每一个分子的电子云数据最少包括几百万个数据点(依赖于分子大小和精度而定),数以万计的分子数据对于深度学习来说,目前确实也是一个不小的计算负担。和计算电子云类似,深度学习也具有高回报和高利用率。首先网络是可以移植和更新的,训练好的网络还能用于更多分子数据的学习;其次,网络是可以在大范围内共享的。所以,深度学习的计算代价也是值得的。用越多的有效数据训练的网络越可靠和强大,因此需要花费更多的时间,也是完全合理的。最后,实际上深度学习的硬件尤其是GPU集群的更新速度是很快的,因此计算的问题是可以解决的。(8)问:“铜仁学院分子云效关系国际研究中心”将如何运行?答:数据积累和深度学习网络的更新和共享,都离不开国际合作(如图3所示)。第一, DECAR/DFAR需要用到大量的分子电子云/场数据。前面也提到,这应该在不同国家、研究团队、个人的服务器上并行计算完成,“铜仁学院分子云效关系国际研究中心”的一个作用就是用百度百科的方式(个人提供数据,学术界共同监督、审核、更新、注释和共享等),形成数以百万计的分子电子云、场数据的数据库,作为DECAR/DFAR深度学习的数据来源。第二,DECAR/DFAR深度学习的网络会在不同的研究者中间发生共享、移植和更新。与前面说的数据类似,我们也将提供这样一个交流和共享的学术平台。通俗的说,分子电子云、场的数据库,就好比一个巨大的化学分子的“图片库”,DECAR和DFAR的任务就是根据学习和预测这些海量“图片”的种类(分子活性)。 图3 正在筹建中的“铜仁学院分子深度云效关系国际研究中心”(9)问:那是否可以认为,DECAR/DFAR中的深度学习可以完全照搬目前图片识别领域中的深度学习技术?答:我想DECAR/DFAR对深度学习技术也提出了更高的要求和挑战。第一,我们知道在图像识别中,不论是图片、还是图片中要识别的物体,都是可以伸缩的(伸缩不影响物体的种类);但是我们知道化学分子的性质和它的尺寸、电子云的密度分布,都是有关的。也就是说,绝对不能认为几何上相似的两个分子(电子云)具有相同的化学性质。因此,分子的电子云(场)数据都是不能伸缩的。所以,在给定的电子云精度下,训练网络的数据的大小取决于其中最大的分子。训练好的网络在新的数据上的移植和推断,都需要考虑这个问题。第二,分子的三维旋转可能需要规模更大的数据扩充,每个分子的旋转和平移,理论上都可能产生无数个等价的数据。因此发展合理的数据扩充策略是非常有必要的,既要求考虑代表性和充分性,还要兼顾可行性,我们的论文对这个问题也做了一点探讨。对于非常复杂的分子或活性,发展对三维电子云旋转(平移)不变的计算操作或变换可能是必要的,这在目前还属于深度学习的研究前沿之一。第三,网络的训练问题。考虑到我们的数据非常大(对包括几十个原子的分子而言,中等精度的电子云可能就需要采集几百万个甚至几千万个数据点,这比目前绝大多数图像识别的数据都大得多,如图4),而且由于分子不能伸缩、同时彼此尺寸差异却很大,导致数据中可能会有冗余信息。因此,三维卷积深度神经网络在训练时遇到的梯度消失和过拟合等问题可能会更严重,这些都是深度学习的前沿和难点,还需要进一步探索和研究。 图4 D-葡萄糖的结构式和电子云图(10)问:您能否展望一下,DECAR/DFAR将来对于计算化学和化学信息学等领域会产生哪些实质性的贡献?答:这将是一个渐进的过程。随着大量的分子电子云(场数据)和相关活性数据的积累,我们相信,将会出现数以百计的基于大数据深度学习的网络,每一个网络就像一架人工智能机器一样,可以预测一种我们感兴趣的分子性质或活性。最后,考虑到著名的AlexNet网络已经学习并分类了1000类图像,将来会不会出现一个单一的网络,可以同时学习并预测一般分子的各种(几百或几千种)性质或活性?请拭目以待。 徐路,男,博士,铜仁学院材料与化学工程学院三级教授。毕业于湖南大学,师从俞汝勤院士。近期在铜仁学院筹建“分子深度云效关系国际研究平台”,旨在推动理论化学和人工智能的融合。长期从事化学计量学和化学信息学等相关研究。 杨琴,女,博士,现任长江大学物理与光电工程学院副教授。毕业于湖南大学,师从俞汝勤院士。长期从事化学计量学、代谢组学和光谱分析等研究。