优胜从选择开始,我们是您最好的选择!—— 中州期刊联盟(新乡市博翰文化传媒有限公司)
0373-5939925
2851259250@qq.com
我要检测 我要投稿 合法期刊查询
您的位置:网站首页 > 优秀论文 > 其他论文 > 正文

高分子材料基因组——高分子研发的新方法

作者:都仕 张宋奇 王立权 林嘉平 杜磊来源:《高分子学报》日期:2022-06-15人气:2906

新材料是高新科技和高端制造业发展的基石,而工业技术的不断发展对材料性能提出了越来越高的要求. 但是,新材料的研发往往滞后,无法及时满足应用要求. 为了加快材料研发,结合现有的实践经验,2011年,研究者提出了新的材料研发模式——材料基因组. 我国科技部于2015年启动了“材料基因工程关键技术与支撑平台”,重点扶持材料基因组的研究[1].

截至目前,材料科学研究先后经历了经验驱动、理论驱动、计算驱动和大数据驱动等4种范式,如图1所示[2]. 第一范式(经验科学) 是实验试错法的核心,它基于研究者在过去实验中所积累的经验开展研究工作. 第二范式(理论科学)则通过整理归纳过去经验来发现科学定律与理论,以此来解释新问题,发现新材料,是提高实验试错法效率的理论基础. 第三范式(计算科学)则利用计算机模拟原子或分子的微观状态,结合热力学和动力学理论获取宏观性能. 这种计算方法常用于研究实验上难以直观表征的领域,如观测原子、分子在量子尺度和介观尺度上的运动. 第四范式(数据驱动科学)则是由算法对大量数据进行智能分析并寻找数据间内在联系的研究方式. 与第二、第三范式不同,第四范式的任务是从已有实验数据出发,对未知的数据进行推断和预测. 这4种范式各具特点又紧密联系. 在它们共同作用下,各种新材料不断涌现,有力地支撑着科学技术的发展. 目前,以经验或理论为指导的实验试错法依旧是开发新材料的主要方式,它往往需要不断地尝试和反复实验来探索较为广阔的化学结构空间,从而导致漫长的材料研发周期. 而以第四范式为核心,辅以前3种范式的材料基因组将理论计算、数据库技术、人工智能和实验有机结合,在付诸实验前通过计算机“虚拟合成材料并表征材料性能”,从而达到提高新材料的研发速度,降低研发成本的目的.

  

Fig. 1  The four paradigms of science: empirical, theoretical, computational, and data-driven.


与实验试错法不同,材料基因组的研发模式通过“数据技术-理性设计-实验验证”有机结合,显著提高新材料研发效率. 其中,材料的理性设计是研发新材料的关键,也是研究者着重关注的领域. 相较于基于研究者经验和直觉的传统实验试错法,基于材料基因组思想的理性设计通过结合各种性能预测方法和仿真模拟,能更快速地探索更广阔的材料结构空间并以定量的方式比较不同材料的性能,从而无偏见地筛选出未曾被发现或被人忽视的结构. 基于材料基因组思想的理性设计和实验验证由3部分组成(如图2):(1)“基因”的定义:以一定的规则,将可能影响材料性能的因素定义为材料的“基因”,如组成高分子的化学基团和元素等. 通过“基因”编辑(即替换现有高分子的片段)或“基因”组合获得一系列“虚拟材料”. (2)性能预测与高通量筛选:创建基于实验或模拟数据的性能预测模型,对“基因”编辑或组合后的“虚拟材料”进行性能预测,并以特定的性能标准进行高通量筛选. (3)实验验证:合成所筛选出的“虚拟材料”,并通过性能表征验证筛选结果的可靠性.

  

Fig. 2  Procedures developed for the design and screening.


“基因”的定义与所研究的材料的特点紧密相连,是整个材料基因组的基础,“基因”的选择与后续合成的便宜性密切相关.性能预测与高通量筛选则是整个理性设计过程中的核心和关键. 对“虚拟材料”的高通量性能预测(表征)目前大致分为4种方法:(1)通过数据挖掘寻找能代理性能的特征量,或者通过机器学习构建预测模型. (2)发展多尺度的模拟方法,从分子结构出发预测材料性能. (3)基于新兴计算机技术,如GPU(图形处理器)和NPU(嵌入式神经网络处理器)提升运算能力,获得高通量模拟计算方法. (4)发展高通量实验技术,研发高通量实验设备,实现对材料的高通量合成和表征.

虽然目前已有很多成熟方法能够模拟特定尺度上材料的结构和性能,但由于材料在不同尺度上的关联并不明确,构建多尺度模拟方法仍然是一个巨大挑战. 高通量实验涵盖高通量制备技术和高通量表征技术,是对已有实验技术和表征手段加以改进和利用,实现一次性批量样品制备和一次性批量样品表征. 它不仅可以突破传统试错法研究框架,实现材料高效制备,而且可以短时间内获取大量实验样品并表征性能,为数据挖掘和机器学习提供数据支撑. 自1970年Hanak采用多成分拼接共溅射方法制备二元和三元超导材料后,高通量制备技术快速发展,但主要集中在金属领域[3]. 高通量制备需要配备高通量制备技术来快速分析大量样品,但高通量材料表征技术却发展相对困难. 本质上,高通量实验的进步根源在于开发出更先进实验技术和表征手段. 与高通量实验类似,高通量模拟的进步根源在于开发出更高算力的硬件和更高计算效率的软件. 4种方法中,基于数据挖掘寻找代理量的方法或基于机器学习创建预测模型的方法是当前实现性能预测和高通量筛选最为可行的方法.

材料基因组已经成功应用在高性能合金材料[4~7]、无机非金属材料[8~10]、有机小分子材料[11,12]等领域. 相较于金属、无机非金属和有机小分子材料,高分子材料具有更大、更复杂的材料参数空间,如高分子链构造、构型、构象和聚集、加工方式及加工条件等等. 这些因素都将对高分子材料的性能产生巨大影响,因此建立高分子材料的构效关系,提取决定其性能的“基因”将是更为困难的挑战,这一切制约了材料基因组在高分子材料领域的应用和发展.

本文将介绍性能预测方法之一——“通过数据挖掘寻找能代理性能的特征量或机器学习构建预测模型”在突破高分子复杂性对材料基因组约束,实现理性设计高分子材料上的进展. 本文分3部分,前两部分分别介绍利用代理量方法和机器学习模型筛选高分子材料的进展,最后探讨高分子材料基因组的主要发展方向和所面临的主要挑战.

1 利用代理量方法筛选高分子材料

从理论计算和模拟出发,直接构建材料结构和宏观性能之间的构效关系仍然是一个巨大的挑战. 基于此困境,提取能代表所需性能/性质的、可计算的微观或宏观特征量作为性能代理量,将无法通过理论计算获得准确值的宏观性能转化为可计算的代理量,并通过代理量的比较来筛选获得高性能高分子材料不失为一种合理的策略.

例如:随着工业不断发展,对高能量密度电容器的需求越来越旺盛,对电介质材料的性能要求也越来越高. 相较于陶瓷材料,高分子材料成本更低,柔韧性更好,已成为广泛使用的商用电介质材料. 然而,高分子材料的介电常数较小,仍有改进的空间. Ramprasad等用密度泛函理论(DFT)容易计算的高分子带隙替代难以计算的击穿电压和介电损耗,并以密度泛函微扰理论(DFPT)和等效介质理论计算获得的理论介电常数替换宏观介电常数,筛选高分子电介质材料 [13]. 他们提出了5步策略用于筛选介电材料结构:(1)构建组合化学空间:将高分子介电材料中常见的7种化学结构(NH、CO、C6H4、C4H2S、CS、O、CH2)作为“基因”,并以其中4个片段构建线性高分子链的重复单元. 通过改变每个片段所代表的“基因”并淘汰不合理的结构,最终获得包含267种候选结构. (2)筛选具有潜力的重复单元:利用DFT、DFPT和等效介质理论计算所有候选结构的能带隙和总介电常数. 以能带隙大于3 eV和总介电常数大于4 eV作为筛选条件,对所有候选结构进行筛选,获得了符合条件的“基因”组合. (3)结构/形态预测:通过USPEX (universal structure predictor evolutionary xtallography) 方法和熔融-淬火分子动力学模拟,预测了符合筛选条件的“基因”组合在低能量状态下的三维结构. (4)性能计算:再次利用DFT、DFPT和等效介质理论计算所有三维结构的能带隙、总介电常数、红外和X射线光谱. (5)合成和表征符合筛选条件的“基因”组合,并从高分子合成的便宜性角度反向指导筛选步骤. 凭借这5步策略,Ramprasad等最终筛选出3种有潜力的组合,分别为―NH―CO―NH―C6H4―、―CO―NH―CO―C6H4―和―NH―CS―NH―C6H4―. 然而,由于这3种组合在溶解性和薄膜加工性能上存在缺陷,直接将它们作为介电材料使用并不现实[14,15],因此,Ramprasad等合成了主链含有对应结构的聚硫脲[16]、聚脲、聚氨酯[17]和聚酰亚胺[18]. 通过实验合成和表征,他们发现其中2种优选结构的能量密度分别为9.3和15.77 J/cm3,是双轴向聚丙烯的2~3倍. 实验结果证实,通过计算代理量方法筛选获得具备应用潜力的新型储能高分子是可行的.

此外,Ramprasad等利用相同策略[19]:将改性聚乙烯重复单元看作由3个可变单元和1个CH2组成的结构,在7种主链掺杂嵌段“基因”(CH2, SiF2, SiCl2, GeF2, GeCl2, SnF2, SnCl2)中任选3种,嵌入到可变单元中,获得175个改性聚乙烯结构;通过DFT计算这些结构的能带隙和介电常数,最终筛选出了含SnF2或GeF2的、高介电性能的有机金属聚乙烯材料. 进一步的研究揭示,含锡高分子在高介电领域中具备应用潜力[20].

Zhu等开展了含硅芳炔树脂(PSA)方面的设计工作[21,22]. PSA具有优异的耐热性能和固化性能,可作为航空航天用复合材料基体[23~25]. 随着航空航天工业的发展,航空航天工业一方面要求树脂具有越来越高的力学、耐热等使用性能[26],另一方面又希望降低树脂的固化温度和后处理温度,以便于树脂的加工和复合材料的制备. 然而,材料不同性能之间往往存在复杂的关系. 例如:提高树脂的耐热性能往往也会提高加工温度和黏度,缩小加工窗口. 然而,实验试错法往往难以平衡这几方面相互矛盾的性能,全面提升树脂性能困难重重,付出的时间和费用成本都很大. Zhu等利用材料基因组的概念调和了高热稳定性和低固化能之间的矛盾,通过设计和筛选,获得了具有高热分解温度和低的固化放热焓的PSA[27]. 从合成路线出发,选取二氯二甲基硅烷和含芳香环的二炔为“基因”,通过“基因”组合产生了大量候选PSA结构,作为下一步筛选的化学结构空间(如图3). 采取两步法,对化学结构空间中的优选PSA结构进行筛选:(1)用树脂中最弱键的解离能(BDE)代理热分解性能,以Si―CH3中的硅碳键的BDE为阈值,通过DFT计算筛选出BDE大于阈值的候选PSA结构. (2)用分子连接指数法计算的零切黏度和以DFT计算得到的能带隙代理加工性能,以零切黏度小于0.5 Pa·s (树脂传递模塑工艺对黏度的要求)且能带隙最小为标准,筛选出命名为PSNP的最佳结构. 实验证实,PSNP固化树脂的5%热分解温度(Td5)为655 ℃,固化放热焓为241.9 J/g,基本达到设计目标.

  

Fig. 3  Screening approach for the rapid design of heat-resistant silicon-containing arylacetylene resins (Reprinted with permission from Ref.[27]; Copyright (2020) American Chemical Society).


除了固化放热焓,PSA韧性欠佳的缺点也限制了PSA的进一步应用[28].提高PSA的韧性将是PSA工程应用的关键. 共混作为一种常见的增韧手段,能简单快捷地提升脆性树脂的韧性,但增韧树脂的加入也势必会影响其它性能,通常很难获得令人满意的效果. 目前,共混改性的PSA树脂往往有着韧性提升不够显著或者耐热性能明显下降的问题[29,30].只有在提升韧性的同时尽可能减少对耐热性能的负面影响,才能使增韧树脂兼具高韧性和高耐热性. 基于此需求,Gao等提出了利用高性能热固性聚酰亚胺(PI)与PSA反应共混,从而增韧PSA树脂的设想,并根据材料基因组概念提出了设计筛选兼具高耐热性和高韧性的PI的新策略[31]. 根据PI结构的特点,Gao等将PI的原材料二酐和二胺作为2类“基因”,将多种二酐和二胺两两组合得到一系列候选PI结构. 此外,Gao等根据本体模量和剪切模量的比值(K/G)与韧性呈正相关的规律(如图4(a)),提出将K/G作为韧性的代理量. 利用分子连接指数法计算了所有PI结构的Td50K/G (如图4(b)和图4(c)),并将耐热性和韧性归一化处理后以1:1权重进行综合评价(如图4(d)),从中筛选出了评分最高的结构. 如图4(e),以评分最高的结构为主链,Gao等合成出了乙炔基封端的聚酰亚胺(ATPI),并PSA反应共混制备浇铸体. 相较于纯PSA树脂,引入30 wt%含量的ATPI可使PSA树脂的弯曲强度提升约164%,而Td5仅下降了约8%,基本达到设计目标,验证了Gao等筛选策略的可行性.

  

Fig. 4  (a) Plots of elongation at break (red circles) and flexural strength (blue squares) against K/G. Heat maps of (b) Td50 values, (c) K/G values, and (d) weighted-average values for various gene combinations. The colors from purple to red correspond to the values from low to high. In (d), the shadow rectangle circled by a black dotted line represents the screened ATPI. (e) Molecular structure of the screened ATPI. (Reprinted with permission from Ref.‍[31]; Copyright (2020) American Chemical Society).


除了设计用于增韧的PI树脂,张宋奇等还利用材料基因组概念提出了用于筛选耐热且易加工的热固性PI树脂材料的策略[32]:(1)从PoLyInfo数据库中收集化学结构,提取出柔性基元、刚性基元和反应基元. (2)利用DFT计算获得的化学键解离能和Mayer键级作为交联树脂耐热性能的代理量,利用MD模拟和分子连接指数法计算获得的松弛时间τrot和主链结构(即不包含封端剂)的零切黏度η(T)作为交联树脂加工性能的代理量. 以BDE和τrot作为柔性基元的筛选指标,以Mayer键级和η(T)作为刚性基元的筛选指标,分别对柔性基元和刚性基元进行筛选,获得优选的柔性基元和刚性基元. (3)将优选的柔性基元嵌入到二酐结构中获得新二酐,将反应基元和优选的刚性基元嵌入到胺与酸酐结构中获得新二胺和新封端剂. (4)将新二酐、新二胺组合得到新聚酰亚胺主链结构. (5)利用分子连接指数法计算获得的主链结构Td50作为交联树脂耐热性能的代理量,利用分子连接指数法计算的主链结构的η(T)和封端剂的η(T)分别作为筛选主链结构和封端剂时交联树脂加工性能的代理量,利用DFT计算获得的能带隙作为交联树脂反应活性的代理量. 以主链结构的Td50和主链结构的η(T)作为筛选指标对新主链结构进行筛选,获得优选PI主链结构. 以能带隙和封端剂的η(T)作为筛选指标对新封端剂进行筛选,获得优选封端剂. 通过代理量法的筛选,张宋奇[32]等获得了由萘环封端、主链含二甲基硅和炔基的优选PI结构. 此外,优选PI结构的MD模拟结果表明,优选PI中包含的刚性和柔性基元组合对树脂整体的耐热性能和加工性能都起到了增强作用.

表1所示为上述工作简单总结. 由表可见,代理量法的关键是挖掘出能替代宏观性能的且易于计算的合适代理量. 在使用代理量方法筛选高分子材料结构的过程中,所选代理量和目标性能之间关系的相关程度决定所计算的代理量在筛选过程中的参考价值. 相关性越高,代理量的计算越精确,代理量的参考价值越大,整个高分子材料基因组就越准确和完备. 因此,用代理量设计和筛选高分子材料的核心是寻找目标性能与各种微观物理量或某些宏观量之间的关系,从中选出最能代表目标性能且便于计算的代理量. 随着更多的宏观性能-代理量配对组合被发现,代理量筛选将在高分子材料领域得到更广泛的应用.

Table 1  Summary of calculating the key features method enhanced material genome approach.
ExampleKey pointsRef.
1Use band gap and dielectric constant that are calculated by DFT to represent dielectric properties.[13]
2Find the potential of organo-Ge and organo-Sn based polymers which are neglected.[19]
3Use bond dissociation energy and energy bandgap which are calculated by DFT to represent thermal properties and curing properties.[27]
4Use Td50 and K/G which are calculated by the molecular connectivity index to represent thermal properties and toughness.[31]
5Use Td50, energy bandgap, and viscosity that are calculated by the molecular connectivity index and DFT to represent thermal properties, reaction activity, and processability.[32]

2 利用机器学习模型筛选高分子材料

作为多门学科相互交叉结合的产物,高分子材料基因组不仅需要材料领域的科研人员,也需要信息学领域的研究人员参与. 作为信息学中的一个重要分支,机器学习试图从历史数据中挖掘潜在规律,并对未知数据进行预测、推断或分类,是满足材料基因组对预测性能和高通量筛选需求的另一途径[33]. 利用机器学习中多样的算法(如人工神经网络、决策树、最近邻算法等)对已知材料数据进行训练,即可构建出输入量(如简化分子线性输入规范(SMILES)、分子量和各种分子描述符等)与材料性能之间的定量构效关系(QSPR),即性能预测模型. 这些性能预测模型能够有效提高材料基因组中材料设计和筛选步骤的效率. 近10年来,关于机器学习在材料领域中应用的报道已超过2000篇[34]. 在材料领域中重要的分支——高分子材料领域中,已有不少研究者成功将机器学习应用于预测高分子材料的宏观性能[35~40]和微观性质[41,42].

虽然研究者已利用代理量法发掘不少具有潜力的新型高分子材料,但为了更快地获取高分子的带隙和介电常数,Ramprasad等基于DFT计算的带隙和介电常数,构建了通过输入高分子结构预测带隙和介电常数的机器学习模型[43]. 利用这个模型,避免了高代价的DFT计算,节省了时间,使更大介电高分子结构空间的探索成为可能:随着“基因”个数增加(从4增加到8,9)时,介电高分子结构空间将呈指数形式增加(理论上存在的化学结构从2401个增加到78个,79个),此时用DFT计算所有结构的性能是不切实际的,但利用机器学习建立的预测模型仍能在短时间内完成对结构空间中任意结构的性能预测. 为了更快获得最优结构,Ramprasad等还引入了用于搜索最优解的遗传算法. 遗传算法是模拟生物在自然选择和遗传变异下实现不断进化的算法[44]. Ramprasad等将预测模型作为性能预测工具,将遗传算法作为筛选工具,从多个随机的结构开始,先预测性能并筛选出较为优异的结构,运用遗传算法“遗传变异”出可能更优秀的结构,再对这些“遗传变异”出的结构进行性能预测、筛选和“遗传变异”的迭代(如图5(a)). 通过多次的“遗传变异”和筛选的迭代,Ramprasad等快速筛选出了含“基因”个数为8、9、10、11和12时各自的最佳“基因”组合(如图5(b)). 虽然这些最佳“基因”组合还有待进一步实验合成和表征,但根据Ramprasad等在之前工作的成功实例,这些新的“基因”组合仍有被关注和研究的价值.

  

Fig. 5  (a) The steps involved in the genetic algorithm (GA) approach leading to direct design of polymers. (b) The exponential increase in total polymer possibilities for increasing number of repeating blocks, and the simultaneous decrease in the percentage of points to be explored till success. Also shown are one optimal polymer each for each case for a target dielectric constant and bandgap of 5 and 5 eV, respectively. (Reprinted with permission from Ref.‍[43]; Copyright (2016) Nature Publishing Group).


在设计固态高分子电解质方面,Wang等提出了将粗粒化MD与机器学习结合的策略[45]. Wang等先将高分子的化学结构(全原子模型)转化为粗粒化模型(如图6中①→②),再通过粗粒化MD模拟计算当前模拟体系中Li离子传导率;接着,通过贝叶斯优化找出Li离子传导率更优的粗粒化模型. 利用这种“计算传导率-寻找更优模型”的循环迭代,最终获得性能最佳的粗粒化模拟体系及其对应的粗粒化参数(如图6中②→③). 相较于全原子MD模拟计算Li离子传导率,此策略所用的粗粒化MD模拟,不仅缩短了计算的时间,降低了计算代价,还巧妙地用多个可连续变化的粗粒化参数组代表高分子的化学结构,将离散的自变量(化学结构)转化为连续的自变量(如阴离子半径、离子间相互作用强度、离子与高分子间相互作用强度等),为引入贝叶斯优化寻找最佳结构提供了基础.以粗粒化MD模拟作为计算工具,以贝叶斯优化作为筛选工具,Wang等高效地探索了最佳Li离子电导率对应的各项参数. 虽然能将全原子模型转化为粗粒化模型,但是目前技术仍难以利用已知的粗粒化参数反向推导出对应的全原子模型(高分子的化学结构). 因此,受限于当前技术,Wang等的方法无法直接获得高Li离子电导率的固态高分子电介质材料结构,但这种策略下获得的最佳粗粒化参数仍然能间接为固态高分子电介质材料的结构设计和合成提供参考和借鉴.

  

Fig. 6  Illustration of the coarse-grained molecular dynamics―Bayesian optimization (CGMD-BO) framework. Materials design starts with the coarse-graining process to transform the conventional chemical species space to a continuous space composed of CG parameters (①→②). This space is then explored by BO-guided CGMD simulations in iterations to predict the relationships between the transport properties and the associated CG parameters (②→③). (Reprinted with permission from Ref.‍[45]; Copyright (2020) American Chemical Society).


Oyaizu等则在设计固态高分子电解质方面采取了更传统的机器学习策略[46]. 他们先从250篇文献中提取出导电锂离子固体高分子电解质数据,再利用高斯过程回归寻找已知数据中关键因素(如化学结构、组分比例和测试温度)与离子电导率之间的潜在关系,从而获得机器学习预测电导率的模型. 然而,由于高斯过程回归的计算代价较大,如何将包含高分子各项信息的2000个分子描述符转化为能正确反映高分子的特征信息且维度又尽可能小的输入向量成为训练机器学习模型的关键. Oyaizu等先利用门控图神经网络训练了一个从化学结构出发预测2000种分子描述符的分子识别模型,通过分子识别模型提取出能代表2000种分子描述符的32维向量,完成了将输入向量从2000维度降维至32维度的降维操作. 将此32维向量作为接下来高斯过程回归的输入值,通过大量数据的训练,最终建立了预测电导率的机器学习模型(图7). 以此模型为计算工具,对拟研究的所有高分子电介质进行电导率计算和筛选,Oyaizu等发现并证实:(1)由聚苯硫醚(PPS)衍生物和芳香族氧化剂组成的混合物能运输Li离子(>10-4 S/cm). (2)二甲基取代的PPS(PMPS)是一种同时具备高电导率、易加工性能和高玻璃化转变温度(Tg>150 ℃)等优异性能的高分子.传统认知表明,PPS是绝缘工程塑料,只有电荷转移复合物电介质的Tg应该尽可能低,才能使材料在应用条件下保持橡胶态. 然而,Oyaizu等提出了反传统认知的结论却得以证实,这表明在材料基因组中运用机器学习技术能够摆脱人类从经验上获得的偏见,更客观理性地探索材料结构空间,找出在研发过程中被忽视的新结构、新材料.

  

Fig. 7  Scheme for predicting properties of the solid polymer electrolytes by AI. Oyaizu pretrained graph neural net to predict 2000 molecular descriptors with only 32-dimensional vectors. And then the relationship between the composite information (32-dimensional vectors) and its conductivity was trained by a Gaussian process model. (Reprinted with permission from Ref.‍[46]; Copyright (2020) American Chemical Society).


环氧树脂因其巨大的商业价值而备受关注[47,48],但由于其多组分的特性和广泛的应用场景,往往需要反复尝试才有可能找到满足应用场景的最佳配方. 由此可见,材料基因组在环氧树脂领域极具发挥空间和商业价值. Tao等利用MD模拟了30个组分相同但配比不同的环氧树脂体系,以模拟计算获得的性能数据作为原始数据,训练反向传播神经网络,最终获得了通过输入组分比例预测环氧树脂Tg、杨氏模量E、极限抗拉强度UTS和伸长率δ的预测模型[49]. 运用此模型,Tao等获得了双酚A缩水甘油醚(DGEBA)/二氨基二苯甲烷四缩水甘油胺(TGDDM)/双氰胺(DICY)/4,4-二氨基二苯砜(DDS)/聚醚砜(PES)/聚醚酰亚胺(PEI)六组分的最佳比例,并发现了各组分对性能的影响规律:DDS比DICY更能提高ETgδ;TGDDM能保证高ETg和UTS,但仍需要DGEBA提供韧性;PES能显著增强韧性. 近期,Tao等用该策略,筛选出了同时具备优异力学性能和高自愈合效率的环氧配方[50],表明了这种策略的可拓展性和应用潜力.

高分子膜是膜分离领域被广泛研究和使用的材料[51]. 渗透性和选择性是分离膜最重要的两项性质,但经验表明两者相互矛盾,呈现负相关. 为了平衡渗透性和选择性,获得高渗透性和高选择性的气体分离高分子膜,Kumar等用分子指纹表示高分子化学组成和拓扑结构,利用搜集到的500~1000个不同气体(N2,O2,H2,He,CH4,CO2) 对不同高分子的渗透率数据,训练了高斯过程回归模型,架构起了高分子与其对不同气体的渗透率之间的关系[52]. 通过机器学习模型对高分子结构空间的探索(如图8(a)),Kumar等成功发现并合成了2种分离性能优异的新型PI材料(P4320902,P432095,如图8(b)). 气体分离实验表明,P4320902和P432095的CO2/CH4气体分离性能突破了现有材料的上限.

  

Fig. 8  (a) Polymer candidates for advanced CO2/CH4 gas transport performance identified through ML and their experimental performance. The predicted locations for two potential high-performance polymers are marked with colored crosses‍―‍the measured experimental values are denoted with colored dots. (b) Molecular structures of two potential high-performance polymers. (Reprinted with permission from Ref.[52]; Copyright (2020) American Association for the Advancement of Science).


Li等为了获得性能更优异的高分子燃料电池用高分子质子交换膜材料,从约2800篇关于磺化质子交换膜的报道中挖掘数据,记录或计算了描述磺化质子交换膜的各项特征(如亲水单体的比例、相对湿度、离子交换能力、测试温度、各类分子描述符等) [53]. 为了提高机器学习模型的泛化能力,用尽可能少的特征作为机器学习的输入,Li等删除特征中的冗余和噪声,并利用遗传算法改进的随机森林算法进行特征优化. 通过对模型的训练,他们建立了用于预测质子电导率、Td5、甲醇透过率和拉伸模量的性能预测模型和分类模型. 利用性能预测模型,他们探索了由166个亲水单体和175个疏水单体组合形成的化学结构空间,发现了2838个在80 ℃下整体性能超过Nafion 117的新型共聚物.

之后,Li等将研究焦点扩展到高分子过滤膜性能的预测和分类[54]. 从约2700篇关于高分子膜的文献中挖掘出了1895条用于机器学习的实验数据. 利用类似的策略,他们建立了用于预测高分子膜透水性、选择性和交换率的性能预测模型以及识别高分子膜分离能力的分类模型. 此外,他们发现将实验上的结构信息(例如孔隙率、厚度、接触角等等)作为特征输入能进一步提高性能预测模型的准确性. Li等的工作为开发新型高性能高分子膜提供了便利的工具.

Zubarev等提出了一种反向设计聚酯和聚碳酸酯的方法,即将高分子性能反向映射到高分子结构上形成一对多的映射方式,直接通过所需性能要求找到所有符合要求的高分子及其合成条件[55]. 他们以单体和引发剂作为一种节点,以催化剂和助催化剂作为另一种节点(如图9(a)),再以设计需求(单体转化率或分散性)为链接两种节点的“边”(如图9(b)),将实验合成条件和性能数据转化为“实验知识谱图”. 其中,单体和引发剂节点还包含初始单体浓度和初始单体/引发剂摩尔比数据(如图9(c)). 根据历史数据和经验,Zubarev等获得了35000种实验条件组合空间. 根据已知数据,将不满足单体转化率要求的实验条件组合的“边”设定为0(即淘汰),满足单体转化率要求的“边”设定为1(即保留),未知其单体转化率的“边”设定为0.5(即待定),利用node2vec和随机森林分类方法判断未知其单体转化率的实验条件组合是否应该保留,最终获得满足设计需求的实验条件组合. 相较于正向设计,这种逆向设计虽然不能预测高分子性能,但能直接给出满足设计需求且合成上可行的高分子,既减少了时间和计算成本,又规避了Ramprasad等遇到的最佳高分子合成困难的问题.

  

Fig. 9  Transformation of the "experiment knowledge graph" (eKG) into a network that links prediction via representation learning. (a) Simplified resource description framework (RDF) graph where the nodes of the experimental parameters (objects) are collapsed forming bundles and the categorical value of the measured property is treated as a subject. The same procedure applies to MC (shown) and Đ (not shown). (b) RDF triples are transformed into a bipartite graph, where nodes representing bundled experimental parameters (RDF objects) are directly connected to each other via a link; the value of the measured property (RDF subject) is assigned to the link as an attribute. (c) A RDF graph constructed from the relational database of the experimental parameters and outcomes (not shown). Continuous experimental parameters and measured properties are converted into categorical values via binning. Dashed outlines show the patterns of node collapse. (Reprinted with permission from Ref.[55]; Copyright (2020) American Chemical Society).


Zubarev等还探究了建立小数据预测模型的方法[56]:(1)将有限的原始数据反复分成训练集和测试集,获得10组训练集/测试集组合. (2)对每个组训练集进行50次有放回抽样,每个放回抽样集包含30个有效数据. (3)每个放回抽样集被用来训练10个包含聚类和回归模型的监督自组织映射模型(SUSI),每个SUSI都由随机的训练集数据初始化. (4)利用测试集对所有SUSI模型进行评价. (5)保留每一组训练集/测试集组合中最好的10个SUSI模型,将总共100个的SUSI模型作为一个大集合. (6)利用大集合预测新型高分子的Tg,并以所有模型预测值的平均值作为最终Tg的预测值. 通过这一策略Zubarev等只使用了23个PI实验数据就建立了能预测Tg的模型,并利用这一模型探索了由13个二胺和8个二酐(二酐和二胺皆出自23个PI结构)组成的PI结构空间,发现并合成了3种新型PI. 3种PI的Tg预测值(分别是273、311和335 °C)与Tg实际值(分别是282、281和331 °C)吻合较好.

表2为上述机器学习工作的简单总结. 由表可知,利用机器学习模型筛选高分子材料的方式主要分为2种:(1)与理论计算和模拟技术结合,对计算数据进行学习,用已训练完成的机器学习模型代替理论计算和模拟,将预测新材料性能所耗费的时间从几小时甚至数天(计算模拟所需时间)缩短至几秒甚至毫秒(运行模型代码所需时间)级别. (2)用可靠的实验数据训练机器学习模型,从而获得能直接预测材料宏观性能的机器学习模型.

Table 2  Summary of machine learning enhanced material genome approach.
ExampleKey pointsRef.
1The train set is calculated by DFT. However, bandgap and dielectric constant are predicted by the machine learning predictive model instead of DFT.[43]
2Integrate coarse-grained molecular dynamics with machine learning.[45]
3The chemical design screened by AI is contrary to the common sense of rubbery polymer electrolytes.[46]
4The train set is calculated by fully atomistic molecular dynamics simulation. However, the performance of epoxy resin is predicted by machine learning models instead of simulation.[49]
5Two of the most promising polymer membranes predicted by this machine learning model exceeded the upper bound for CO2/CH4 separation performance.[52]
6Find 2838 novel copolymers that have better overall performance than Nafion 117 for fully hydrated membranes at 80 ℃ by machine learning models.[53]
7Provide regression models to facilitate the development of advanced filtration membranes for public use.[54]
8Use machine learning models to predict polymerization experiments that are likely to produce materials with targeted properties rather than predict the properties of polymers.[55]
9Train machine learning models by small data.[56]

运用机器学习模型筛选高分子材料具有预测准确度高,预测过程方便快捷,方法泛用性强,无偏见等优点. 这些优势完美契合材料基因组对材料设计筛选过程中的需求. 想要获得可靠且准确的机器学习模型,必须依赖可靠、完备且庞大的数据,然而高分子的实验数据来源分散、测试参数各异、性能种类不完备,这导致研究者在所研究的高分子领域中有较大可能遇到可靠数据规模较小的不利情况. 由此可见,高分子数据质量参差不齐已成为机器学习方法在高分子材料基因组中应用的最大障碍. 目前,相关的研究往往需要研究者手动收集文献和公开数据库中的实验数据,当面对实验数据较为稀少的材料性能和材料类别时需要研究者运用DFT、MD模拟等方法计算大量该材料的理论数据,将其作为进一步机器学习的训练数据.

机器学习在高分子材料基因组中虽然已有个别应用,但整体上仍然停留在构建适用于高分子领域的机器学习阶段. 例如:Olsen等在已有的SMILES基础上开发了专为描述高分子结构的表达系统(BigSMILES) [35],Ponzoni等为探索高分子领域如何选择合适的特征作为模型的输入,分别使用特征选择法和特征学习法进行特征的选择并对预测断裂拉伸强度模型进行训练,最终发现两种方法相结合的预测模型效果最佳[38]. 此外,还有探索小数据机器学习的可行方案[56~58],追求更高准确性的机器学习预测模型[59~61]之类的基础性工作. 但是,大部分的研究并未继续深入,没有将通过机器学习预测模型筛选出的高分子结构付诸实验合成和验证. 相信在解决了阻碍应用的各种问题后(如数据质量、数据特征选择、机器学习算法选择、合成可行性等),机器学习必然会在高分子材料基因组中发挥重要的作用.

3 总结与展望

3.1 高分子材料基因组现状和挑战

在高分子领域,运用材料基因组设计筛选新型高分子材料仍然是前沿领域,有待科研人员进一步探索和完善. 随着理论和技术的进步,通过计算机提前预测高分子的各项性能已成为可能. 材料基因组合与高分子理论、计算模拟技术和基于数据驱动的人工智能等相结合,高通量设计筛选新型高分子材料的材料研发方式已取得初步成效. 特别是在面对2种或2种以上相互制约彼此矛盾的性能时,相较于传统实验试错法,基于材料基因组的高分子材料设计筛选在成本和时间上凸显优势.

高分子材料基因组仍然处于起步阶段,有很多问题亟待解决. 目前,在面对难以计算或预测的宏观性能时,往往用易于计算的特征量替代高代价的宏观性能计算,但这种策略在一定程度上降低了结果的准确性. 此外,虽然无论是第一性原理密度泛函理论还是分子动力学模拟,其计算代理量所消耗的时间都远小于实验合成、表征所需时间,但是当面对海量高分子代理量计算需求时,时间成本仍是限制研究者进一步探索更大化学结构空间的主要原因.

一旦机器学习预测模型训练完成,利用预测模型进行材料特征量或性能的预测是一条耗时短、结果准确的途径. 但这条途径中最大问题是如何为机器学习预测模型的训练提供来源可靠且数据量足够大的高质量数据集. 由于高分子材料的分子结构、聚集态结构、加工方式和测试条件的不同都将影响材料性能,而文献中的数据质量参差不齐,个别数据甚至存在空缺,因此用于机器学习的高分子材料性能数据库往往难以得到格式统一且量大、可靠的性能数据. 这种可靠数据的匮乏阻碍了机器学习模型准确性和泛化能力的提升.

此外,由于高分子材料基因组所能探索的结构空间远大于已有的实验合成经验空间,容易筛选出难以合成的高分子结构. 因此,在理性设计过程中,需要进一步考虑合成的便宜性,优化筛选条件并与已有的实验合成经验有机结合,或者创建基于机器学习的高分子合成路径预测方法,在筛选出高分子结构的同时预测合理的合成路径.

3.2 高分子材料基因组对高分子领域的反哺

高分子材料基因组不仅提出了高效的高分子材料研发新模式,而且对传统高分子科学的认知和材料基因组的扩展具备重要的意义.

在利用高分子材料基因组挖掘优秀新型材料的过程中,对筛选结果进行“基因分析”即可获得“基因”(通常为基团或原子)与宏观性能之间的关系. 这些或正相关、或负相关的关系既能充实高分子领域第一范式,提高实验试错法的效率,又能加深对高分子化学结构和宏观性能关系的认识.

除了对筛选结构“基因”分析外,机器学习本身也可能为我们带来新的认知. 在高分子材料基因组中,利用机器学习模型预测高分子性能本质上是一个以数学角度而非化学角度出发,以唯象的方式预测高分子性能的“黑匣子”. 这种“黑匣子”过程由于不受已有的高分子理论的束缚,最终可能筛选获得违背已有认知的“反常”高分子结构. 这些被筛选出的高性能“反常”结构有可能成为高分子理论新的突破口. 另一方面,利用物理学等专业知识对机器学习(特别是深度学习)的“黑匣子”过程进行解释性研究,理清“黑匣子”内部运作的因果关系,有助于理解性能变化的规律[62].

高分子材料基因组的发展不仅对高分子领域有重要意义,对于材料基因组这一新的材料研发模式也具备重要意义. 高分子领域具有众多金属、无机非金属和有机小分子领域没有的特征,如高分子链结构、链构象、多分散性、高分子结晶特征、高分子微相结构和亚稳态结构等,目前对高分子材料基因组的研究仍未达到能全面包含这些特性的阶段,因此进一步发展高分子材料基因组将有效拓展材料基因组的应用范围,是对现有材料基因组的有益补充和拓展.

3.3 高分子材料基因组的发展方向

根据当前材料基因组在高分子材料方面的发展情况,我们展望了未来的发展重点.

(1) 实现高通量实验:通过高通量实验一次性获得批量样品将是一条行之有效且极具潜力的筛选途径. 不同于利用计算机“虚拟合成与表征材料”的特征代理量筛选法和机器学习法,利用高通量实验设备在短时间内合成大批量的高分子,并利用高通量表征技术快速便捷地获得所有高分子性能数据的高通量实验法不仅能从数量庞大的高分子结构中筛选出符合性能要求的新型材料,而且能为机器学习提供大量可靠的实验数据. 高通量制备技术已在金属领域取得了系统性的发展,但在高分子领域还比较零散、不成体系. 目前,已报道的高通量高分子合成方法如自动并行合成器、微波合成器和喷墨打印机等. Ehm等成功利用商业化的自动并行合成器——平行压力反应器48(PPR48)实现烯烃聚合催化剂的高通量筛选[63]. Zhang等则成功利用自己设计的设备对甲基丙烯酸甲酯原子转移自由基聚合法催化体系的参数进行高通量筛选和优化[64]. 此外,Ducker等则利用微波多肽合成器高通量改性硅表面性质[65]. 相较于高通量制备技术,高通量的表征技术发展缓慢,如高通量成分与结构表征技术、高通量热力学表征技术、高通量力学表征技术、高通量光学表征技术等,但其作为高通量制备技术的配套技术,对于提高材料研发的整体效率意义重大.不同于高通量制备技术,高通量表征技术可以模糊材料的界限,应用于金属和无机非金属材料的高通量表征技术可以较为容易的拓展到高分子领域,因此高分子研究者可大力借鉴金属和无机非金属材料的高通量表征技术.

(2) 进一步发展特征量代替宏观性能的策略:一方面寻找更多能代理宏观性能的特征量,从而将更多宏观性能纳入高分子材料基因组的适用范围内,如耐溶剂性、耐磨性、抗冲击性、相容性等等;另一方面引入更快速、便捷的方法计算特征量,例如基团贡献法、分子连接指数法和机器学习等等.

(3) 进一步发展包含性能更广且预测更准确的高分子材料宏观性能机器学习预测模型:目前,机器学习预测模型往往只针对特定类型高分子的特定性能,而限制机器学习在高分子材料基因组中更广泛应用的是可靠数据的匮乏. 因此,通过建立完善规范的高分子材料性能数据库扩大有效数据量或发展利用小数据进行机器学习的策略,从而建立能预测更多性能且更准确的性能预测模型将是机器学习在高分子材料基因组中未来发展的方向.

(4) 发展基于机器学习高分子逆向设计策略:与正向设计将材料结构参数映射到性能上获得性能预测模型不同,逆向设计是将材料的性能映射到材料结构参数上获得逆向模型. 在实际的材料设计和工程应用环节,最重要的是满足工程对材料性能的要求. 因此,相较于正向设计,逆向设计作为从性能出发获得材料结构的面向性能的设计更适合于工程领域.


关键字:优秀论文

网络客服QQ: 沈编辑

投诉建议:0373-5939925    投诉建议QQ:

招聘合作:2851259250@qq.com (如您是期刊主编、文章高手,可通过邮件合作)

地址:河南省新乡市金穗大道东段266号中州期刊联盟 ICP备案号:豫ICP备2020036848

【免责声明】:中州期刊联盟所提供的信息资源如有侵权、违规,请及时告知。

版权所有:中州期刊联盟(新乡市博翰文化传媒有限公司)

关注”中州期刊联盟”公众号
了解论文写作全系列课程

核心期刊为何难发?

论文发表总嫌贵?

职院单位发核心?

扫描关注公众号

论文发表不再有疑惑

论文写作全系列课程

扫码了解更多

轻松写核心期刊论文

在线留言