优胜从选择开始,我们是您最好的选择!—— 中州期刊联盟(新乡市博翰文化传媒有限公司)
0373-5939925
2851259250@qq.com
我要检测 我要投稿 合法期刊查询
您的位置:网站首页 > 优秀论文 > 教育论文 > 正文

高分子材料大数据研究:共性基础、进展及挑战

作者:刘伦洋 丁芳 李云琦 来源:《高分子学报》日期:2022-06-15人气:3510

高分子材料成就了我们生活的方方面面,在提升人类生活的便易性,健康舒适,助力人类探索未知世界的同时,也成为全球人类可持续发展和环境保护的主要挑战之一. 高分子材料的机械热、光电声磁、分离、降解和加工性质是设计、生产和应用的聚焦内容,其柔性可设计的特征,有力地支撑着社会的多样化发展,对密切相关的组成、加工、结构及其性质关系的认识也在不断完善中. 在对高分子材料个性化、智能化生产和应用的驱动下,传统经验理论提供的定性指导模型渐不能满足,而对支撑给定性质实现材料逆设计的定量决策模型产生大量需求. 特别是人们对于给定目标性质实现对材料组成工艺精准定位“逆设计”的渴求,迫切需要对高分子材料多因素及其联系的定量化研究,即大数据研究,取得进展. 基于我们4年前对材料基因组学研究的梳理[1],本文将介绍对高分子材料大数据研究共性基础的进一步思考,综述近几年高分子材料大数据研究的代表性进展,探讨高分子材料大数据研究这一急速升温领域的前沿方向和当前面临的主要挑战.

1 材料大数据研究的共性基础

众所周知,人类探索未知世界存在4种认知范式,即以实验试错法为主的第一范式,以理论推理演绎为主的第二范式,以基于模型的计算模拟仿真为主的第三范式,和以数据驱动创新为主的第四范式. 这4种范式都可以产生基础可用的数据,在数据基础上建立联系形成可流通的信息,从信息流中梳理出一定条件下存在的模式形成知识,进一步凝练出法则(principle)从而获得智慧,即科学认知的DIKW (Data,Information,Knowledge,Wisdom)框架. 在该框架中,人类生活生产和研究长期汇集的基础科学数据逐步成为一种资源并可以较为广泛地公开共享,机器学习、人工智能、深度学习和大数据(注:这4个专业名词的内涵具有高度重叠的共同知识,但有不同的侧重,相互间联系仍在变化中)为代表的新兴理念和技术手段,正快速地发展并重塑着生产力和生活模式. 统计力学和贝叶斯统计学与多个学科交叉,先后形成了生物信息学、化学信息学和材料信息学3个前沿学科. 目前生物信息学发展的典型代表是AlphaFold2[2]的产生,在预测蛋白质序列到三维折叠结构的经典难题中已经部分超过人类专家. 化学信息学仍在快速发展中,对短程关联体系,小分子、力场和作用、化学语言的符号化和定量表达等的进展强有力地推动着对众多物理、化学、生物现象和过程的定量认识,其中近几年以人工智能驱动新药开发(即AI制药)而广为人知. 而材料信息学正处于急速膨胀阶段,个性化和智能制造正渗透到社会的方方面面,有力地支撑着全人类的可持续发展和未来美好生活愿景.

高分子材料的大数据研究是材料信息学的前沿核心内容,而材料信息学的研究存在如图1所示的共性框架,即组成-工艺-结构-性质-性能关系(CPSPPr),其中包含组成工艺决定结构,结构性质关系(QSAR/QSPR)以及性质性能关联三方面主要内容. 要实现精准可靠的“逆设计”,需要明确CPSPPr中的因果关系,部分或者能可靠外推的充分必要关系,而这几个要素及其内在可控因素实现定量可计算是首要任务. 下面将围绕这些因素展开:材料的组成量化了物质的种类即电子、原子、结构或功能基团、结构片段、分子、聚集体、相界面和部件种类及其配比分数,决定了体系的相互作用,相貌形态和成本. 相互作用用于定量描述材料体系的势能和动能,也包括表征、生产和应用中对外场的响应. 在25 ℃ (298.15 K),1.01×105 Pa的参考态下,1个热力学涨落能量单位与多种性质和响应能量存在如下等价关系,1 kBT = 1 RT/NA,4.11×10-21 J,4.11 pN·nm,9.83×10-22 Cal,0.0256 eV,9.408×10-4 Hartree,6.2×1012 Hz,48.4×104 nm,2.479 kJ·mol-1,0.593 kCal·mol-1,200 cm-1,该等价关系包含kB是Boltzmann因子,T是绝对温度(K),R是气体常数,NA是阿伏伽德罗常数,h是普朗克常数,C为真空光速. 其中,除常见能量单位焦耳J,卡路里Cal外,pN nm用于如单分子力谱测量键长变化或构象变化,电子伏特eV测量光电能量,Hartree是量子化学计算中的能量单位,赫兹Hz、nm和cm-1则从不同角度衡量探测波的能量. 该关系表明了从微观到宏观,相互作用在能量层面上对力、光电声磁、波和谱学的可探测信号可以实现统一. 对于高分子材料类的软物质,在高于25 ℃的环境中,低于1 kB(T=298.15 K)的能量扰动不会引起相态变化,或诱发临界现象. 材料不同尺度相互作用的定量计算可以基于量子化学、全原子和粗粒化力场、介观碰撞和耗散力、宏观连续介质固体和流体力学. 这些定量信息则来自不同时空尺度的实验、理论模型和计算方法的相互佐证和层级关联. 但在大数据研究中,不同尺度的相互作用则可被视为平等信息,从而可不受已有模型约束用于建立经验理论模型之外的关联关系. 材料的相态包含相图,相变或相转变,性质和结构特征等数据信息,是区分和刻画材料组分的本征属性. 成本是材料产业化的要素,包括原子经济、生产和应用的能源成本、生态成本和经济成本等.

  

Fig. 1  The common frame for the composition-process-structure-property- performance relationship (CPSPPr) and their key subterms (a). The general pattern for an attribute with distribution A, evolutes to a significantly different state with distribution D, through tailed distributions B and C (b).


在工艺方面,主要包含对配方组分的反应、分散和融合3类操作. 反应是化学键的变化,涉及物质本征属性改变,包括物质的合成、修饰改性、化学交联、降解等,常见的因素包括手性、异构、键生成断裂平衡、活性、选择性以及与反应关联的小分子产物,反应过程伴随的物质和能量扩散和传递的调节控制等. 分散是通过对体系助剂或能量输入,提升物相接触交换界面,使材料快速达到热力学平衡状态(一般是熵增过程),或者使物质分布达到具有特定分布结构的稳态状态. 融合主要是破坏或黏合热力学不相容表界面使体系成为整体,如表面活性剂、胶黏剂或者“锁-钥原理”实现结构锚定(药物筛选的原则之一)等. 这些工艺涉及较多人为经验性因素,易造成精细层面的可重复性低,对复杂、精密、长期或在极端条件服役的材料体系,在生产和应用之前一般会引入宏观尺度的计算机辅助设计/制造(CAD/CAM). 在实际CAD建模计算模拟仿真中,常常需要引入材料中组分的体相宏观性质,如密度、模量、泊松比以及可以描述物质相态的本构方程等[3~5],已有一些商业软件如Abaqus,Ansys,Comsol等.

性质分为组分、材料和器件性质,组分性质一般接近其本征性质,但在材料的多组分作用下,其性质可能发生大幅变化. 在高分子材料体系里,无论是从单体到聚合物,还是聚合物链的交联、共混等,材料性质都很难用组分性质直接或者加权平均近似[6]. 在器件性质层面,材料构成的本体结构和表面形貌都具有重要贡献. 小分子的流失、材料降解、表面形貌退化等化学或结构性变化都可能导致器件性质失效. 而材料在模拟或实际应用中的机械、热、光电声磁、分离、加工性能等则可以解析为多种性质在实际应用场景中给定阈值范围内的叠加,即材料性能通过一系列标准组合或依据第一、二和三范式的专家经验实现性质拆分.

不同于小分子、金属、无机非金属材料,利用大数据研究实现从性质到分子结构的“逆设计”已有不少成功报道[7~12],高分子材料则少有类似成功,主要障碍在于其结构的定量化,将在下一节单独介绍. 在材料大数据研究的这些共性因素中,通过一系列变量调控,可以使材料的性质发生显著变化. 由于高分子多分散性的特点,高分子材料在CPSPPr中各要素都存在分布,而调控这些分布往往通过图1的示意模式[1]. 即从某属性或性质的当前分布A,逐步产生小概率事件偏倚或分布外的离散事件形成拖尾分布B,进而通过持续条件演化对小概率事件和离散事件的富集产生拖尾分布C,进一步演化为平衡态或稳态分布D. 典型的例子是Ising模型中磁畴的变化,虽然单个磁子(spin)的取向是瞬时变化的,但在时间或磁场强度的连续变化中,总能观察到不同磁子取向的拖尾分布. 高分子材料常见的性质调控、结构控制、相变过程等的序参量分布演化都满足这个模式. 该模式用统计力学可表述为状态密度ρi = exp(-βEi)/Σexp(-βEi),某个性质Z可以通过加权平均得到Z = Σ(zi*ρi)/Σρi,其中β = 1/kBT. 该模式也可通过大数据方法核心的Bayes原理表达为


(1)

2 高分子材料结构定量数据其中,CPSMD分别代表组成、工艺、结构、表征生产应用条件和分布函数,x则代表组成工艺中的某一可控变量,{ }代表集合.分布函数D = {ρi} 可以是热力学平衡分布(高斯分布、玻尔兹曼分布等),也可以是偏倚分布(对数正态分布、帕累托分布、双指数分布、泊松分布等),或者是描述材料内部组成基元在正、倒空间(傅里叶变换)的分布. 性质Z可表述为在具有一定结构S和测试应用条件M下可由材料的组成C和加工成型工艺P改变,或者表述为材料在特定条件M下结构及其变化对外场响应而表达出性质Z. 结构S则可以表述为参考态的稳定分布D与该分布在演化条件中扰动量∂x的作用下变化的叠加. 在基于这种表达通式的大数据研究中,可以通过对实验、理论和计算模拟产生的特征进行组合或数学变换,将前3种范式认为无关的特征联合起来构建出新的特征维度,新的特征可能成为性质描述更好的代理量或强关联量,或更有效的演化条件,进而利于深入剖析高分子材料CPSPPr中的过程和机理.

一般地,材料结构的定义为组成基元的时空间分布,组成基元可以是电子、原子、离子、基团、分子片段、分子、聚集体、相区和器件单元,分布可以表达为笛卡尔坐标、极坐标、内坐标或傅里叶倒空间的基元丰度,或者场模型中的概率密度. 基元的属性和分布可以随时间发生变化,存在内部的热涨落或对外部的刺激响应,从而通过表征手段获得信号或表达出材料的不同性质. 结构是一系列探测手段与材料作用的谱学信号,而性质也是材料对外部的刺激响应结果. 因此,材料的定量结构活性/性质关系(QSAR/QSPR)在本质上是不同谱学信号的相互关联,当某些表征信号可以比较完备地描述性质时,该表征手段常被作为性质的代理量(surrogate). 如利用某种试剂盒的UV特征吸收表达物质的生物活性,用杨氏模量刻画材料的弹性,特定条件下的熔融指数衡量高分子材料的加工性,以及溶胀率表征材料的体积稳定性等. 因为结构可由组成和工艺共同决定,并通过物理、化学的知识阐明机理,因而结构性质关系常用结构特征建立性质的代理模型或代理量,从而用于理解、设计和调节控制材料的宏观性质.

从理论和计算模拟仿真角度来看,高分子材料的结构仅包括化学结构和聚集结构两方面. 化学结构用于区分组成物质的属性,其定量化是化学信息学研究的核心内容. 主要包含化学语言的定量描述,包括编码与解码,比较成熟的有SMILES (simplified molecular-input line-entry system)和InChI (international chemical identifier) 2套系统. 化学结构的图论和图特征表达这类有长久历史的方法也存在一定程度应用和发展[13,14]. 在此基础上,进一步通过分子指纹算法如Avalon、Daylight和开源RDKit库[15]等计算出组成基元的数量、键连接、键角、二面角、共轭面、拓扑和电荷、极性、排斥体积、氢键等加权平均的拓扑几何、物理、化学性质参数. 化学信息学的这些计算方法的目的是从不同角度得到化合物的唯一编码和性质数据,但对于具有多层次结构的高分子来说这并不简单[16],需要在整体覆盖尺度和细节分辨率之间权衡[17]. 由于高分子存在手性、异构、构象、拓扑结构和多聚体,多个单体化学键连接存在强协同效应等,使得高分子既不能像蛋白质中的二十余种保守氨基酸进行可以枚举成序列描述,又不能像小分子的SMILES可直接转换为数值向量. 因此,高分子化学结构的定量描述仍需要取得突破.

另一方面是精确力场的发展,受高通量药物和精准催化剂设计的驱动,经典的通用力场如CHARMM[18],AMBER,UFF[19],OPLS[20],MMFF[21]等已不能满足需求,大量的研究工作在通用力场基础上,针对特定一类分子体系,建立了力场修正,如ReaxFF系列[22],可迁移力场TAFFI[23]等. 对于高分子材料聚集结构的计算可分为粒子模型和场模型,前者将每个结构基元看作具有一定质量、性质和时空间排它占有的实体粒子,后者则描述结构基元在特定时空间的出现概率密度. 而计算模拟方法常见的有量子力学(quantum mechanics,QM),分子力学(molecular mechanism,MM),分子动力学(molecular dynamics,MD),蒙特卡洛(Monte Carlo,MC),耗散粒子动力学(dissipative particle dynamics,DPD),格子波尔兹曼(lattice Boltzmann,LB),密度泛函(density functional theory,DFT),自洽场(self-consistent field method,SCFT),相场模型(phase-field model,PFM)和有限元分析(finite element analysis,FEA)等. 这些计算方法涵盖了电子、原子、分子、聚集体、相区、表界面和宏观组件的多个尺度. 但是目前宏观尺度和场论的计算方法还无法定量分辨材料的精确化学结构差异,微观和介观的计算模拟数据难以和宏观性质形成充要关联,使“逆设计”陷入困境,这也是高分子材料多尺度计算长期未解决的难题.

该计算难题同样也存在高分子材料多尺度结构的实验表征中,特别是聚集结构的定量解析实现还需要长时间的努力. 化学结构、晶体结构或单分散结构通过X光衍射、NMR、冷冻电镜、小角散射等可以较准确解析,而在计算方面,除共聚或共混两相组装相图有较系统的定量数据外,实际材料至多有半定量数据. 常见的材料结构实验表征和计算方法的共性认识如图2所示. 结构的实验表征可分为组分、物相和微观结构三大类,包括化学、色谱、能谱、质谱和光谱分析等手段. 结构信息的获取包含材料样品、探测源、作用原理与信号3部分. 探测源的能量可以从伽玛射线、电子、中子、X射线、紫外可见红外/偏振、微波、剪切或周期力等,而这些探测源在与样品发生诸如透射、反射、折射、散射/衍射、吸收、荧光、共振和形变等作用后,结构表征信号可以探测到直接的强度或强度差、相位或相位差、微分或积分面积、水平或角度分辨等,从而产生了不同角度、不同原理的结构定量数据,即谱学信号. 在统计力学的框架中,理论上所有的谱学信号都可以通过量子化学计算获得,但由于高分子多尺度、多分散和长程关联的特性,量化计算的时空尺度和计算成本受限导致可用数据非常稀少. 目前机器学习对于小分子化合物的光谱预测已取得一定进展[24],IR[25],MS[26],NMR[27]等在已知条件下能够较为准确预测和谱图模式识别. 即使是对于较为复杂的X光吸收光谱(XAFS),通过神经网络算法结合图论已能达到高于90%可靠度的准确预测,对峰位的预测误差小于1 eV[28]. 可以预见,从国家大科学装置、仪器开发商到终端科研和检测人员,对高分子材料结构的定量数据一直都十分关注,大数据辅助结构定量数据的收集、分析和综合利用的进展报道将越来越多. 大数据与结构谱学分析深度结合,未来将继续向精细分辨、高通量快速分析,以及多尺度多角度结构数据的整合等方向发展.

  

Fig. 2  The general frame to acquire the structure information for polymer materials at different temporal and spatial scales, the detectors and interactions, popular experimental techniques and computational methods.



3 大数据研究的数据和算法进展

材料大数据研究的主要流程可参考综述文献[1],近4年来该研究领域蓬勃发展,算法和数据两方面都形成了一些新的趋势. 大数据研究的算法主要包括数据挖掘和机器学习两部分,前者侧重从文献报道、专利、书籍、标准等文本或图表中的信息批量提取,构建可机读、可批量计算的数据库或数据集,利用统计学呈现数据的完备性和代表性,当前的显著进展与自然语言处理(natural language processing,NLP)以及化学信息学对化学物质的编码和解码算法的研究前沿密切关联. 而机器学习侧重于对给定单一或多目标算法的优化,自扩展搜索空间和给定函数的快速收敛. 与之紧密相关的是人们对数据资源的认识加深,涌现了一大批长期积累的、由专家参与的数据整理建设,目前与高分子材料相关的一些代表性数据库或数据集列于表1中. 相比于4年前的综述调研[1],传统数据库的数据量,以及材料对应的物化性质等获得了大量扩充,数据的完备性进一步提升,如PoLyInfo (polymer.nims.go.jp/en/). 同时也看到,基于量化和力场准确计算的物化参数也急剧增加,填补过去大量材料物化性质缺失,如clogP,HOMO,LUMO等. 值得一提的是PubChem (pubchem.ncbi.nlm.nih.gov), Reaxys (www.‍reaxys.‍com),SciFinder (sso.‍cas.‍org),QM7/9[29]等数据库支撑了深度学习在小分子设计[30~33],反应合成[34~36]等领域的应用,同时也对高分子的合成和性质预测提供了应用基础.

Table 1  List of representative data resources for the big data study of polymer materials.

SourcesNameType
BookPolymers: a property database[37]Experimental

Handbook of polymers[38]Experimental

Properties of polymers[6]Experimental

Prediction of polymer properties[39]Experimental

Polymer synthesis: theory and practice[40]Experimental

Polymer handbook[41]Experimental

Phase equilibria and thermodynamic data of aqueous polymer solutions[42]Experimental
OnlinePoLyInfo (polymer.nims.go.jp/en)Experimental

CROW: polymer properties database (polymerdatabase.com)Experimental

Polymers: a property database (poly.chemnetbase.com)Experimental

CAMPUS plastics (campusplastics.com)Experimental

Landolt-Börnstein (materials.springer.com)Experimental

Polymer property predictor and database (NIST) (pppdb.uchicago.edu)Mixed

Khazana database (khazana.gatech.edu)Simulation

Identify database (www.ringgold.com/identify)Experimental


在机器学习的算法方面,如图3所示,增强学习[43,44]、主动学习[45]、深度神经网络等在近几年取得长足发展. 在传统的监督式和无监督式学习方法中,用于回归分析、分类算法、聚类和降维分析除了经典算法如随机森林(random forest, RF)[46]、逻辑回归(logistic regression)[47]、朴素贝叶斯(naive Bayes)[48]、支持向量机(support vector machine, SVM)[49]、K-means 聚类[50]、层次聚类(hierarchical clustering)[51]和主成分分析(principal component analysis, PCA)[52]等得到进一步的广泛应用外,一些新的算法也从提出快速地得到应用,多学科交叉促进材料研究模式变化的节奏随着信息高度流通明显加快. 对于缺少大量专家标记数据的应用场景,半监督式学习算法得到快速发展,包含自我训练[53]、协同训练[54]、直推式支持向量机[55]和图网络方法[56]等.

  

Fig. 3  List of representative machine learning and deep learning algorithms.


在强化学习算法方面,其原理类似于给定模型的计算模拟仿真,通过打分和惩罚函数在迭代反馈中优化,建立代理模型. 典型的强化学习算法有Q-learning方法(如深度Q-网络[57]Q值函数反向传播算法[57~59]、策略梯度方法[60]和信任区域策略优化[61])等. 这些算法与前述经典学习算法复合或定制用于特定场景,出现了主动学习、强化学习、迁移学习、多任务学习等一系列新的方法分支. 这些算法可以对已知人工数据点进行生成扩充[62~66],进而提升模型性能,同时也可助力高分子材料实现高通量实验和高通量表征[67],为高效构建高分子实验数据库提供了新思路[68]. 这方面感兴趣的读者可参考文献[69,70]等书籍了解更多原理和应用细节.

特别值得一提的是近几年深度学习对整个机器学习算法、人工智能和大数据从基础研究到生产应用都带来了极大的冲击. 人工智能自动编程,机器学习数据自动生成等的急速发展与深度学习算法的高速发展密切相关,在广泛应用的机器学习编程语言Python,R,Matlab的基础上,新产生了一些建模框架,如Pytorch,TensorFlow,MxNet等. 一些新的数据和工具包也形成了一定的流行度,如Hyperopt[71]和GPTune[72],COMBO[73]等. 也有一些经典的数据和算法项目得到持续发展,如早期DeepChem开源项目,包括MoleculeNet[74]有机分子的基准和训练数据集,面向化学和材料数据的建模软件ChemML[75],以及面向QSPR/QSAR的自动化工具TPOT[76], auto-sklearn等[77~80]. 但这些数据和工具包很少考虑高分子的应用场景,主要原因是数据集较小,缺少基准数据,数据不确定性高或歧义较多等. 在算法方面,迄今得到广泛使用的深度学习算法包括循环神经网络(RNN)[81],变分自动编码器(VAE)[82],生成对抗网络(GAN)[83]等. 这些算法在高分子材料领域已得到一定的应用并表现出巨大潜力. 如Chen等利用RNN对基于SMILES准确预测了高分子的玻璃化转变温度(Tg)[84]. Batra等[85]利用VAE结合高斯过程回归(GPR)模型发现了预期在高温、高电场极端条件下具有潜在使用价值的新聚合物. Hiraide等开发了一个逆向设计框架GAN算法,对一类具有共性结构的高分子材料实现了从杨氏模量到化学结构的“逆设计”[86].

4 高分子材料大数据研究的代表性进展

4.1 进展分类

高分子材料大数据研究是材料基因组学或材料信息学中极具挑战的重要课题,当前阶段材料基因组学强调高通量计算、高通量表征和高通量制备及数据共享,但高通量对于高分子材料实现起来存在诸多困难,源于高分子材料多分散和多尺度关联等特性. 另一方面,以核酸、蛋白、多糖、多酚和小分子为主要研究对象的生物信息学最先发展成型,这类体系的组成单元收敛可枚举,多分散性效应不明显. 近年来仍在高速发展的化学信息学,聚焦化学语言数值化、微观结构多角度精确计量等极大地促进了材料信息学的发展,特别是在小尺寸强关联体系用化学信息学方法可直接指导材料的“逆设计”.

为了系统地介绍近几年高分子材料大数据研究的代表性进展,在CPSPPr中,主要按材料应用性质分类,包含新型高分子合成与自组装、机械热性质、光电声磁性质、分离性质等材料分类. 在大数据计算方法、数据集,以及计算预测与实验验证迭代的方法和思路的进展也将融合到这些具体材料分类中. 整体来说,得益于化学信息学对物质化学属性和近程作用的精确刻画,光电声磁功能高分子材料的大数据研究已取得可媲美金属合金、无机非金属材料方面的成功应用,但其他性质的高分子材料大数据研究还缺乏能够推动行业研究和生产模式发生改变的显著成果. 在组成工艺决定结构、结构性质关系(QSPR/QSAR)以及性质性能3类主要关系中,结构性质关系研究较多,而结构多数限于化学结构,对高分子材料聚集结构的关联关系研究报道非常少见. 高分子材料大数据研究的实际应用如配方工艺优化、材料新性质发现,以及材料组成工艺决定结构的基础研究这些方面的报道也较少. 下面我们将围绕材料性质分类对近几年的代表性进展进行简要回顾介绍.

4.2 高分子合成与自组装

高分子合成的大数据研究主要集中在催化剂设计、聚合反应中的物料配比投料、小分子和热量管理,产物的自动分离表征和实验方案协同调整等方面. Cooper小组开发出一种合成机器人,能够使用机器学习算法对实验迭代改进,实现目标光催化剂的精准合成[87]. 但对高分子合成而言,聚合反应及后续产物表征比小分子或无机非金属材料要复杂得多,Chen等[88]开发了依赖机器学习的聚合规划平台来应对这一挑战,从化学组成、分子量和分子量分布3个维度优化了通过自由基聚合反应得到的高分子产物. 在机器学习与化学合成数值计算结合方面,Yaron等[89]使用深度强化学习技术来预测原子转移自由基聚合(ATRP)中聚合物的分子量分布形状,通过实时预测与反应物料添加控制实现闭环反馈,从而可以得到具有精准目标分子量分布,如具有高斯分布或双峰分布的高分子产物.

在高分子的自组装相图预测方面,Fredrickson等将SCFT解析中的Hamiltonian函数引入神经网络的打分函数,极大地促进了函数解析的收敛速度,通过深度学习建立了密度分布函数鞍点对高分子结构和组成参数的依赖性,实现了自组装相图的快速计算[90]. 林嘉平等通过组成和作用空间的网格细化,结合主动学习对SCFT计算相区边界的快速定位,提升了自组装相区的识别精度[91]. Shen等则借助机器学习与相场模型计算的结合,对聚偏氟依稀PVDF复合物的介电、导电和杨氏模量进行了预测[92],丰富了对CPSPPr中微观结构和相界面的认识,提升了具有特定微结构高分子新材料的设计能力.

4.3 机械热性质

由于高分子材料一般随温度升高经历玻璃化转变温度(Tg)和熔点(Tm)区间可表现为玻璃态塑料、高弹态橡胶和黏流态熔体,其机械性质发生明显改变. 因此,无论是高分子均聚物、共聚物、共混体系还是复合材料,其机械和热性质是密不可分的. 在热性质方面,常被看作高分子本征性质的TgTm以及结晶、玻璃化转变热焓等与高分子的化学、立构和拓扑结构密切相关,也是机器学习长期关注的预测目标. 在机械性质方面,主要包括杨氏模量、拉伸模量、损耗角(tanδ)等源于高分子材料形变中的应力-应变关系既是理论计算方法,即本构模型关注的重点,也因其非线性、非单调性等特点成为机器学习挑战的难题.

对高分子的TgTm的机器学习预测已经有较长的研究历史. 早期的流行方法是通过van Kervelen提出的基于基团加和性方法来预测[37],该方法的预测值只能提供定性参考. 之后Bicerano[39]引入了一系列物理描述符,包括原子或键连接指数,原子间相互作用等构建了高分子Tg相关因素和关联关系的物理模型. 近年来,Liu和Cao[93]从DFT计算获得的4个物理量(极化率、轨道能、热能和熵)作为特征,进而利用机器学习算法构建了Tg的较为准确预测模型. Joyce等[94]提出了一种基于单体SMILES本征性质通过层级神经网络算法来预测Tg,Ramprasad等利用主动学习结合GPR[95]对已知聚合物的Tg进行了准确预测. 毫不夸张地说,从早期的自由体积概念解释Tg[96],到现在利用多因素的机器学习定量预测,玻璃化转变温度Tg的预测已然成为高分子材料建立大数据研究方法的“试金石”.

通过拉伸曲线和动态力学曲线(DMTA)可以得到材料杨氏模量、屈服模量、韧度、断裂伸长率和能量耗散等重要力学性质参数,由于这些量与材料多尺度多因素相关,可用机器学习来建立定量的组成与性质联系. Jin等[97]利用机器学习优化环氧树脂的组成,针对杨氏模量、拉伸强度、断裂伸长率和Tg 4个性质同时优化得到高性能树脂. 在复合材料方面,Kopal等[98]使用神经网络准确预测了炭黑含量对橡胶应力-应变曲线的影响规律,Le等[99,100]应用高斯过程回归预测拉伸强度,应用神经网络预测了复合材料杨氏模量对碳纳米管量的依赖关系. 对于DMTA曲线,Kopal等[101]采用神经网络算法对热塑性聚氨酯建立了指导性定量模型,Jordan等[102]使用神经网络模型定量描述了聚丙烯的温度依赖性和应变速率的依赖性. 这些研究虽然实现了给定机械热性质的准确预测,但“黑盒子”神经网络模型的低可解释性,无法给出目标性质的可实施调控方案而一直饱受诟病.

一种变通的路线是将机器学习与计算模拟或本构方程结合起来. 例如:钱虎军等[103]利用SVM结合MD模拟研究了高分子材料在Tg附近的形变过程,揭示了应变局域化(strain localization)对断裂失效的重要贡献. Menon等[104]利用层次机器学习结合Monte Carlo模拟链构象及统计力学性质,对聚氨酯弹性体的断裂强度,断裂应变和tanδ进行了准确预测. Zhang等[105]利用随机森林(RF)与MD模拟结合,构建了聚脲化学结构与有限元分析FEA的定量关联,从而为拓展聚酯类软-硬嵌段共聚物材料的力学性质提供参考. Ghaderi等[106]将三维应力-应变张量映射约化到一维并建立了可靠代理模型,相较于传统本构模型在计算速度和精度体现出显著优势. Chung等[107]通过构建神经网络本构模型普适性地描述了聚苯乙烯(PS)在不同加载条件下(包括单向、双轴和三轴的拉伸,压缩和剪切)的应力-应变关系. 张立群等借助大数据分析了85种本构模型对无填充橡胶和高填充橡胶拉伸曲线的准确度[108]. 我们在对聚氨酯弹性体力学性能大数据研究中,对本构模型的描述曲线的定量特征、相互等价性及其对聚氨酯弹性体大量拉伸曲线的定量解释度进行了严格论证[109,110],同时也对ABS树脂的模量、强度和断裂伸长率的可加和性进行了验证,发现断裂伸长率在不同组合下部分不满足加和性[111]. 虽然经历长期的研究和众多努力,由于机械热性质的耦合与多尺度结构变化密切相关,无先验模型直接预测高分子材料的机械热性质仍然极具挑战.

4.4 光电声磁性质

由于光电声磁性质往往是通过几个纳米尺度以内官能团的相互作用体现,即使是包含聚集荧光猝灭(ACQ)、聚集诱导发光(AIE)等前沿究热点,近程相互作用保障了其性质的信号或代理量可以利用化学信息学方法较为准确地计算和预测. 这类性质预测的核心是将机器学习与高通量第一性原理计算相结合,据此来设计具有特定光电声磁性质的高分子材料已有不少报道. 部分代表性工作包括Lu等[112]立足于第一性原理数据库,构建了共轭聚电解质的HOMO/LUMO及其带隙(Eg)的准确预测模型. Ramprasad等[113]在高分子基因组项目(polymer genome)的支持下,对聚合物及其复合材料的介电性质、绝缘性质、超级电容和静电储能等性质进行了准确预测,并推进了新材料的生产应用. 南策文等[114]开发了反向传播神经网络增强的相场模型来模拟聚合物纳米复合材料的介电响应、电荷传输和击穿过程,对电容等储能材料性能进行可靠的虚拟评估,减少材料研发中的试错. 一系列的聚合物特性包含带隙、介电常数、原子化能和溶解度参数、浊点等,也可使用机器学习实现准确预测. 例如:高分子折射率QSPR的多元线性模型揭示了sp2杂化碳原子的重要贡献[115],该思路启发了高导热新型聚合物的设计[116].

在高分子光伏材料方面,Saeki等[117]基于RF预测模型,对聚合物和非富勒烯小分子受体有机光伏性质预测达到85%置信度,进而对二十余万个虚拟共轭聚合物进行了高通量筛选,筛选出候选的苯并二噻吩和噻唑并噻唑的系列共轭聚合物,进而得到实验验证. Min等[118]基于565个供体/非富勒烯受体(D/A)组合,发现随机森林模型在LR、MLR、BRT、RF、ANN 5种常用机器学习算法表现最好,为共轭聚合物光伏性能预测算法和指导有机光伏材料设计制备提供了可靠参考. Ohuchi等[119]应用自组织映射的无监督机器学习结合分子描述符成功建立了分子化学结构与有机光伏材料的功率转换效率(PCE)的代理模型. Sun等[120]引入图论、字符串、描述符和指纹来表示高分子的化学结构,发现长度超过1000位的特征可以应用多种机器学习算法对PCE实现高准确度稳定预测. 在与模拟仿真的结合中,Pablo等[121]通过将监督式机器学习算法聚焦光电效率的哈密顿量,通过聚合物的构象集合对非晶和多分散共轭材料中电子结构的计算提供了可靠预测,其计算效率和准确性明显优于已报道方法,为拓展柔性非共轭聚合物光伏材料的高通量设计提供了成功范例.

4.5 分离性质预测

高分子材料在物质分离领域具有广泛而重要的应用. 物质分离主要有相变(如蒸馏、升华、沉淀、结晶等)、色谱(气相色谱、液相色谱等)、分配吸附(萃取、层析)、尺寸或密度差(过滤、离心等)、离子交换和膜分离等方法. 在此聚焦聚合物分离膜方面,按应用场景可分为气体、水处理、离子膜、能源膜和有机分离膜等,按分离物质尺寸可分为微滤、超滤、纳滤、渗透膜、膜蒸馏、膜萃取等,膜的组成、微结构和表面是性能调控的核心因素. 而分离膜的性能指标包含驱动力种类和能耗、通量、选择性、抗污能力、稳定性、循环稳定性等因素,分离物质需要考虑分配比、尺寸比、极性、静电力、氢键、条件响应性等,聚合物膜的组成、制备工艺和使用条件都会对膜性能产生重要影响. 因此,利用大数据研究聚合物分离膜的CPSPPr具有独特的优势. 我们通过对聚合物质子交换膜(PEM)的CPSPPr的开展了一系列大数据研究,包括温度、水含量、复合材料对全氟磺酸(PFSA)膜[122~126],以及碳氢磺酸膜的结构、性质以及膜电极性能的极化曲线[127,128],为设计和制备质子交换膜燃料电池(PEMFC)的核心膜材料提供了可靠参考和虚拟实验设计工具. 与此同时,对包括聚砜(PSF)、聚醚砜(PES)和聚偏氟乙烯(PVDF)基材的超滤、微滤和纳滤膜的性能进行了可靠预测和等级分类,并开发了相应的软件包PolySML(发布在polysml.github.io)来实现计算机辅助材料设计[129]. 基于这些研究,提出了Lsig值方法的特征信息量、信息冗余和预测模型可靠性的一致性判据,该方法对于各类高分子材料的大数据研究具有通用性.

在全世界可持续发展,我国的“碳达峰,碳中和”等的政策趋势引导下,气体分离膜材料的大数据研究呈现出爆发式增长. 模型气体分离对包含CH4/CO2,CO2/N2,O2/N2等也过渡到较难的分离如多组分混合气体、C1~C4混合气和烯烃烷烃混合气等,经典的材料体系分子筛、多酸和MOF等仍占主流,高分子材料则聚焦在聚酰亚胺、芳纶、聚硅烷等对气体具有不同渗透系数的致密膜材料. 利用刚性聚合物或自具微孔聚合物(PIM)制备气体分离膜成为前沿热点,Kumar等[130]基于聚合物单体的拓扑结构,利用基于路径的特征法训练了高斯过程回归算法,高通量筛选了万余种均聚物的气体分离行为,并合成了两种最具潜力的聚合物,发现它们超越了CO2/CH4分离性能的Robeson上限. Lively等[131]利用分子指纹将聚合物结构表征作为机器学习算法的输入,建立了高精度的聚合物膜透气性预测模型,该模型对不同官能团的聚合物基材的膜气体分离性质进行了可靠预测.

在能源膜领域,伴随着锂离子电池快速增长的巨大市场,聚合物锂离子隔膜的研究也大量地丰富起来. Oyaizu等[132]构建了迄今最大的锂导电固体聚合物电解质数据库(含约104个样本),利用迁移学习的图神经网络准确预测这些电解质的电导率,平均绝对误差小于1 S/cm. Ganesan等[133]将粗粒化分子动力学模拟和贝叶斯优化结合同时预测了离子电导率和粘度两个目标,给出了锂离子电池中离子传输和机械性质的权衡关系. Grossman 等[134]利用类似的粗粒化分子动力学模拟与机器学习结合,在物理描述符的高维空间剖析了锂电导率与材料本征性质的关系,为改进电解质配方提供了参考. Seshadri等[135]则为锂离子电池的电解质创建了图形化的交互式数据平台,支持材料筛选和性质设计,为计算辅助设计提供了虚拟实验平台.

聚合物分离膜的大数据研究在近几年被密集报道,值得一提的还有Razmjou等[136]利用神经网络和贝叶斯正则化算法对超滤纳米复合膜的性能预测,He等[137]利用深度学习对阴离子交换膜的OH-电导率预测等. 而MOF方面继续取得显著进展,Snurr等[138]利用机器学习和分子指纹设计了新的MOF材料,使手性小分子的分离效率提升到85%. 契合2021年诺贝尔化学奖对手性反应的支持,手性物质分离迅速成为当前的研究热点,但相应的高分子分离膜设计和制备充满挑战,大数据研究正助力该难题的解决.

5 难题与挑战

如前所述,建立高分子材料的定量CPSPPr是大数据研究的核心,在数学本质上是谱学数据的预测. 目前基于量化计算对小分子的多尺度谱学数据已能较为准确的计算和预测,对于多分散系数趋近于1的体系如蛋白、核酸等其结构和生物活性利用生物信息学的一体化建模(information-driven integrative modeling)已经能够提供可与人类专家媲美的准确预测. 蛋白与核酸结构定量化的成功与PDB的长期建设密不可分,但对于高分子,由于其二面角旋转位垒与热涨落能量1 kBT相当,并缺少蛋白和核酸分子中的密集氢键约束,高分子材料的结构数据不能够用原子坐标的办法直接描述,需要更复杂的构象集合来表示,但目前还缺少公认可靠高效的概念和框架. 在实际的高分子材料体系,往往还包括一定量的复合成分、添加剂或助剂,这些物质分布广泛,小分子可用的比如SMILES定量描述系统失效,而高分子自带的手性、支化、成环、长程作用的芳环堆砌、静电作用等对构象、聚集和性质的影响规律往往还依赖计算模拟近似分析,缺少可迁移利用的基础定量数据. 总的来说,对于具有典型的多分散、局域精度高和大尺度准确、存在非线性、非单调性累积协同效应的高分子材料体系,从近程作用化学异构和拓扑结构的化学信息学定量描述到跨尺度关联,大数据研究仍面临权衡. 这些问题在传统研究中长期存在,常见表述为临界现象、相变和相转变、标度行为、多级弛豫等概念模型. 理论模型中会采用了多种近似,如假定结构分布在平均场背景中、或假定高分子链长或拓扑结构满足高斯分布、或假定物质聚集可用随机相近似(random phase approximation,RPA),或假定结构和性质关系在多层次具有自相似性(self similarity),或在临界点附近如图1所示拖尾分布存在标度关系指数分布等. 在实际应用的材料中,这些假设可能失效但某些模型在一定条件下可能仍旧适用,而理论模型的不可靠性需要严格评估. 因此,当前高分子材料大数据研究的首要难题和挑战是系统客观地评估已有的理论模型、经验公式的可靠性,以及模型定量描述的准确度和适用性边界.

其次,随着研究论文报告数量快速增长,高分子材料多方面的一手数据已相当丰富但某些关注性质仍趋于在较窄的分布区间,在利用大数据构建CPSPPr过程中极有可能出现多重简并,在机器学习的“黑盒子”算法中出现非唯一解. 在没有高分子专家深入参与的情况下,有相当一部分研究报道过分追求定量模型的高可靠性或者在给定数据集中的低泛化误差(generalization error),再加上机器学习黑盒子的特点,需要在精度与覆盖度、完备性与“小数据”精准性、偏差-方差权衡等方面,合理控制预测性能和可解释性. 然而近几年报道的相当一部分机器学习模型的解释性非常差,甚至某些参量因素可能与目标预测量形成与常规共识相悖的关系,这些预测模型可能对后续研究产生误导. 这类现象正是高分子材料局域弱效应,长程作用累积强响应的典型特征写照. 另外,在高分子材料大数据研究的更多场景,由于研究或应用的关注点不同,每种高分子材料各方面的性质属性往往存在缺失. 目前通用的一些数据缺失值处理方法,如最可几、均值法、近邻插值等在高分子材料中极可能引入不确定性,特别是当材料体系在相转变临界点附近等. 因此,大数据定量决策模型的唯一性和可解释性是普遍亟需解决的难题之一. 目前已有一些科学家注意到这类问题,如基于博弈理论的Shapley值法[139],或者在有限数据集中的SHAP技术等[45]在材料领域已得到初步应用.

归功于量化计算和化学信息学的进展,目前针对小分子、金属材料和无机非金属材料的“逆设计”已能实现高通量计算和高通量筛选. 但对于高分子材料,由于其多分散、多尺度响应的特点,高效可靠的计算方法仍未实现. 笔者看来,高分子材料要实现“逆设计”,首先需要建立一系列可靠的基准数据集(benchmark dataset),这些数据集源于广泛使用的、可靠的成分结构和性质表征方法,对CPSPPr中各要素有准确描述,且对某类聚焦性质、聚合物种类、加工方法等具有完备性和代表性. 这些数据集的建设一方面需要支持科研人员对商品或实验样品开展批量的测试表征获得一致性数据,另一方面需要支持理论计算人员将已有的大量分散数据汇集起来,建立不同源数据之间的关联和定量转换关系. 特别是要改变工业和工程材料数据与实验室测试数据脱节,通用报告标准缺乏,相互不能参考,数据陷入不同标准中离散不可用的现状. 即使是同领域的学术论文中,由于缺乏对数据、特征和实验细节的充分表述,对后续研究和重复性验证造成障碍. 如在高分子材料制备、加工过程数据的收集和预测,类似不饱和聚酯溶液黏度[140],材料成形过程多尺度结构和特征[141]等方面仅有少量报道. 更普遍地,工业的拉弯冲测试众多标准不一,与实验室测试无法点对点转换,合成加工工艺缺乏通用制式流程,实验室个性化,工业稳定性不能一统江湖,也是学术界和工业界数据断层的重要原因. 在高分子材料从实验室走向生产线的过程中,还涉及批量生产中的良品率、稳定性、样品/产品性质对调控参数依赖的一致性等重要的调控数据. 其中针对大宗材料的特定应用(如聚丙烯树脂可用于拉丝成纤、吹膜、发泡、注塑、压模等制备服装、医疗器械、包装、汽车、家电、自行车、管道、容器等)、或者特定合成加工成形工艺、或者特定应用的多种高分子材料(如前述聚合物分离膜)等,常常需要针对CPSPPr的大数据要素中建立围绕某个保守特性的“小数据集”,这对于理论、计算模拟仿真以及大数据模型的评估都至关重要. 这些小数据集一般都有专家标记,是基准数据集的主要形成路线. 经典的橡胶弹性体力学性能本构方程发展的Treloar数据集[142],Bates的两相自组装相图[143]等都是高分子领域极其重要的基准数据集,但类似被广泛认可的基准数据集却极其有限. 通过基准数据集,可以明确物理特征的分布范围、相关因素和关联关系,进而挖掘出从分子层面到材料成形的有效调控手段,从而去实现个性化、智能化时代对高分子材料的精准“逆设计”.

在生产方面、无论是原材料合成、母料制备还是器件生产装配的上中下游企业,如何将大量生产数据利用大数据先进算法和系统分析,推动生产力革新. 目前的状况是企业的生产自动化、物料和能量管理流通、测试和质检等部门数据分散且归属于不同的软件管理系统,这些数据存在不同编码并防止批量导出等限制,前期需要企业投入相当大的人力物力实现数据的统一流通. 由于大数据技术的人才培养群体还未成规模,大多数企业缺乏相关专业人才能够高效地利用这些生产数据,受权限和保密要求,生产数据与企业外的合作还需对数据进一步脱密. 因此,面向生产的大数据研究和开发应用首先要突破数据源的壁垒,此外在兼顾连续性生产的前提下,应谨慎引入聚焦组成配方设计、工艺优化、检测质检一体化的相关预测模型的部署和更新. 在高分子材料领域,笔者认为当前大数据的模式、技术的成熟度还无法全面支撑智能制造工业4.0的实现,但与现代生产制造企业的ERP,MES,CRM和BTO等管理和生产系统结合开发数据价值,在逐步提升制造模式和生产力水平的变革中一定会带来正面的收益.

6 结语与展望

高分子材料大数据研究还处于积累和爆发阶段,可以预见在未来几年中,相关的研究报道和生产应用实践将急剧增加. 得益于生物信息学较为成熟的多学科交叉深入合作和数据共享模式,化学信息学对物质属性的覆盖度和准确率的提升,以及应对复杂体系和模糊语义的机器学习算法发展,材料信息学在金属、无机非金属和有机小分子材料研究中取得了广泛的成功,也切实推动了高分子材料的大数据研究. 由于高分子材料描述模糊和歧义命名等长期历史积累问题,以及高分子的多分散、多尺度、非线性协同效应显著、长程弱关联强响应等特点,对高分子材料的准确定量数据和高通量计算难以实现,是造成高分子材料大数据研究进展滞后的主要因素. 在数据的标准化和可共享流通方面,生产应用数据与实验室研究数据严重脱节、工业化和原料供应数据不透明造成大量重复表征测试,基于不同关注点对高分子的基础表征数据和性质测试方法等关键信息缺失,使高分子材料可用的数据库远未达到诸如CSD,Reaxys,PDB,UniProt等规模水平,但专一聚焦的高分子材料数据库已有许多在路上. 高分子材料大数据研究基础的数据源建设发展方向,很可能类似当前计算模拟领域的通用力场和专用力场修正的发展模式,即通用高分子多谱学数据与功能高分子特殊结构性质数据的整合. 出版社(如ACS,Wiley,Elsevier, Springer,Cambridge,CRC等)、政府机构(如NIST, NIMS等)以及跨国公司等已广泛布局数据的汇集和价值开发,数据已成为重要资源. 数据的增加主要将朝着类似地理地图大数据的方向发展,在顶层设计和支持下对具有多种应用场景的高分子材料具有高覆盖度、精细分辨,支持高通量快速分析,提供多尺度多角度全方位数据支持或数据共享. 同时在面向特定应用和研究兴趣,前沿领域的专业数据积累将更快地与新兴大数据方法交叉,在高分子新材料研发或经典问题的研究中产生突破进展.

另一方面,大数据研究的核心方法进展是机器学习,传统的理论和计算模拟方法进展目前仅限于力场的发展,对于较大尺度的模拟仿真手段如何与大数据方法深度融合,极有可能是高分子经典的多尺度难题取得突破的关键. 在高分子材料大数据研究的核心组成-工艺-结构-性质-性能关系中,应鼓励研究人员共享新材料多方面的表征数据、行业专家牵头整理专业材料或应用领域标准、系统开展不同标准下数据的转换,建设一定规模的基准数据集. 对于单独小数据规模或窄分布的大数据模型要谨慎对待,客观评价,避免为预测而预测,或“蹭热度”的拼凑研究,可能会误导后续研究. 同时也要着力培养交叉学科人才,从数据挖掘特别是高分子专业语言的可计算处理、机器学习算法、专业数据分析与可视化、模型评价和理论可解释性解析等多方面合作,共同推进高分子材料大数据研究的快速发展,从而提升材料和产品设计、生产制造的智能化水平.


关键字:优秀论文

网络客服QQ: 沈编辑

投诉建议:0373-5939925    投诉建议QQ:

招聘合作:2851259250@qq.com (如您是期刊主编、文章高手,可通过邮件合作)

地址:河南省新乡市金穗大道东段266号中州期刊联盟 ICP备案号:豫ICP备2020036848

【免责声明】:中州期刊联盟所提供的信息资源如有侵权、违规,请及时告知。

版权所有:中州期刊联盟(新乡市博翰文化传媒有限公司)

关注”中州期刊联盟”公众号
了解论文写作全系列课程

核心期刊为何难发?

论文发表总嫌贵?

职院单位发核心?

扫描关注公众号

论文发表不再有疑惑

论文写作全系列课程

扫码了解更多

轻松写核心期刊论文

在线留言