高分子材料大数据研究:共性基础、进展及挑战
高分子材料成就了我们生活的方方面面,在提升人类生活的便易性,健康舒适,助力人类探索未知世界的同时,也成为全球人类可持续发展和环境保护的主要挑战之一. 高分子材料的机械热、光电声磁、分离、降解和加工性质是设计、生产和应用的聚焦内容,其柔性可设计的特征,有力地支撑着社会的多样化发展,对密切相关的组成、加工、结构及其性质关系的认识也在不断完善中. 在对高分子材料个性化、智能化生产和应用的驱动下,传统经验理论提供的定性指导模型渐不能满足,而对支撑给定性质实现材料逆设计的定量决策模型产生大量需求. 特别是人们对于给定目标性质实现对材料组成工艺精准定位“逆设计”的渴求,迫切需要对高分子材料多因素及其联系的定量化研究,即大数据研究,取得进展. 基于我们4年前对材料基因组学研究的梳理[
1 材料大数据研究的共性基础
众所周知,人类探索未知世界存在4种认知范式,即以实验试错法为主的第一范式,以理论推理演绎为主的第二范式,以基于模型的计算模拟仿真为主的第三范式,和以数据驱动创新为主的第四范式. 这4种范式都可以产生基础可用的数据,在数据基础上建立联系形成可流通的信息,从信息流中梳理出一定条件下存在的模式形成知识,进一步凝练出法则(principle)从而获得智慧,即科学认知的DIKW (Data,Information,Knowledge,Wisdom)框架. 在该框架中,人类生活生产和研究长期汇集的基础科学数据逐步成为一种资源并可以较为广泛地公开共享,机器学习、人工智能、深度学习和大数据(注:这4个专业名词的内涵具有高度重叠的共同知识,但有不同的侧重,相互间联系仍在变化中)为代表的新兴理念和技术手段,正快速地发展并重塑着生产力和生活模式. 统计力学和贝叶斯统计学与多个学科交叉,先后形成了生物信息学、化学信息学和材料信息学3个前沿学科. 目前生物信息学发展的典型代表是AlphaFold2[
高分子材料的大数据研究是材料信息学的前沿核心内容,而材料信息学的研究存在如
Fig. 1 The common frame for the composition-process-structure-property- performance relationship (CPSPPr) and their key subterms (a). The general pattern for an attribute with distribution A, evolutes to a significantly different state with distribution D, through tailed distributions B and C (b).
在工艺方面,主要包含对配方组分的反应、分散和融合3类操作. 反应是化学键的变化,涉及物质本征属性改变,包括物质的合成、修饰改性、化学交联、降解等,常见的因素包括手性、异构、键生成断裂平衡、活性、选择性以及与反应关联的小分子产物,反应过程伴随的物质和能量扩散和传递的调节控制等. 分散是通过对体系助剂或能量输入,提升物相接触交换界面,使材料快速达到热力学平衡状态(一般是熵增过程),或者使物质分布达到具有特定分布结构的稳态状态. 融合主要是破坏或黏合热力学不相容表界面使体系成为整体,如表面活性剂、胶黏剂或者“锁-钥原理”实现结构锚定(药物筛选的原则之一)等. 这些工艺涉及较多人为经验性因素,易造成精细层面的可重复性低,对复杂、精密、长期或在极端条件服役的材料体系,在生产和应用之前一般会引入宏观尺度的计算机辅助设计/制造(CAD/CAM). 在实际CAD建模计算模拟仿真中,常常需要引入材料中组分的体相宏观性质,如密度、模量、泊松比以及可以描述物质相态的本构方程等[
性质分为组分、材料和器件性质,组分性质一般接近其本征性质,但在材料的多组分作用下,其性质可能发生大幅变化. 在高分子材料体系里,无论是从单体到聚合物,还是聚合物链的交联、共混等,材料性质都很难用组分性质直接或者加权平均近似[
不同于小分子、金属、无机非金属材料,利用大数据研究实现从性质到分子结构的“逆设计”已有不少成功报道[
2 高分子材料结构定量数据其中,C,P,S,M,D分别代表组成、工艺、结构、表征生产应用条件和分布函数,x则代表组成工艺中的某一可控变量,{ }代表集合.分布函数D = {ρi} 可以是热力学平衡分布(高斯分布、玻尔兹曼分布等),也可以是偏倚分布(对数正态分布、帕累托分布、双指数分布、泊松分布等),或者是描述材料内部组成基元在正、倒空间(傅里叶变换)的分布. 性质Z可表述为在具有一定结构S和测试应用条件M下可由材料的组成C和加工成型工艺P改变,或者表述为材料在特定条件M下结构及其变化对外场响应而表达出性质Z. 结构S则可以表述为参考态的稳定分布D与该分布在演化条件中扰动量
一般地,材料结构的定义为组成基元的时空间分布,组成基元可以是电子、原子、离子、基团、分子片段、分子、聚集体、相区和器件单元,分布可以表达为笛卡尔坐标、极坐标、内坐标或傅里叶倒空间的基元丰度,或者场模型中的概率密度. 基元的属性和分布可以随时间发生变化,存在内部的热涨落或对外部的刺激响应,从而通过表征手段获得信号或表达出材料的不同性质. 结构是一系列探测手段与材料作用的谱学信号,而性质也是材料对外部的刺激响应结果. 因此,材料的定量结构活性/性质关系(QSAR/QSPR)在本质上是不同谱学信号的相互关联,当某些表征信号可以比较完备地描述性质时,该表征手段常被作为性质的代理量(surrogate). 如利用某种试剂盒的UV特征吸收表达物质的生物活性,用杨氏模量刻画材料的弹性,特定条件下的熔融指数衡量高分子材料的加工性,以及溶胀率表征材料的体积稳定性等. 因为结构可由组成和工艺共同决定,并通过物理、化学的知识阐明机理,因而结构性质关系常用结构特征建立性质的代理模型或代理量,从而用于理解、设计和调节控制材料的宏观性质.
从理论和计算模拟仿真角度来看,高分子材料的结构仅包括化学结构和聚集结构两方面. 化学结构用于区分组成物质的属性,其定量化是化学信息学研究的核心内容. 主要包含化学语言的定量描述,包括编码与解码,比较成熟的有SMILES (simplified molecular-input line-entry system)和InChI (international chemical identifier) 2套系统. 化学结构的图论和图特征表达这类有长久历史的方法也存在一定程度应用和发展[
另一方面是精确力场的发展,受高通量药物和精准催化剂设计的驱动,经典的通用力场如CHARMM[
该计算难题同样也存在高分子材料多尺度结构的实验表征中,特别是聚集结构的定量解析实现还需要长时间的努力. 化学结构、晶体结构或单分散结构通过X光衍射、NMR、冷冻电镜、小角散射等可以较准确解析,而在计算方面,除共聚或共混两相组装相图有较系统的定量数据外,实际材料至多有半定量数据. 常见的材料结构实验表征和计算方法的共性认识如
Fig. 2 The general frame to acquire the structure information for polymer materials at different temporal and spatial scales, the detectors and interactions, popular experimental techniques and computational methods.
3 大数据研究的数据和算法进展
材料大数据研究的主要流程可参考综述文献[
Table 1 List of representative data resources for the big data study of polymer materials.
Sources | Name | Type |
---|---|---|
Book | Polymers: a property database[ | Experimental |
Handbook of polymers[ | Experimental | |
Properties of polymers[ | Experimental | |
Prediction of polymer properties[ | Experimental | |
Polymer synthesis: theory and practice[ | Experimental | |
Polymer handbook[ | Experimental | |
Phase equilibria and thermodynamic data of aqueous polymer solutions[ | Experimental | |
Online | PoLyInfo (polymer.nims.go.jp/en) | Experimental |
CROW: polymer properties database (polymerdatabase.com) | Experimental | |
Polymers: a property database (poly.chemnetbase.com) | Experimental | |
CAMPUS plastics (campusplastics.com) | Experimental | |
Landolt-Börnstein (materials.springer.com) | Experimental | |
Polymer property predictor and database (NIST) (pppdb.uchicago.edu) | Mixed | |
Khazana database (khazana.gatech.edu) | Simulation | |
Identify database (www.ringgold.com/identify) | Experimental |
在机器学习的算法方面,如
Fig. 3 List of representative machine learning and deep learning algorithms.
在强化学习算法方面,其原理类似于给定模型的计算模拟仿真,通过打分和惩罚函数在迭代反馈中优化,建立代理模型. 典型的强化学习算法有Q-learning方法(如深度Q-网络[
特别值得一提的是近几年深度学习对整个机器学习算法、人工智能和大数据从基础研究到生产应用都带来了极大的冲击. 人工智能自动编程,机器学习数据自动生成等的急速发展与深度学习算法的高速发展密切相关,在广泛应用的机器学习编程语言Python,R,Matlab的基础上,新产生了一些建模框架,如Pytorch,TensorFlow,MxNet等. 一些新的数据和工具包也形成了一定的流行度,如Hyperopt[
4 高分子材料大数据研究的代表性进展
4.1 进展分类
高分子材料大数据研究是材料基因组学或材料信息学中极具挑战的重要课题,当前阶段材料基因组学强调高通量计算、高通量表征和高通量制备及数据共享,但高通量对于高分子材料实现起来存在诸多困难,源于高分子材料多分散和多尺度关联等特性. 另一方面,以核酸、蛋白、多糖、多酚和小分子为主要研究对象的生物信息学最先发展成型,这类体系的组成单元收敛可枚举,多分散性效应不明显. 近年来仍在高速发展的化学信息学,聚焦化学语言数值化、微观结构多角度精确计量等极大地促进了材料信息学的发展,特别是在小尺寸强关联体系用化学信息学方法可直接指导材料的“逆设计”.
为了系统地介绍近几年高分子材料大数据研究的代表性进展,在CPSPPr中,主要按材料应用性质分类,包含新型高分子合成与自组装、机械热性质、光电声磁性质、分离性质等材料分类. 在大数据计算方法、数据集,以及计算预测与实验验证迭代的方法和思路的进展也将融合到这些具体材料分类中. 整体来说,得益于化学信息学对物质化学属性和近程作用的精确刻画,光电声磁功能高分子材料的大数据研究已取得可媲美金属合金、无机非金属材料方面的成功应用,但其他性质的高分子材料大数据研究还缺乏能够推动行业研究和生产模式发生改变的显著成果. 在组成工艺决定结构、结构性质关系(QSPR/QSAR)以及性质性能3类主要关系中,结构性质关系研究较多,而结构多数限于化学结构,对高分子材料聚集结构的关联关系研究报道非常少见. 高分子材料大数据研究的实际应用如配方工艺优化、材料新性质发现,以及材料组成工艺决定结构的基础研究这些方面的报道也较少. 下面我们将围绕材料性质分类对近几年的代表性进展进行简要回顾介绍.
4.2 高分子合成与自组装
高分子合成的大数据研究主要集中在催化剂设计、聚合反应中的物料配比投料、小分子和热量管理,产物的自动分离表征和实验方案协同调整等方面. Cooper小组开发出一种合成机器人,能够使用机器学习算法对实验迭代改进,实现目标光催化剂的精准合成[
在高分子的自组装相图预测方面,Fredrickson等将SCFT解析中的Hamiltonian函数引入神经网络的打分函数,极大地促进了函数解析的收敛速度,通过深度学习建立了密度分布函数鞍点对高分子结构和组成参数的依赖性,实现了自组装相图的快速计算[
4.3 机械热性质
由于高分子材料一般随温度升高经历玻璃化转变温度(Tg)和熔点(Tm)区间可表现为玻璃态塑料、高弹态橡胶和黏流态熔体,其机械性质发生明显改变. 因此,无论是高分子均聚物、共聚物、共混体系还是复合材料,其机械和热性质是密不可分的. 在热性质方面,常被看作高分子本征性质的Tg,Tm以及结晶、玻璃化转变热焓等与高分子的化学、立构和拓扑结构密切相关,也是机器学习长期关注的预测目标. 在机械性质方面,主要包括杨氏模量、拉伸模量、损耗角(tanδ)等源于高分子材料形变中的应力-应变关系既是理论计算方法,即本构模型关注的重点,也因其非线性、非单调性等特点成为机器学习挑战的难题.
对高分子的Tg和Tm的机器学习预测已经有较长的研究历史. 早期的流行方法是通过van Kervelen提出的基于基团加和性方法来预测[
通过拉伸曲线和动态力学曲线(DMTA)可以得到材料杨氏模量、屈服模量、韧度、断裂伸长率和能量耗散等重要力学性质参数,由于这些量与材料多尺度多因素相关,可用机器学习来建立定量的组成与性质联系. Jin等[
一种变通的路线是将机器学习与计算模拟或本构方程结合起来. 例如:钱虎军等[
4.4 光电声磁性质
由于光电声磁性质往往是通过几个纳米尺度以内官能团的相互作用体现,即使是包含聚集荧光猝灭(ACQ)、聚集诱导发光(AIE)等前沿究热点,近程相互作用保障了其性质的信号或代理量可以利用化学信息学方法较为准确地计算和预测. 这类性质预测的核心是将机器学习与高通量第一性原理计算相结合,据此来设计具有特定光电声磁性质的高分子材料已有不少报道. 部分代表性工作包括Lu等[
在高分子光伏材料方面,Saeki等[
4.5 分离性质预测
高分子材料在物质分离领域具有广泛而重要的应用. 物质分离主要有相变(如蒸馏、升华、沉淀、结晶等)、色谱(气相色谱、液相色谱等)、分配吸附(萃取、层析)、尺寸或密度差(过滤、离心等)、离子交换和膜分离等方法. 在此聚焦聚合物分离膜方面,按应用场景可分为气体、水处理、离子膜、能源膜和有机分离膜等,按分离物质尺寸可分为微滤、超滤、纳滤、渗透膜、膜蒸馏、膜萃取等,膜的组成、微结构和表面是性能调控的核心因素. 而分离膜的性能指标包含驱动力种类和能耗、通量、选择性、抗污能力、稳定性、循环稳定性等因素,分离物质需要考虑分配比、尺寸比、极性、静电力、氢键、条件响应性等,聚合物膜的组成、制备工艺和使用条件都会对膜性能产生重要影响. 因此,利用大数据研究聚合物分离膜的CPSPPr具有独特的优势. 我们通过对聚合物质子交换膜(PEM)的CPSPPr的开展了一系列大数据研究,包括温度、水含量、复合材料对全氟磺酸(PFSA)膜[
在全世界可持续发展,我国的“碳达峰,碳中和”等的政策趋势引导下,气体分离膜材料的大数据研究呈现出爆发式增长. 模型气体分离对包含CH4/CO2,CO2/N2,O2/N2等也过渡到较难的分离如多组分混合气体、C1~C4混合气和烯烃烷烃混合气等,经典的材料体系分子筛、多酸和MOF等仍占主流,高分子材料则聚焦在聚酰亚胺、芳纶、聚硅烷等对气体具有不同渗透系数的致密膜材料. 利用刚性聚合物或自具微孔聚合物(PIM)制备气体分离膜成为前沿热点,Kumar等[
在能源膜领域,伴随着锂离子电池快速增长的巨大市场,聚合物锂离子隔膜的研究也大量地丰富起来. Oyaizu等[
聚合物分离膜的大数据研究在近几年被密集报道,值得一提的还有Razmjou等[
5 难题与挑战
如前所述,建立高分子材料的定量CPSPPr是大数据研究的核心,在数学本质上是谱学数据的预测. 目前基于量化计算对小分子的多尺度谱学数据已能较为准确的计算和预测,对于多分散系数趋近于1的体系如蛋白、核酸等其结构和生物活性利用生物信息学的一体化建模(information-driven integrative modeling)已经能够提供可与人类专家媲美的准确预测. 蛋白与核酸结构定量化的成功与PDB的长期建设密不可分,但对于高分子,由于其二面角旋转位垒与热涨落能量1 kBT相当,并缺少蛋白和核酸分子中的密集氢键约束,高分子材料的结构数据不能够用原子坐标的办法直接描述,需要更复杂的构象集合来表示,但目前还缺少公认可靠高效的概念和框架. 在实际的高分子材料体系,往往还包括一定量的复合成分、添加剂或助剂,这些物质分布广泛,小分子可用的比如SMILES定量描述系统失效,而高分子自带的手性、支化、成环、长程作用的芳环堆砌、静电作用等对构象、聚集和性质的影响规律往往还依赖计算模拟近似分析,缺少可迁移利用的基础定量数据. 总的来说,对于具有典型的多分散、局域精度高和大尺度准确、存在非线性、非单调性累积协同效应的高分子材料体系,从近程作用化学异构和拓扑结构的化学信息学定量描述到跨尺度关联,大数据研究仍面临权衡. 这些问题在传统研究中长期存在,常见表述为临界现象、相变和相转变、标度行为、多级弛豫等概念模型. 理论模型中会采用了多种近似,如假定结构分布在平均场背景中、或假定高分子链长或拓扑结构满足高斯分布、或假定物质聚集可用随机相近似(random phase approximation,RPA),或假定结构和性质关系在多层次具有自相似性(self similarity),或在临界点附近如
其次,随着研究论文报告数量快速增长,高分子材料多方面的一手数据已相当丰富但某些关注性质仍趋于在较窄的分布区间,在利用大数据构建CPSPPr过程中极有可能出现多重简并,在机器学习的“黑盒子”算法中出现非唯一解. 在没有高分子专家深入参与的情况下,有相当一部分研究报道过分追求定量模型的高可靠性或者在给定数据集中的低泛化误差(generalization error),再加上机器学习黑盒子的特点,需要在精度与覆盖度、完备性与“小数据”精准性、偏差-方差权衡等方面,合理控制预测性能和可解释性. 然而近几年报道的相当一部分机器学习模型的解释性非常差,甚至某些参量因素可能与目标预测量形成与常规共识相悖的关系,这些预测模型可能对后续研究产生误导. 这类现象正是高分子材料局域弱效应,长程作用累积强响应的典型特征写照. 另外,在高分子材料大数据研究的更多场景,由于研究或应用的关注点不同,每种高分子材料各方面的性质属性往往存在缺失. 目前通用的一些数据缺失值处理方法,如最可几、均值法、近邻插值等在高分子材料中极可能引入不确定性,特别是当材料体系在相转变临界点附近等. 因此,大数据定量决策模型的唯一性和可解释性是普遍亟需解决的难题之一. 目前已有一些科学家注意到这类问题,如基于博弈理论的Shapley值法[
归功于量化计算和化学信息学的进展,目前针对小分子、金属材料和无机非金属材料的“逆设计”已能实现高通量计算和高通量筛选. 但对于高分子材料,由于其多分散、多尺度响应的特点,高效可靠的计算方法仍未实现. 笔者看来,高分子材料要实现“逆设计”,首先需要建立一系列可靠的基准数据集(benchmark dataset),这些数据集源于广泛使用的、可靠的成分结构和性质表征方法,对CPSPPr中各要素有准确描述,且对某类聚焦性质、聚合物种类、加工方法等具有完备性和代表性. 这些数据集的建设一方面需要支持科研人员对商品或实验样品开展批量的测试表征获得一致性数据,另一方面需要支持理论计算人员将已有的大量分散数据汇集起来,建立不同源数据之间的关联和定量转换关系. 特别是要改变工业和工程材料数据与实验室测试数据脱节,通用报告标准缺乏,相互不能参考,数据陷入不同标准中离散不可用的现状. 即使是同领域的学术论文中,由于缺乏对数据、特征和实验细节的充分表述,对后续研究和重复性验证造成障碍. 如在高分子材料制备、加工过程数据的收集和预测,类似不饱和聚酯溶液黏度[
在生产方面、无论是原材料合成、母料制备还是器件生产装配的上中下游企业,如何将大量生产数据利用大数据先进算法和系统分析,推动生产力革新. 目前的状况是企业的生产自动化、物料和能量管理流通、测试和质检等部门数据分散且归属于不同的软件管理系统,这些数据存在不同编码并防止批量导出等限制,前期需要企业投入相当大的人力物力实现数据的统一流通. 由于大数据技术的人才培养群体还未成规模,大多数企业缺乏相关专业人才能够高效地利用这些生产数据,受权限和保密要求,生产数据与企业外的合作还需对数据进一步脱密. 因此,面向生产的大数据研究和开发应用首先要突破数据源的壁垒,此外在兼顾连续性生产的前提下,应谨慎引入聚焦组成配方设计、工艺优化、检测质检一体化的相关预测模型的部署和更新. 在高分子材料领域,笔者认为当前大数据的模式、技术的成熟度还无法全面支撑智能制造工业4.0的实现,但与现代生产制造企业的ERP,MES,CRM和BTO等管理和生产系统结合开发数据价值,在逐步提升制造模式和生产力水平的变革中一定会带来正面的收益.
6 结语与展望
高分子材料大数据研究还处于积累和爆发阶段,可以预见在未来几年中,相关的研究报道和生产应用实践将急剧增加. 得益于生物信息学较为成熟的多学科交叉深入合作和数据共享模式,化学信息学对物质属性的覆盖度和准确率的提升,以及应对复杂体系和模糊语义的机器学习算法发展,材料信息学在金属、无机非金属和有机小分子材料研究中取得了广泛的成功,也切实推动了高分子材料的大数据研究. 由于高分子材料描述模糊和歧义命名等长期历史积累问题,以及高分子的多分散、多尺度、非线性协同效应显著、长程弱关联强响应等特点,对高分子材料的准确定量数据和高通量计算难以实现,是造成高分子材料大数据研究进展滞后的主要因素. 在数据的标准化和可共享流通方面,生产应用数据与实验室研究数据严重脱节、工业化和原料供应数据不透明造成大量重复表征测试,基于不同关注点对高分子的基础表征数据和性质测试方法等关键信息缺失,使高分子材料可用的数据库远未达到诸如CSD,Reaxys,PDB,UniProt等规模水平,但专一聚焦的高分子材料数据库已有许多在路上. 高分子材料大数据研究基础的数据源建设发展方向,很可能类似当前计算模拟领域的通用力场和专用力场修正的发展模式,即通用高分子多谱学数据与功能高分子特殊结构性质数据的整合. 出版社(如ACS,Wiley,Elsevier, Springer,Cambridge,CRC等)、政府机构(如NIST, NIMS等)以及跨国公司等已广泛布局数据的汇集和价值开发,数据已成为重要资源. 数据的增加主要将朝着类似地理地图大数据的方向发展,在顶层设计和支持下对具有多种应用场景的高分子材料具有高覆盖度、精细分辨,支持高通量快速分析,提供多尺度多角度全方位数据支持或数据共享. 同时在面向特定应用和研究兴趣,前沿领域的专业数据积累将更快地与新兴大数据方法交叉,在高分子新材料研发或经典问题的研究中产生突破进展.
另一方面,大数据研究的核心方法进展是机器学习,传统的理论和计算模拟方法进展目前仅限于力场的发展,对于较大尺度的模拟仿真手段如何与大数据方法深度融合,极有可能是高分子经典的多尺度难题取得突破的关键. 在高分子材料大数据研究的核心组成-工艺-结构-性质-性能关系中,应鼓励研究人员共享新材料多方面的表征数据、行业专家牵头整理专业材料或应用领域标准、系统开展不同标准下数据的转换,建设一定规模的基准数据集. 对于单独小数据规模或窄分布的大数据模型要谨慎对待,客观评价,避免为预测而预测,或“蹭热度”的拼凑研究,可能会误导后续研究. 同时也要着力培养交叉学科人才,从数据挖掘特别是高分子专业语言的可计算处理、机器学习算法、专业数据分析与可视化、模型评价和理论可解释性解析等多方面合作,共同推进高分子材料大数据研究的快速发展,从而提升材料和产品设计、生产制造的智能化水平.
- 2025年中科院分区表已公布!Scientific Reports降至三区
- 官方认定!CSSCI南大核心首批191家“青年学者友好期刊名单”
- 2023JCR影响因子正式公布!
- 国内核心期刊分级情况概览及说明!本篇适用人群:需要发南核、北核、CSCD、科核、AMI、SCD、RCCSE期刊的学者
- 我用了一个很复杂的图,帮你们解释下“23版最新北大核心目录有效期问题”。
- 重磅!CSSCI来源期刊(2023-2024版)最新期刊目录看点分析!全网首发!
- CSSCI官方早就公布了最新南核目录,有心的人已经拿到并且投入使用!附南核目录新增期刊!
- 北大核心期刊目录换届,我们应该熟知的10个知识点。
- 注意,最新期刊论文格式标准已发布,论文写作规则发生重大变化!文字版GB/T 7713.2—2022 学术论文编写规则
- 盘点那些评职称超管用的资源,1,3和5已经“绝种”了