高分子材料基因组——高分子研发的新方法
新材料是高新科技和高端制造业发展的基石,而工业技术的不断发展对材料性能提出了越来越高的要求. 但是,新材料的研发往往滞后,无法及时满足应用要求. 为了加快材料研发,结合现有的实践经验,2011年,研究者提出了新的材料研发模式——材料基因组. 我国科技部于2015年启动了“材料基因工程关键技术与支撑平台”,重点扶持材料基因组的研究[
截至目前,材料科学研究先后经历了经验驱动、理论驱动、计算驱动和大数据驱动等4种范式,如
Fig. 1 The four paradigms of science: empirical, theoretical, computational, and data-driven.
与实验试错法不同,材料基因组的研发模式通过“数据技术-理性设计-实验验证”有机结合,显著提高新材料研发效率. 其中,材料的理性设计是研发新材料的关键,也是研究者着重关注的领域. 相较于基于研究者经验和直觉的传统实验试错法,基于材料基因组思想的理性设计通过结合各种性能预测方法和仿真模拟,能更快速地探索更广阔的材料结构空间并以定量的方式比较不同材料的性能,从而无偏见地筛选出未曾被发现或被人忽视的结构. 基于材料基因组思想的理性设计和实验验证由3部分组成(如
Fig. 2 Procedures developed for the design and screening.
“基因”的定义与所研究的材料的特点紧密相连,是整个材料基因组的基础,“基因”的选择与后续合成的便宜性密切相关.性能预测与高通量筛选则是整个理性设计过程中的核心和关键. 对“虚拟材料”的高通量性能预测(表征)目前大致分为4种方法:(1)通过数据挖掘寻找能代理性能的特征量,或者通过机器学习构建预测模型. (2)发展多尺度的模拟方法,从分子结构出发预测材料性能. (3)基于新兴计算机技术,如GPU(图形处理器)和NPU(嵌入式神经网络处理器)提升运算能力,获得高通量模拟计算方法. (4)发展高通量实验技术,研发高通量实验设备,实现对材料的高通量合成和表征.
虽然目前已有很多成熟方法能够模拟特定尺度上材料的结构和性能,但由于材料在不同尺度上的关联并不明确,构建多尺度模拟方法仍然是一个巨大挑战. 高通量实验涵盖高通量制备技术和高通量表征技术,是对已有实验技术和表征手段加以改进和利用,实现一次性批量样品制备和一次性批量样品表征. 它不仅可以突破传统试错法研究框架,实现材料高效制备,而且可以短时间内获取大量实验样品并表征性能,为数据挖掘和机器学习提供数据支撑. 自1970年Hanak采用多成分拼接共溅射方法制备二元和三元超导材料后,高通量制备技术快速发展,但主要集中在金属领域[
材料基因组已经成功应用在高性能合金材料[
本文将介绍性能预测方法之一——“通过数据挖掘寻找能代理性能的特征量或机器学习构建预测模型”在突破高分子复杂性对材料基因组约束,实现理性设计高分子材料上的进展. 本文分3部分,前两部分分别介绍利用代理量方法和机器学习模型筛选高分子材料的进展,最后探讨高分子材料基因组的主要发展方向和所面临的主要挑战.
1 利用代理量方法筛选高分子材料
从理论计算和模拟出发,直接构建材料结构和宏观性能之间的构效关系仍然是一个巨大的挑战. 基于此困境,提取能代表所需性能/性质的、可计算的微观或宏观特征量作为性能代理量,将无法通过理论计算获得准确值的宏观性能转化为可计算的代理量,并通过代理量的比较来筛选获得高性能高分子材料不失为一种合理的策略.
例如:随着工业不断发展,对高能量密度电容器的需求越来越旺盛,对电介质材料的性能要求也越来越高. 相较于陶瓷材料,高分子材料成本更低,柔韧性更好,已成为广泛使用的商用电介质材料. 然而,高分子材料的介电常数较小,仍有改进的空间. Ramprasad等用密度泛函理论(DFT)容易计算的高分子带隙替代难以计算的击穿电压和介电损耗,并以密度泛函微扰理论(DFPT)和等效介质理论计算获得的理论介电常数替换宏观介电常数,筛选高分子电介质材料 [
此外,Ramprasad等利用相同策略[
Zhu等开展了含硅芳炔树脂(PSA)方面的设计工作[
Fig. 3 Screening approach for the rapid design of heat-resistant silicon-containing arylacetylene resins (Reprinted with permission from Ref.[
除了固化放热焓,PSA韧性欠佳的缺点也限制了PSA的进一步应用[
Fig. 4 (a) Plots of elongation at break (red circles) and flexural strength (blue squares) against K/G. Heat maps of (b) Td50 values, (c) K/G values, and (d) weighted-average values for various gene combinations. The colors from purple to red correspond to the values from low to high. In (d), the shadow rectangle circled by a black dotted line represents the screened ATPI. (e) Molecular structure of the screened ATPI. (Reprinted with permission from Ref.[31]; Copyright (2020) American Chemical Society).
除了设计用于增韧的PI树脂,张宋奇等还利用材料基因组概念提出了用于筛选耐热且易加工的热固性PI树脂材料的策略[
Example | Key points | Ref. |
---|---|---|
1 | Use band gap and dielectric constant that are calculated by DFT to represent dielectric properties. | [ |
2 | Find the potential of organo-Ge and organo-Sn based polymers which are neglected. | [ |
3 | Use bond dissociation energy and energy bandgap which are calculated by DFT to represent thermal properties and curing properties. | [ |
4 | Use Td50 and K/G which are calculated by the molecular connectivity index to represent thermal properties and toughness. | [ |
5 | Use Td50, energy bandgap, and viscosity that are calculated by the molecular connectivity index and DFT to represent thermal properties, reaction activity, and processability. | [ |
2 利用机器学习模型筛选高分子材料
作为多门学科相互交叉结合的产物,高分子材料基因组不仅需要材料领域的科研人员,也需要信息学领域的研究人员参与. 作为信息学中的一个重要分支,机器学习试图从历史数据中挖掘潜在规律,并对未知数据进行预测、推断或分类,是满足材料基因组对预测性能和高通量筛选需求的另一途径[
虽然研究者已利用代理量法发掘不少具有潜力的新型高分子材料,但为了更快地获取高分子的带隙和介电常数,Ramprasad等基于DFT计算的带隙和介电常数,构建了通过输入高分子结构预测带隙和介电常数的机器学习模型[
Fig. 5 (a) The steps involved in the genetic algorithm (GA) approach leading to direct design of polymers. (b) The exponential increase in total polymer possibilities for increasing number of repeating blocks, and the simultaneous decrease in the percentage of points to be explored till success. Also shown are one optimal polymer each for each case for a target dielectric constant and bandgap of 5 and 5 eV, respectively. (Reprinted with permission from Ref.[43]; Copyright (2016) Nature Publishing Group).
在设计固态高分子电解质方面,Wang等提出了将粗粒化MD与机器学习结合的策略[
Fig. 6 Illustration of the coarse-grained molecular dynamics―Bayesian optimization (CGMD-BO) framework. Materials design starts with the coarse-graining process to transform the conventional chemical species space to a continuous space composed of CG parameters (①→②). This space is then explored by BO-guided CGMD simulations in iterations to predict the relationships between the transport properties and the associated CG parameters (②→③). (Reprinted with permission from Ref.[45]; Copyright (2020) American Chemical Society).
Oyaizu等则在设计固态高分子电解质方面采取了更传统的机器学习策略[
Fig. 7 Scheme for predicting properties of the solid polymer electrolytes by AI. Oyaizu pretrained graph neural net to predict 2000 molecular descriptors with only 32-dimensional vectors. And then the relationship between the composite information (32-dimensional vectors) and its conductivity was trained by a Gaussian process model. (Reprinted with permission from Ref.[46]; Copyright (2020) American Chemical Society).
环氧树脂因其巨大的商业价值而备受关注[
高分子膜是膜分离领域被广泛研究和使用的材料[
Fig. 8 (a) Polymer candidates for advanced CO2/CH4 gas transport performance identified through ML and their experimental performance. The predicted locations for two potential high-performance polymers are marked with colored crosses―the measured experimental values are denoted with colored dots. (b) Molecular structures of two potential high-performance polymers. (Reprinted with permission from Ref.[
Li等为了获得性能更优异的高分子燃料电池用高分子质子交换膜材料,从约2800篇关于磺化质子交换膜的报道中挖掘数据,记录或计算了描述磺化质子交换膜的各项特征(如亲水单体的比例、相对湿度、离子交换能力、测试温度、各类分子描述符等) [
之后,Li等将研究焦点扩展到高分子过滤膜性能的预测和分类[
Zubarev等提出了一种反向设计聚酯和聚碳酸酯的方法,即将高分子性能反向映射到高分子结构上形成一对多的映射方式,直接通过所需性能要求找到所有符合要求的高分子及其合成条件[
Fig. 9 Transformation of the "experiment knowledge graph" (eKG) into a network that links prediction via representation learning. (a) Simplified resource description framework (RDF) graph where the nodes of the experimental parameters (objects) are collapsed forming bundles and the categorical value of the measured property is treated as a subject. The same procedure applies to MC (shown) and Đ (not shown). (b) RDF triples are transformed into a bipartite graph, where nodes representing bundled experimental parameters (RDF objects) are directly connected to each other via a link; the value of the measured property (RDF subject) is assigned to the link as an attribute. (c) A RDF graph constructed from the relational database of the experimental parameters and outcomes (not shown). Continuous experimental parameters and measured properties are converted into categorical values via binning. Dashed outlines show the patterns of node collapse. (Reprinted with permission from Ref.[
Zubarev等还探究了建立小数据预测模型的方法[
Example | Key points | Ref. |
---|---|---|
1 | The train set is calculated by DFT. However, bandgap and dielectric constant are predicted by the machine learning predictive model instead of DFT. | [ |
2 | Integrate coarse-grained molecular dynamics with machine learning. | [ |
3 | The chemical design screened by AI is contrary to the common sense of rubbery polymer electrolytes. | [ |
4 | The train set is calculated by fully atomistic molecular dynamics simulation. However, the performance of epoxy resin is predicted by machine learning models instead of simulation. | [ |
5 | Two of the most promising polymer membranes predicted by this machine learning model exceeded the upper bound for CO2/CH4 separation performance. | [ |
6 | Find 2838 novel copolymers that have better overall performance than Nafion 117 for fully hydrated membranes at 80 ℃ by machine learning models. | [ |
7 | Provide regression models to facilitate the development of advanced filtration membranes for public use. | [ |
8 | Use machine learning models to predict polymerization experiments that are likely to produce materials with targeted properties rather than predict the properties of polymers. | [ |
9 | Train machine learning models by small data. | [ |
运用机器学习模型筛选高分子材料具有预测准确度高,预测过程方便快捷,方法泛用性强,无偏见等优点. 这些优势完美契合材料基因组对材料设计筛选过程中的需求. 想要获得可靠且准确的机器学习模型,必须依赖可靠、完备且庞大的数据,然而高分子的实验数据来源分散、测试参数各异、性能种类不完备,这导致研究者在所研究的高分子领域中有较大可能遇到可靠数据规模较小的不利情况. 由此可见,高分子数据质量参差不齐已成为机器学习方法在高分子材料基因组中应用的最大障碍. 目前,相关的研究往往需要研究者手动收集文献和公开数据库中的实验数据,当面对实验数据较为稀少的材料性能和材料类别时需要研究者运用DFT、MD模拟等方法计算大量该材料的理论数据,将其作为进一步机器学习的训练数据.
机器学习在高分子材料基因组中虽然已有个别应用,但整体上仍然停留在构建适用于高分子领域的机器学习阶段. 例如:Olsen等在已有的SMILES基础上开发了专为描述高分子结构的表达系统(BigSMILES) [
3 总结与展望
3.1 高分子材料基因组现状和挑战
在高分子领域,运用材料基因组设计筛选新型高分子材料仍然是前沿领域,有待科研人员进一步探索和完善. 随着理论和技术的进步,通过计算机提前预测高分子的各项性能已成为可能. 材料基因组合与高分子理论、计算模拟技术和基于数据驱动的人工智能等相结合,高通量设计筛选新型高分子材料的材料研发方式已取得初步成效. 特别是在面对2种或2种以上相互制约彼此矛盾的性能时,相较于传统实验试错法,基于材料基因组的高分子材料设计筛选在成本和时间上凸显优势.
高分子材料基因组仍然处于起步阶段,有很多问题亟待解决. 目前,在面对难以计算或预测的宏观性能时,往往用易于计算的特征量替代高代价的宏观性能计算,但这种策略在一定程度上降低了结果的准确性. 此外,虽然无论是第一性原理密度泛函理论还是分子动力学模拟,其计算代理量所消耗的时间都远小于实验合成、表征所需时间,但是当面对海量高分子代理量计算需求时,时间成本仍是限制研究者进一步探索更大化学结构空间的主要原因.
一旦机器学习预测模型训练完成,利用预测模型进行材料特征量或性能的预测是一条耗时短、结果准确的途径. 但这条途径中最大问题是如何为机器学习预测模型的训练提供来源可靠且数据量足够大的高质量数据集. 由于高分子材料的分子结构、聚集态结构、加工方式和测试条件的不同都将影响材料性能,而文献中的数据质量参差不齐,个别数据甚至存在空缺,因此用于机器学习的高分子材料性能数据库往往难以得到格式统一且量大、可靠的性能数据. 这种可靠数据的匮乏阻碍了机器学习模型准确性和泛化能力的提升.
此外,由于高分子材料基因组所能探索的结构空间远大于已有的实验合成经验空间,容易筛选出难以合成的高分子结构. 因此,在理性设计过程中,需要进一步考虑合成的便宜性,优化筛选条件并与已有的实验合成经验有机结合,或者创建基于机器学习的高分子合成路径预测方法,在筛选出高分子结构的同时预测合理的合成路径.
3.2 高分子材料基因组对高分子领域的反哺
高分子材料基因组不仅提出了高效的高分子材料研发新模式,而且对传统高分子科学的认知和材料基因组的扩展具备重要的意义.
在利用高分子材料基因组挖掘优秀新型材料的过程中,对筛选结果进行“基因分析”即可获得“基因”(通常为基团或原子)与宏观性能之间的关系. 这些或正相关、或负相关的关系既能充实高分子领域第一范式,提高实验试错法的效率,又能加深对高分子化学结构和宏观性能关系的认识.
除了对筛选结构“基因”分析外,机器学习本身也可能为我们带来新的认知. 在高分子材料基因组中,利用机器学习模型预测高分子性能本质上是一个以数学角度而非化学角度出发,以唯象的方式预测高分子性能的“黑匣子”. 这种“黑匣子”过程由于不受已有的高分子理论的束缚,最终可能筛选获得违背已有认知的“反常”高分子结构. 这些被筛选出的高性能“反常”结构有可能成为高分子理论新的突破口. 另一方面,利用物理学等专业知识对机器学习(特别是深度学习)的“黑匣子”过程进行解释性研究,理清“黑匣子”内部运作的因果关系,有助于理解性能变化的规律[
高分子材料基因组的发展不仅对高分子领域有重要意义,对于材料基因组这一新的材料研发模式也具备重要意义. 高分子领域具有众多金属、无机非金属和有机小分子领域没有的特征,如高分子链结构、链构象、多分散性、高分子结晶特征、高分子微相结构和亚稳态结构等,目前对高分子材料基因组的研究仍未达到能全面包含这些特性的阶段,因此进一步发展高分子材料基因组将有效拓展材料基因组的应用范围,是对现有材料基因组的有益补充和拓展.
3.3 高分子材料基因组的发展方向
根据当前材料基因组在高分子材料方面的发展情况,我们展望了未来的发展重点.
(1) 实现高通量实验:通过高通量实验一次性获得批量样品将是一条行之有效且极具潜力的筛选途径. 不同于利用计算机“虚拟合成与表征材料”的特征代理量筛选法和机器学习法,利用高通量实验设备在短时间内合成大批量的高分子,并利用高通量表征技术快速便捷地获得所有高分子性能数据的高通量实验法不仅能从数量庞大的高分子结构中筛选出符合性能要求的新型材料,而且能为机器学习提供大量可靠的实验数据. 高通量制备技术已在金属领域取得了系统性的发展,但在高分子领域还比较零散、不成体系. 目前,已报道的高通量高分子合成方法如自动并行合成器、微波合成器和喷墨打印机等. Ehm等成功利用商业化的自动并行合成器——平行压力反应器48(PPR48)实现烯烃聚合催化剂的高通量筛选[
(2) 进一步发展特征量代替宏观性能的策略:一方面寻找更多能代理宏观性能的特征量,从而将更多宏观性能纳入高分子材料基因组的适用范围内,如耐溶剂性、耐磨性、抗冲击性、相容性等等;另一方面引入更快速、便捷的方法计算特征量,例如基团贡献法、分子连接指数法和机器学习等等.
(3) 进一步发展包含性能更广且预测更准确的高分子材料宏观性能机器学习预测模型:目前,机器学习预测模型往往只针对特定类型高分子的特定性能,而限制机器学习在高分子材料基因组中更广泛应用的是可靠数据的匮乏. 因此,通过建立完善规范的高分子材料性能数据库扩大有效数据量或发展利用小数据进行机器学习的策略,从而建立能预测更多性能且更准确的性能预测模型将是机器学习在高分子材料基因组中未来发展的方向.
(4) 发展基于机器学习高分子逆向设计策略:与正向设计将材料结构参数映射到性能上获得性能预测模型不同,逆向设计是将材料的性能映射到材料结构参数上获得逆向模型. 在实际的材料设计和工程应用环节,最重要的是满足工程对材料性能的要求. 因此,相较于正向设计,逆向设计作为从性能出发获得材料结构的面向性能的设计更适合于工程领域.
- 2025年中科院分区表已公布!Scientific Reports降至三区
- 官方认定!CSSCI南大核心首批191家“青年学者友好期刊名单”
- 2023JCR影响因子正式公布!
- 国内核心期刊分级情况概览及说明!本篇适用人群:需要发南核、北核、CSCD、科核、AMI、SCD、RCCSE期刊的学者
- 我用了一个很复杂的图,帮你们解释下“23版最新北大核心目录有效期问题”。
- 重磅!CSSCI来源期刊(2023-2024版)最新期刊目录看点分析!全网首发!
- CSSCI官方早就公布了最新南核目录,有心的人已经拿到并且投入使用!附南核目录新增期刊!
- 北大核心期刊目录换届,我们应该熟知的10个知识点。
- 注意,最新期刊论文格式标准已发布,论文写作规则发生重大变化!文字版GB/T 7713.2—2022 学术论文编写规则
- 盘点那些评职称超管用的资源,1,3和5已经“绝种”了