基于IDPC-RVM的多模态间歇过程质量变量在线预测
间歇过程是现代工业中的重要生产方式,目前已应用于化工、生物制药及半导体领域[1-2]。间歇过程质量变量的在线预测是实现过程有效监控和优化控制的关键[3-5]。因具有核函数不受限制、在线预测效率高和泛化能力强的优点,相关向量机(relevance vector machine,RVM)被广泛用于间歇过程的质量变量在线预测[6-7]。然而,受频繁操作条件变化和物料更替的影响,间歇过程包含了多个不同的运行模态。而现有方法普遍将间歇过程视为一个整体建立单一预测模型,忽略了过程的多模态特性,使得过程模型难以体现各模态的不同数据特征,降低了模型的预测性能[8]。因此,对间歇过程进行合理的模态划分,并分别建立各个模态的预测模型,有利于提升间歇过程质量变量的在线预测精度,对保证产品质量与生产过程安全具有重要意义[9-11]。
现有间歇过程模态划分方法可分为基于模型识别和基于聚类分析两类[12]。基于模型识别的模态划分方法通过建立统计分析模型提取过程变量的特征信息实现模态划分。Dong等[13]通过MPCA(multi-way principal component analysis)提取每个采样时刻的变量相关性,并对整个批次进行建模用于间歇过程模态划分;Ye等[14]根据每个采样时间的特征变化,通过设计控制界限识别不同的模态;Zhao等[15]考虑局部时间域内的相似性,采用依次添加时间片数据的建模方式提出了逐步时序模态划分算法,并在之后的研究中得到了推广和改进[16-19]。然而,上述基于模型识别的模态划分方法通过PCA(principal component analysis)算法获得时间片数据模型,需要数据服从高斯分布,而间歇过程数据的非高斯特征降低了该类方法模态划分的有效性。
聚类分析方法对过程数据没有高斯分布的要求,在间歇过程的模态划分问题中得到了广泛的研究和应用。Lu等[20]对间歇过程数据的加载矩阵进行KM(k-means)聚类用于确定三水箱系统的不同模态;张雷等[21]利用模糊最大似然估计聚类算法实现了间歇过程的模态划分。然而,上述方法忽略了间歇过程数据的时序特征,导致模态划分结果不满足时序约束的要求。为保证模态划分的时序性,Luo等[22]基于WKM(warped k-means)聚类算法,通过在KM方法中加入时序约束来处理间歇过程模态划分中的时序问题,提高了模态划分的合理性,但两种方法均只能将间歇过程划分为不同的稳定模态。间歇过程从一个模态运行到另一个模态是一种动态转移行为,具有过渡特性。Luo等[23-24]通过在FCM(fuzzy c-means)算法中增加时序约束条件而提出了SCFCM(sequence-constrained fuzzy c-means)算法,在满足时序性的同时实现了过渡模态划分;刘伟旻等[25]结合SCFCM模态划分方法,实现了多模态间歇过程的过程监控。然而,这些方法在模态划分时需要初始聚类中心作为算法的输入参数,不利于间歇过程的模态划分。密度峰值聚类(density peaks clustering,DPC)算法[26]通过计算数据样本的局部密度和相对距离构建决策图确定聚类中心,但对于类簇间样本密度不平衡的间歇过程模态划分问题,同样难以从决策图中选取恰当的模态中心[27-29],且上述方法在模态划分时以欧氏距离度量数据样本间的相似性,未考虑过程数据高维特征的影响。因此,过程数据高维特征及模态中心选取问题影响了现有模态划分方法的有效性,降低了多模态模型的质量变量预测精度。
本文提出了一种基于IDPC-RVM的多模态间歇过程质量变量在线预测方法。首先,充分考虑过程数据的高维特征,进行数据样本间的相似性度量;其次,构建样本密度不平衡下的模态中心选取策略,准确获取间歇过程的模态中心,并根据模态划分指标确定最优模态数目;然后,依据相邻模态切换过程中的样本隶属度变化,识别过渡模态实现间歇过程的模态划分;在此基础上,分别建立各模态数据的RVM预测模型,实现间歇过程质量变量的在线预测。最后,通过青霉素发酵过程的仿真实验验证所提方法的有效性。
1 改进密度峰值聚类的间歇过程模态划分
1.1 改进的密度峰值聚类
DPC对每个数据点计算两个特征量:局部密度
式中,dij 为数据点i和j之间的欧氏距离;dc表示截断距离。
当
1.1.1 高维数据样本相似性度量
DPC使用欧氏距离度量数据样本间的相似性,当数据样本处于低维时,欧氏距离具有较高的计算效率和准确度,但随着数据维度的增加,导致欧氏距离度量数据样本间相似性的准确度降低。考虑间歇过程的高维数据特征,引入Close函数[30]度量数据样本间的相似性,具有d个维度的两个数据样本 x1和 x2之间的相似性为
当 x1和 x2在同一维度上的
式中,ϵ为一个很小的数。计算得到的dist函数值大于等于0,值越大表示两个数据样本间距离越远。
1.1.2 密度不平衡下的样本得分计算
多模态间歇过程由于其运行状态的复杂性,在过程动态特性较强或模态切换比较频繁的区域对应数据样本的局部密度较低,而当间歇过程运行状态稳定或运行模态总体不再发生变化时,该区域内对应数据样本具有较高的局部密度。因此,运行状态复杂的多模态间歇过程存在数据样本间密度不平衡的问题。
DPC通过构造决策图的方式选取聚类中心,但该方式引入了人为的主观性。由
如图1所示,具有两个密度相差较大的类簇1和类簇2。高密度的类簇1其聚类中心为点p1,具有最高的局部密度及γ得分,次高的局部密度点为点p2。样本密度较低的类簇2,其聚类中心为点p3,由于类簇1的样本密度远大于类簇2,使得点p2的γ得分高于点p3。因此,在已知两类数据分布的情况下,选取γ值较大点p1和点p2作为聚类中心将导致错误的聚类结果。
图1
图1 样本密度不平衡的类簇分布
Fig.1 Clusters distribution with unbalanced sample density
为避免高密度区域非聚类中心点对低密度区域聚类中心点选取带来的干扰,本文利用每个数据点的
式中,
1.2 改进DPC的间歇过程模态划分
针对过程数据样本密度不平衡的多模态间歇过程,结合提出的样本得分计算方式,构建了间歇过程模态中心自动选取策略。对间歇过程批次数据样本计算
(1)对向量
(2)利用该值之前的所有数据进行线性拟合并对该值进行预测。预测公式为
式中,a和b为线性拟合参数;
(3)绝对差值
式中,
重复上述步骤,第一个不满足该条件的点即为拐点,记拐点索引为xP。根据索引xP,对向量
式中, xk 为跨模态分配的点,其采样时刻为k; vc 为该数据点前后的模态中心,其采样时刻为c;dist( xk, vc )为 xk 与 vc 之间的距离。
xk 将被重新分配于L值更大的模态。至此,间歇过程数据在不同数目下的模态划分完成,并且结果保证了模态划分的时序性。为了获得间歇过程的最优模态数目,定义模态划分函数为
式中, Cr 为第i批次的第r个模态;dist( x, vr )为 Cr 的模态中心 vr 与样本 x 之间的距离。由模态划分函数P得到函数值集合
最优模态数目
基于最优模态数目的划分结果,需要对相邻稳定模态间的过渡模态进行识别。具有
式中, vr 为模态r的中心; Ck 为该数据点与 vr 之间的所有数据点组成的集合且集合中数据点数目为nk。
由
图2
图2 改进DPC的间歇过程模态划分流程图
Fig.2 Mode partitioning flowchart of batch processes for improved DPC
(1)对间歇过程三维历史数据集
(2)由
(3)计算数据样本的
(4)将每批次间歇过程数据分别按模态数目为1至F进行划分;
(5)利用不同模态数目下的划分结果由式(11)~
(6)基于
(7)间歇过程模态划分完成。
2 基于IDPC-RVM的多模态间歇过程质量变量在线预测
2.1 RVM预测建模
以IDPC模态划分结果为基础,分别对间歇过程各模态数据集建立RVM预测模型,RVM对于输入 x 和输出y之间的关系可描述为
式中,
权重向量 w 通过最大似然估计获得,RVM对每个权重引入超参数
后验协方差
式中,
超参数
式中,
2.2 基于IDPC-RVM的多模态间歇过程质量变量在线预测
对于在线样本的待测变量 xnew,根据样本采样时间确定样本所属模态r,将其标准化后得
基于IDPC-RVM的多模态间歇过程质量变量在线预测流程如图3所示,其算法步骤如下。
图3
图3 基于IDPC-RVM的多模态间歇过程质量变量在线预测流程图
Fig.3 Flow chart of online prediction of quality variables in multimode batch processes based on IDPC-RVM
(1)根据IDPC模态划分结果建立各模态数据集;
(2)对各模态数据集进行标准化并建立RVM预测模型;
(3)对于每个在线样本,根据样本采样时间确定所属模态r;
(4)利用第r个模态数据的均值和标准差对在线样本进行标准化;
(5)标准化后的样本由
3 实验结果与讨论
以青霉素发酵过程为研究对象,通过对比不同模态划分方法下RVM模型的青霉素浓度在线预测性能,验证所提方法的有效性。其中,采用如
式中,
3.1 青霉素发酵过程
青霉素发酵过程是一个典型的多模态间歇过程,利用Pensim V2.0仿真平台[31],在不同初始条件和高斯白噪声下生成35批次数据。其中25批次作为训练集用于间歇过程模态划分,其余10个批次作为测试集用于测试不同模态划分结果下多模态预测模型性能。每批次采样时间为400 h,采样间隔为1 h。因此,模态划分数据集为
表1 青霉素发酵过程变量
Table 1
过程变量 | 单位 | 过程变量 | 单位 |
---|---|---|---|
通风率 | L/h | 二氧化碳浓度 | mmol/L |
搅拌功率 | W | pH | |
底物流加速率 | L/h | 反应器温度 | K |
底物流温度 | K | 产热量 | kcal/h |
底物浓度 | g/L | 加酸流速 | ml/h |
溶解氧浓度 | mol/L | 加碱流速 | ml/h |
生物质浓度 | g/L | 加冷却水流速 | L/h |
青霉素浓度 | g/L | 加热水流速 | L/h |
反应器体积 | L |
新窗口打开| 下载CSV
3.2 改进DPC的模态划分
对标准化后的青霉素发酵过程数据计算
图4
图4 青霉素发酵过程样本密度
Fig.4 Sample density of penicillin fermentation process
图5
图5 决策图
Fig.5 Decision graph
对图5中低密度区域内的A点和高密度区域内的B点进行分析,点A和B在决策图中的坐标分别为(0.1696,0.1649),(0.9064,0.0499),可得A和B对应样本点的γ得分为0.0280和0.0452。依据密度峰值聚类算法对决策图中聚类中心点的选取原则,相较于点B,点A与其他数据点的偏离更大,其被选为模态中心的优先级应高于点B,然而,此时点A对应数据样本的γ得分却低于点B对应数据样本的γ得分,造成了模态中心的错误选取。利用本文提出的
按
图6
图6 批次3在不同模态数目下的划分结果
Fig.6 Partitioning results of batch 3 with different number of modes
图7
图7 最优模态数目判别
Fig.7 Discrimination of the optimal number of modes
设定模态数目为4,对比不同方法下获得的稳定模态(steady mode,SM),如图8所示。从图中可知,SCFCM算法虽然获得了较好的模态划分结果,但该算法需要人为输入模态数目用于寻找初始模态中心,不同的初始模态中心会产生不同的模态划分结果;DPC方法在选取模态中心时错误地将高密度区域的非模态中心点选为了模态中心,导致错误地将发酵过程后期分为了两个模态,并且在所识别到的第2个模态中有大量样本被错误分配到了第4个模态,即模态划分结果不满足时序约束的要求;本文方法在进行模态划分时考虑过程数据的高维特征,通过合理的模态中心选取以及对剩余样本进行时序的模态分配,获得了较好的模态划分结果。
图8
图8 不同方法的稳定模态
Fig.8 Steady modes with different methods
对最优模态数目
表2 不同方法的最终模态划分结果
Table 2
方法 | SM #1 | TM #1 | SM #2 | TM #2 | SM #3 | TM #3 | SM #4 |
---|---|---|---|---|---|---|---|
SCFCM | 1~38 | 39~48 | 49~93 | 94~110 | 111~146 | 147~226 | 227~400 |
DPC | 1~40 | — | 41~283 | — | 284~343 | — | 344~400 |
IDPC | 1~28 | 29~49 | 50~98 | 99~117 | 118~177 | 178~199 | 200~400 |
新窗口打开| 下载CSV
3.3 青霉素发酵过程质量变量在线预测
根据表2不同方法下的模态划分结果,分别建立RVM、SCFCM-RVM、DPC-RVM以及IDPC-RVM的多模态预测模型对10个测试批次的青霉素浓度进行在线预测。
图9中青霉素浓度的预测值和实际值的变化图表明本文方法的预测值更接近于实际值,其中未考虑模态因素的RVM预测模型对青霉素浓度的预测在整个发酵过程中与实际值均有较大的偏离。图10为测试批次1在各采样点处的预测误差,可以看出本文方法的预测误差始终在0附近具有很小的波动,表明本文方法对青霉素浓度具有很好的预测和跟踪性能。从图11可以看出,相较于RVM、SCFCM-RVM和DPC-RVM方法,本文方法对10个测试批次均具有最低的预测误差,且对不同批次的预测误差波动较小,具有较好的稳定性。如表3所示,本文方法对青霉素浓度预测的R2提升至0.9995,RMSE比RVM、SCFCM-RVM和DPC-RVM方法分别降低了84.3%、44.3%和75.7%,有效地提升了青霉素浓度的预测精度。
图9
图9 测试批次1在不同方法下的预测结果
Fig.9 Prediction results of test batch 1 with different methods
图10
图10 测试批次1各采样点处的预测误差
Fig.10 Prediction error at each sampling point in test batch 1
图11
图11 不同批次的RMSE
Fig.11 RMSE of different batches
表3 不同方法下的平均RMSE和平均R2
Table 3
方法 | 平均RMSE | 平均R2 |
---|---|---|
RVM | 0.0592 | 0.9815 |
SCFCM-RVM | 0.0167 | 0.9986 |
DPC-RVM | 0.0382 | 0.9924 |
IDPC-RVM | 0.0093 | 0.9995 |
新窗口打开| 下载CSV
实验结果表明,基于单模型的预测方法对青霉素浓度的预测结果远不如基于多模型的预测方法。SCFCM-RVM方法和DPC-RVM方法虽然比单模型的预测方法具有更好的预测结果,但两种方法在模态划分时采用欧氏距离度量数据样本间的相似性,均未考虑过程数据的高维特征;在选取模态中心时,相较于SCFCM方法,DPC方法虽然能够获得数据样本的密度峰值点,但其低密度区域模态中心选取易受高密度区域非模态中心点干扰产生不合理的模态划分结果,导致其预测误差较大,且对不同批次的预测结果具有较大的波动。与这些方法相比,本文方法考虑了过程数据的高维特征,且能够获取合理的模态中心,有效实现了青霉素发酵过程的模态划分,提高了青霉素浓度的在线预测精度。
4 结论
间歇过程数据的高维特征和模态中心选取影响模态划分结果的合理性,导致间歇过程质量变量在线预测精度较低。本文提出了一种基于IDPC-RVM的多模态间歇过程质量变量在线预测方法。该方法所构建的样本距离计算函数,充分考虑了过程数据高维特征对样本相似性度量的影响,其结果更有利于间歇过程的模态划分;在样本密度不平衡情况下,结合提出的样本得分计算方式,所构建的模态中心选取策略能够克服高密度区域非模态中心点的干扰,准确获取间歇过程的模态中心,避免了不合理的模态划分结果,从而提高了多模态模型的预测精度。青霉素发酵过程的实验结果表明,相较于SCFCM-RVM方法和DPC-RVM方法,本文方法实现了合理的模态划分,建立的多模态模型进一步提升了青霉素浓度的在线预测精度。
- 2025年中科院分区表已公布!Scientific Reports降至三区
- 官方认定!CSSCI南大核心首批191家“青年学者友好期刊名单”
- 2023JCR影响因子正式公布!
- 国内核心期刊分级情况概览及说明!本篇适用人群:需要发南核、北核、CSCD、科核、AMI、SCD、RCCSE期刊的学者
- 我用了一个很复杂的图,帮你们解释下“23版最新北大核心目录有效期问题”。
- 重磅!CSSCI来源期刊(2023-2024版)最新期刊目录看点分析!全网首发!
- CSSCI官方早就公布了最新南核目录,有心的人已经拿到并且投入使用!附南核目录新增期刊!
- 北大核心期刊目录换届,我们应该熟知的10个知识点。
- 注意,最新期刊论文格式标准已发布,论文写作规则发生重大变化!文字版GB/T 7713.2—2022 学术论文编写规则
- 盘点那些评职称超管用的资源,1,3和5已经“绝种”了