优胜从选择开始,我们是您最好的选择!—— 中州期刊联盟(新乡市博翰文化传媒有限公司)
0373-5939925
2851259250@qq.com
我要检测 我要投稿 合法期刊查询
您的位置:网站首页 > 优秀论文 > 其他论文 > 正文

基于高光谱成像技术的大曲还原糖含量预测及其可视化

作者:刘亮 黄丹平 田建平 黄丹 罗惠波 田颖 徐佳乐 叶建秋来源:《食品与发酵工业》日期:2022-04-24人气:1720

大曲主要以生料小麦为原料,通过自然网罗制曲环境中的微生物接种发酵,微生物在曲坯中此消彼长,自然积温转化并风干而成的一种多酶多菌的微生态制品[1-3]。大曲是白酒生产过程中的关键材料,大曲的好坏直接影响白酒品质[4]。在发酵过程中,还原糖的含量是大曲质量评价的重要指标。因此,实时检测还原糖含量对生产优质大曲至关重要。大曲还原糖含量的常规检测方法为化学方法,需要用化学试剂对样品进行复杂而缓慢的实验,且会对大曲样品造成不可逆转的破坏。因此,实现大曲还原糖含量的快速无损检测具有重要意义。

高光谱成像技术作为一种新兴的快速无损检测技术[5]。它将机器视觉与光谱技术相结合,采集目标对象的二维图像和一维光谱信息,从而获取高分辨率的图像和光谱数据[6]。区别于一般测量技术中对单点物质含量进行测量的方法,利用高光谱成像技术获得的光谱与图像信息能够实现物质含量变化的空间分析[7]。近年来,高光谱成像技术以其无损、绿色、高效等优点逐步引起食品领域研究人员的关注[8-10],高光谱成像技术与化学计量学方法结合,被广泛用于各种物质含量检测及可视化,如冬小麦氮素营养指标[11]、羊肉中饱和脂肪酸含量[12]、水稻籽粒直链淀粉含量[13]和马铃薯叶片叶绿素含量[14]。以上对物质含量检测方面的研究均取得了较好的结果,但在大曲物质检测方面,还没有将高光谱无损技术应用于大曲还原糖含量检测的相关研究报道。

因此,本研究以浓香型大曲为研究对象,针对大曲还原糖含量这一重要指标,提出一种基于高光谱成像技术、图像处理技术结合统计学方法对不同发酵时间的大曲还原糖含量进行检测的方法。研究内容如下:首先,采集大曲样本对应的高光谱图像;使用标准正态变量校正(standard normal variables,SNV)、卷积平滑(smoothing convolution,SG)、多元散射校正(multiplicative scatter correction,MSC)对大曲样本的高光谱数据进行预处理;采用主成分分析(principal component analysis,PCA)中的载荷系数法、连续投影法(successive projections algorithm,SPA)以及PCA-SPA算法分别提取了样本的特征波长;建立了基于全波长和特征波长的偏最小二乘回归(partial least squares regression,PLSR)和最小支持向量机(least squares support vector machine,LS-SVM)模型,预测大曲的还原糖含量;采用最优预测模型对不同发酵时间的大曲样本进行了还原糖含量可视化。

1 材料和方法

1.1 样品制备

以四川宜宾某酒厂生产的大曲为样本,该大曲发酵周期为22 d。为获取不同发酵时期的大曲样品,在发酵过程中每天从曲房预设位置分别取6个样品,共获得132个大曲样品。采集的大曲样品用于后续高光谱图像采集与还原糖含量测定。

1.2 仪器与设备

对大曲近红外高光谱数据进行采集的系统由芬兰FX17系列高光谱相机、2个150 W卤素光源、电控移动平台、计算机组成。其中FX17系列相机光谱范围900~1 700 nm,采样间隔3.58 nm,共采集224个波段,采集方式为推扫式,分辨率640×181像素,采样曝光时间4.02 ms,扫描速度16.57 mm/s。

1.3 高光谱图像获取

采集数据时将曲块碾成曲粉,用勺子取曲粉样品于石英器皿中,填充至与边缘平齐的位置,再将石英器皿放置在电控移动平台的中心位置进行数据采集,得到132组大曲样本的原始高光谱数据。

提取的高光谱数据经过黑白校正,才能转化为表征每个样品的反射率[15]。此外,黑白校正可以消除样本形状的差异以及高光谱相机中存在暗电流引起的噪声[16]。校正公式如公式(1)所示:

(1)

式中:I,校正后反射光谱率;I0,原始高光谱数据;B,暗电流数据;W,标准白板数据。

校正后选取大曲样本的感兴趣区域(region of interest,ROI),将ROI的光谱数据进行平均处理后作为大曲样本的原始高光谱数据,原理如图1所示。使用图像处理方法检测培养皿的边缘,由边缘得到培养皿中心坐标;并以中心坐标为圆心,绘制直径为161像素的圆形掩膜;提取掩膜区域的光谱数据,进行平均处理,得到该ROI的光谱反射率。每个样本提取一个ROI,求得每个ROI内所有像素点的平均光谱,得到132组光谱数据。

a-高光谱数据;b-提取的ROI;c-ROI内每个像素点的光谱曲线;d-ROI平均光谱曲线

图1 ROI光谱提取

Fig.1 ROI spectrum extraction

1.4 大曲还原糖测定

采用直接滴定法测定,此方法常用于食品中还原糖含量的测定。除去样品中的蛋白质后,以亚甲蓝为指示剂,在加热条件下滴定校准的碱性酒石酸铜溶液(用标准还原糖溶液校准),根据消耗量计算还原糖含量。省略了相关的溶液制备方法和具体的滴定过程,样品的还原糖含量按公式(2)计算:

(2)

式中:X,样品的还原糖含量,g/100 g;m1,还原糖的质量,mg;m,样品的质量,g;F,系数,1;10,试样溶液的体积,mL;250,定容体积,mL;1 000为换算系数。

2 数据分析方法

2.1 光谱数据预处理

由于暗电流、环境光等因素的影响,采集的原始光谱中掺杂了与样本无关的信息。采用合适的光谱预处理算法可以有效减弱各种因素对还原糖原始光谱数据的影响,提高预测模型的稳定性和预测能力[17-18]。本文采用MSC、SG、SNV共3种预处理方法。

2.2 特征波长筛选

获取的大曲高光谱样本的数据量大,波段数量多,且相邻波长图像高度相关,含有很多冗余信息和干扰信息,会影响建模的效率[19]。因此需要采用合适的方法筛选与表征指标高度相关的特征波长,以增加模型的鲁棒性和泛化性[20]。本文采取PCA算法与SPA进行特征波长提取。

2.2.1 PCA

PCA是一种常见的数据分析方式,常用于高维数据的降维,可用于提取数据的主要特征分量。PCA得到的每个主成分都是原始数据中所有变量的线性组合。使用PCA载荷系数提取光谱特征波长步骤如下:首先使用PCA算法计算光谱数据的主成分;然后,选择前几个贡献率大的主成分对应的载荷因子;最后,根据阈值选择载荷因曲线对应的波长作为特征波长。具有较大载荷因子的波长对应于光谱曲线中的重要峰谷[21]。本文使用PCA提取特征波长的目的是去除数据中不相关或信息含量低的波长,以降低数据维度。

2.2.2 SPA算法

SPA算法是一种使矢量空间共线性最小化的前向变量选择算法,可以将有效的信息从大量的光谱数据中筛选出来,找到光谱变量之间共线性最小的特征波长[22]。本文使用SPA提取特征波长的目的是找到光谱变量之间共线性最小的特征波长,优化建模条件。

2.2.3 PCA-SPA算法

本研究使用了一种新兴的特征波长提取算法。该算法由PCA和SPA组成,称为PCA-SPA算法[23]。使用该算法时先用PCA通过主成分的载荷系数提取光谱特征波长,然后在此基础上使用SPA算法进行特征波长的二次提取。使用PCA-SPA算法的目的是确定还原糖的特征波长,构建更稳定、更简单的检测模型。

2.3 数学模型的建立与评价

本研究分别采用PLSR和LS-SVM模型建立还原糖含量检测模型。两种模型均可用于探索光谱维度X(大曲的光谱数据)与含量Y(大曲还原糖含量)之间的潜在关系。通过校正集决定系数校正集均方根误差(root mean square error of calibration,RMSEC),预测集决定系数预测集均方根误差(root mean square error of prediction set,RMSEP)对大曲还原糖含量预测模型的准确性和预测能力进行评价分析。其中决定系数越接近于1越好,均方根误差RMSEC和RMSEP越接近于0越好[24]。

2.4 还原糖含量可视化

为直观测定指标的含量分布情况,为大曲样品的ROI中还原糖的含量进行可视化处理。提取大曲样本高光谱图像每个像元的光谱反射率,依据检测模型计算每个像元的还原糖含量。由于大曲还原糖含量在0.8~10 g/100 g,为了将不同发酵期间的大曲样本感兴趣区域内各像素点的还原糖含量用伪彩色图显示,需要将各像素点的大曲还原糖含量数值映射到0~255灰度图像的范围期间。然后对灰度图像进行伪彩色处理形成还原糖含量的可视化分布图。还原糖含量的可视化彩色分布图直观的显示出还原糖含量的二维分布,可以更好的观察不同发酵时期的大曲还原糖含量及其分布情况。

3 结果与分析

3.1 大曲还原糖含量的变化

本研究采用Kennard-Stone(KS)算法将132个大曲光谱数据分为训练集(100)和预测集(32),如表1所示。

表1 大曲样品还原糖含量统计表

Table 1 Statistics of reducing sugar content in Daqu samples

3.2 大曲样品的光谱特征

由于光谱曲线的首尾波长噪声较大,为保证数据的准确性,去掉首尾10个波长的数据。图2显示了大曲在不同发酵时期的204个波段的平均光谱反射率曲线。

图2 原始光谱图

Fig.2 Original spectrogram

在波长范围内,光谱曲线表现出相同的吸收带和反射峰,但不同带的反射率不同,这主要是由于大曲在不同发酵时期的物质组成存在差异。近红外波长范围内的吸收峰都是由O—H、C—H、N—H等共价键的吸收引起的。O—H作用于980 nm左右的波长,这是因为水的作用;C—H作用于1 210 nm附近的波长,这归功于脂肪;N—H作用于1 442 nm附近的波长,这是由于蛋白质[12]。

3.3 基于全波长光谱预测大曲还原糖的含量

基于原始光谱(无处理)和3种预处理的204个波长,分别建立PLSR和LS-SVM预测模型,建模效果如表2所示。

表2 PLSR和LS-SVM模型全光谱建模效果

Table 2 Full spectrum modeling effect of PLSR and LS-SVM models

经过SNV预处理所建立的PLSR模型效果最佳,预测集决定系数为0.905 2,RMSEP为0.544 1 g/100 g,优于其他方法。后续建模分析均基于SNV算法预处理后的样本光谱进行分析,经SNV预处理后的样本光谱曲线如图3所示。

图3 SNV预处理结果

Fig.3 SNV pretreatment results

3.4 模型优化

3.4.1 基于SPA提取特征波长的大曲还原糖预测模型

对SNV算法预处理后的204个波段的样本光谱进行SPA特征波长提取,将提取后的特征波长进行PLSR与LS-SVM建模预测的结果如表3所示。

由表3可知,对经过SPA算法进行特征提取的光谱数据进行建模,PLSR在训练集和测试集的表现均优于LS-SVM,且PLSR模型训练集和测试集的精度差异更小,表明PLSR较LS-SVM有更好的精度和稳定性。该SNV-SPA-PLSR预测模型的预测集决定系数为0.914 5,预测集均方根误差RMSEP为0.503 0 g/100 g,波段数为61,光谱波段减少量为70%。

表3 基于SPA提取特征波长的光谱建模效果

Table 3 Spectral modeling effect of extracting characteristic wavelength based on SPA

3.4.2 基于PCA载荷因子提取特征波长的大曲还原糖预测模型

对SNV算法预处理后的204个波段的样本光谱进行PCA运算,前3个主成分的贡献率如图4所示,其中还原糖的前3个主成分贡献率之和达到99.96%,后续主成分的累计贡献率提高幅度逐步变小,因此选择前3个主成分的载荷因子提取特征波长。

图4 PCA中主成分的贡献率

Fig.4 Contribution rate of principal components in PCA

利用PCA光谱数据主成分,根据前3个主成分对应的载荷因子提取还原糖的特征波长,根据设置的载荷因子的阈值,可得到不同数目的特征波长,并进行PLSR和LS-SVM建模,建模效果如表4所示。随着载荷阈值的增加,提取的特征波长数量会快速的减少,而后减少得较慢,最后不发生变化,这表明PCA载荷因子对变量的选择是一个从粗略到精细的过程。当载荷因子的阈值达到0.060时,选择的特征波长数目变化趋于平缓,且此时建模效果较差,预测精度皆在0.86及以下,说明阈值设置过高,在提取特征波长的过程中删去了一部分与还原糖相关的波段。说明当载荷因子的阈值小于0.060时,算法滤除与大曲还原糖无关的光谱信息。

表4 基于PCA提取特征波长的光谱PLSR建模效果

Table 4 Spectral PLSR modeling effect based on PCA extracting characteristic wavelength

由表4中不同载荷因子阈值提取的不同特征波长建模效果来看,PLSR建模精度明显优于LS-SVM。在载荷因子阈值为0.045时PLSR建模预测集的最高,达到0.916 8 g/100 g,在该载荷阈值下提取出的特征波长共114个,光谱波段减少量为44%。

3.4.3 基于PCA-SPA提取特征波长的大曲还原糖预测模型

在研究中,分别将大曲的光谱数据进行了PCA和SPA算法的特征波长提取。单独使用SPA算法时,尽管降低了特征波长点建的共线性,但也会保留下一些无信息、甚至会产生干扰的波长点。同样,当在单独使用PCA算法进行特征波长提取时,也会留下一些信息量较少的波长。因此,本实验中将PCA算法与SPA算法联合,实现两者之间的优势互补,建立基于PCA-SPA特征波段选取的PLSR大曲还原糖含量预测模型。

使用PCA-SPA算法对光谱数据进行特征波长提取。设定PCA的载荷因子阈值为0.045,经过2种算法提取特征,得到26个特征波长点,分布如图5。图中蓝色光谱曲线为132个大曲样本的平均光谱反射率曲线,橙色标记点对应选择的波段位置。还原糖的特征波长主要分布在短波近红外区,且基本分布在光谱曲线的波峰波谷附近。

图5 PCA-SPA算法提取的特征波长

Fig.5 Characteristic wavelength extracted by PCA-SPA algorithm

对基于SNV-PCA-SPA方法提取的特征波长进行PLSR与LS-SVM建模分析。LS-SVM预测模型的训练集和预测集的决定系数分别为0.863 4和0.802 1,训练集和预测集的均方根误差分别为0.662 2和1.119 4 g/100 g。PLSR模型预测大曲还原糖的效果最好,训练集和预测集的决定系数分别为0.983 2和0.922 7,训练集和预测集的均方根误差分别为0.057 3和0.455 6 g/100 g,光谱波段数减少了87%。PLSR模型预测集的拟合效果如图6所示。

图6 预测集的拟合效果图

Fig.6 Fitting effect diagram of prediction set

3.4.4 最优大曲还原糖预测模型

经过上述实验分析,本研究确定了SNV-PCA-SPA-PLSR为最优的大曲还原糖含量的预测模型。首先对基于原始光谱和3种预处理的204个波长,建立PLSR和LS-SVM预测模型,得出经SNV预处理算法的PLSR建模效果最佳;为减少建模的复杂度以及提升建模精度,分别使用PCA载荷系数法以及SPA算法对光谱数据进行特征提取,经建模分析,得出最佳模型为PCA-PLSR以及SPA-PLSR,建模所用光谱数据分别减少70%和44%;为进一步提高建模效果,提出PCA-SPA算法进行特征提取,经建模验证,PLSR模型精度及准确度皆有一定的提高,建模所用光谱数据减少87%。综上所述,本研究的最优大曲还原糖含量的预测模型为SNV-PCA-SPA-PLSR模型。

3.5 大曲还原糖含量可视化

在确定了SNV-PCA-SPA-PLSR为最优的大曲还原糖含量的预测模型后,使用最优模型对大曲还原糖含量进行可视化分析。不同发酵时期的大曲样本的还原糖含量可视化如图7所示,其中不同的颜色代表不同的还原糖含量值,深红色区域表示还原糖含量值较高,深蓝色区域表示还原糖含量值较低。随着还原糖含量的增加,颜色逐渐由深蓝色变为深红色。ROI中分布不均还原糖的含量可以通过颜色清晰区分,与单点检测技术相比,高光谱成像可以实现大曲任意局部区域的可视化。

a-第1天;b-第5天;c-第9天;d-第13天;e-第17天;f-第22天

图7 大曲还原糖可视化分布

Fig.7 Visual distribution of reducing sugar in Daqu

由图7可知,不同发酵阶段的大曲还原糖含量明显不同,随着发酵时间的进行,还原糖含量不断降低,颜色逐渐由红变蓝。发酵前期有较多红色区域,因为发酵刚开始时,微生物大量繁殖,产出大量还原糖;随着发酵进行,还原糖含量逐渐下降,这是因为酵母菌等其他菌种的快速增殖消耗了部分还原糖[25]。高光谱成像可以直观显示大曲还原糖分布,为判定大曲发酵状态,调节曲房环境提供了依据。

4 结论

本实验用高光谱成像系统采集了大曲样本的高光谱图像,使用K-S算法将大曲样本以3∶1的比例进行划分,训练集样本个数为100个,预测集样本个数为32个。利用原始(无处理)和不同预处理方式(SNV、MSC、SG)处理后的光谱数据分布建立PLSR和LS-SVM模型大曲还原糖含量,发现SNV方法可以提高模型预测还原糖含量的精度,训练集和预测集的决定系数分别为0.954 0和0.905 2,均方根误差RMSEC和RMSEP分别为0.159 2 g/100 g和0.544 1 g/100 g。

对SNV预处理过后的光谱数据分别使用SPA、PCA和PCA-SPA 3种方法进行特征波长提取。基于不同方法提取的特征波长建立的PLSR和LS-SVM模型预测还原糖含量,发现用PCA-SPA提取的特征波长建立的PLSR模型最优,训练集和预测集的决定系数分别为0.983 2和0.922 7,均方根误差RMSEC和RMSEP分别为0.057 3 g/100 g和0.455 6 g/100 g。利用最优模型对大曲样本ROI区域的还原糖含量进行可视化,直观反映了不同发酵时期的大曲还原糖含量的变化情况。研究结果表明,高光谱成像技术用于大曲还原糖含量快速检测是可行的,为大曲发酵状态判定和曲房环境调控提供了理论基础。

在进一步研究中,应扩大样本获取范围,采集不同发酵批次的大曲样本,扩大样本数量,增大样本的还原糖范围,使模型的预测性更高,应用更加广泛。


网络客服QQ: 沈编辑

投诉建议:0373-5939925    投诉建议QQ:

招聘合作:2851259250@qq.com (如您是期刊主编、文章高手,可通过邮件合作)

地址:河南省新乡市金穗大道东段266号中州期刊联盟 ICP备案号:豫ICP备2020036848

【免责声明】:中州期刊联盟所提供的信息资源如有侵权、违规,请及时告知。

版权所有:中州期刊联盟(新乡市博翰文化传媒有限公司)

关注”中州期刊联盟”公众号
了解论文写作全系列课程

核心期刊为何难发?

论文发表总嫌贵?

职院单位发核心?

扫描关注公众号

论文发表不再有疑惑

论文写作全系列课程

扫码了解更多

轻松写核心期刊论文

在线留言