在现代工业、环境监测和公共安全等领域中,实时、准确、便捷的检测技术正在快速发展,傅里叶变换红外光谱(Fourier transform infrared spectroscopy,FTIR)技术因其能够满足高效生产、安全保障和环保需求,成为替代气相色谱等实验室检测技术的首选方案[1-4]。本研究基于高分辨率透射分子吸收数据库(high-resolution transmission molecular absorption database,以下简称HITRAN数据库)的高危混合气体红外光谱定量分析仿真,选择含有H2S、CO2和CH4 3种气体的混合气体作为研究对象进行定量分析实验。该实验对象来源于天然气净化厂脱硫工艺产生的含硫气体,通常被称为酸气,其H2S含量高[5-6]。脱硫工艺的现有技术主要是采用克劳斯法将酸气中的H2S转化为元素硫,在这一过程的升级改造中,需要对酸气组分进行精准检测,以确保工艺的安全性和效率。目前的检测方法主要依赖于人工取样和实验室分析,存在一定的安全隐患,同时,检测结果的及时性和准确性难以保证。因此,研究高效、准确的在线检测技术具有重要意义。
本研究采用HITRAN数据库生成的高精度理论光谱数据基于傅里叶红外光谱技术进行仿真实验研究,通过光谱叠加方法模拟酸气组分H2S、CO2和CH4的混合光谱。为提高仿真光谱与实际检测数据的相符程度,加入适当的噪声并模拟FTIR仪器的响应特性。在建模过程中利用支持向量回归(support vector regression, SVR)和径向基函数(radial basis function, RBF)神经网络模型对生成的混合气体数据进行定量分析。实验表明,该技术在多组分气体检测中的有效性和准确性,其中,采用RBF作为核函数的支持向量回归(R-SVR)模型在定量分析中的表现优于其他方法。
通过本研究的仿真实验结果,验证了傅里叶红外光谱技术在酸气检测应用中的可行性,低成本高效地为高含量H2S混合气体的检测技术提供了可靠的前期验证手段,同时减少了毒气实验在实际操作中的安全隐患。其他研究人员参考本研究的混合气体定量分析仿真实验方法,可以快速评估和优化检测模型,提升实验的可控性和重复性,从而为在线检测技术的工程应用研究提供支持。
HITRAN数据库从1973年首次发布后,已成为气体分子光谱研究、遥感、气候研究和环境监测等领域的核心工具之一[7]。该数据库包含了多种气体分子的波数、强度、线宽和温度指数等光谱特性,这些数据对于模拟和解析分子吸收光谱至关重要,是本研究进行混合气体红外光谱分析仿真研究的数据来源。该数据库网站的气体分子参数通常按照特定的文本格式进行组织存储。表1所列为HITRAN数据库H2S分子的逐行数据下载格式示例[8]。
HITRAN数据库中的数据可用于模拟气体的红外吸收光谱,帮助研究人员了解不同气体的吸收特性,并为定量分析提供基础数据[9]。在本研究中,利用HITRAN数据库中的气体光谱数据模拟H2S、CO2和CH4的红外吸收光谱,通过对模拟计算的仿真光谱和标准样气测定的实际光谱进行对比,验证了HITRAN数据库在模拟混合气体红外光谱中的实用性。表2列出了3种气体的物化性质及其主要吸收峰位置,其中吸收峰位置仅用于展现目标气体的光谱特性,而非模拟计算中选用的具体波数范围。本研究采用的是900~5000 cm−1波段的全光谱范围的定量分析,以最大限度地包含各目标组分的主要吸收峰光谱信息。
从HITRAN数据库下载实验所需的混合气体(H2S、CO2、CH4)的逐行数据,根据经典光学定律Beer-Lambert,光的吸收强度与气体含量和光程长度成正比,这一理论依据可模拟光谱分析中的吸收过程[10]。用Beer-Lambert法计算吸光度,如式(1)所示。
式中:A为吸光度;$ \alpha $为吸收系数,L·mol−1·cm−1;c为气体浓度,mol/L;L为光程长度,cm。
吸收系数可根据下载的逐行数据(见表1)计算得到,如式(2)所示。
式中:v为波数,cm−1;$ \alpha(v) $为在波数$ v $时的吸收系数,L·mol−1·cm−1;$ I $为对应的线强度(线强度从数据库中读取);$ \varPhi(v) $为线型函数,线型函数通常选择洛伦兹线型(Lorentzian),其表达式如式(3)所示。
式中:$ v_{0} $为过渡中心波数,cm−1;$ \gamma $为半宽度(是逐行数据中gamma_air与gamma_self的加权和,根据实验条件如压力、温度确定),cm−1·kPa−1。
根据上面的计算方法,可以计算出不同含量的单组分理论光谱数据,其吸收光谱图见图1和图2。
为进一步模拟混合气体组分的红外光谱数据,采取朗伯比尔定律与吸收谱的加和性原理进行计算(混合组分之间相互不发生化学反应)[11],基本原理公式如式(4)所示。
式中:$ A(v) $为n个混合气体光谱组分在波数为$ v $时的总吸光度;$ a_{i}(v) $为第i个组分在波数为$ v $时的吸光度;ci为第i个组分的浓度,mol/L;L为吸收气室光程长度,cm。
图3所示为酸气组分( CO2、H2S、CH4体积分数分别为58.2%,41.3%、0.2% )在同体积分数配比及同条件下计算的模拟光谱与实际仪器光谱图的比对图。由图3可看出,去除仪器中其他环境影响,本实验研究的3种混合气体组分在关键吸收峰位置上的吸光度同仪器所示光谱大致相同。因此,通过以上方法计算仿真光谱数据进行的气体定量分析仿真实验是可行的。
本研究采用傅里叶红外分析仪进行模拟,理论上可测量0~100%的气体体积分数范围,光谱范围为5 000~900 cm−1,光谱分辨率为1 cm−1。用于建模的数据样本是基于HITRAN数据库构建的H2S、CO2和CH4的混合气体组分仿真光谱数据,共300组。图4所示为部分混合气体组分样品光谱图,表3所列为仿真数据样本的酸气组分配比示例表,体积分数边界点设定参照天然气净化厂实际工艺中酸气的常见体积分数范围。采用随机方式抽取4/5的样本作为校正集,1/5的样本作为验证集。为使仿真数据更接近真实情况,在光谱数据中加入了适当的噪声,以模拟FTIR仪器的响应特性,同时在混合气体样本配比中加入了氮气(N2),也是配样和检测时采用的背景气和清洗气。
本实验中的预处理方法采用了S-G(Savitzky-Golay)平滑滤波,该方法的主要目的是在减小噪声影响的同时,尽可能地保留傅里叶光谱中的重要特征信息[12]。图5所示为预处理前后的光谱对比情况(CO2、H2S、CH4体积分数分别为29.1%、55.2%、0.9%)。从图5可清楚地看到,数据经预处理后,在保持重要光谱特征的前提下,起到了噪声抑制的作用。
完成数据预处理后,形成了用于建模的光谱数据矩阵A和含量数据矩阵C,如式(5)和式(6)所示。
式中:${a_{ij}}$为第j个标准样本在i个波数上面的吸光度;${c_{ij}}$为第j个标准样本中第i个组分的标准含量。
本实验采用了SVR和RBF神经网络两种定量分析模型,并对其进行分析和比较。
RBF是一种基于距离的函数,常见的RBF有高斯函数、倒数多项式函数和多面体函数[13]。本实验主要采用的是高斯函数,其计算公式如式(7)所示。
式中:$ \left\| {x - c} \right\| $为输入向量x和中心c之间的欧几里得距离;$ \sigma $为控制函数形状的参数。
其算法训练过程是通过聚类算法(K-means)确定RBF单元的中心和宽度,确定单元参数后再通过最小二乘法计算输出层的权重。在定量分析中,RBF模型建立输入光谱数据和输出含量目标值之间的关系,同时引入模型效果预测指标。本研究选用决定系数(coefficient of determination, R2)和均方根误差(root mean square error, $ \mathrm{\varepsilon } $RMSE)作为模型效果的评价标准,R2介于0和1之间,反映统计模型对结果的预测程度,R2越接近1,说明模型对实际观测值的拟合程度越高,预测效果越好[14];$ \varepsilon $RMSE则反映了预测值与真实值之间差异的平方根,能够衡量模型误差大小,$ \varepsilon $RMSE越小,意味着模型的预测误差越低。酸气组分RBF建模含量预测效果图如图6~图8所示。
实验结果表明,酸气组分H2S、CO2、CH4的RBF模型建模预测效果总体良好,预测值与真实值的拟合程度较高(其中,真实值来源于仿真数据样品建模中五分之一的验证集数据),反映了模型在大部分样本中的预测准确性。然而,观察图6可以发现,组分H2S的部分预测值偏离真实值较大,特别是在边界点附近。分析表明,这种现象可能是由以下原因导致的:随机抽样方式可能导致校正集样本的含量分布不均匀,尤其在边界区域样本较少;仿真数据中人为引入的噪声,用以模拟傅里叶红外光谱仪器的响应特性,在部分含量范围内可能加大了误差;RBF神经网络模型对某些复杂非线性关系的拟合能力存在局限性,导致在部分区域预测精度下降。
为解决这些问题,本研究尝试引入SVR模型,结合RBF,提出优化模型R-SVR,以进一步提升模型的预测能力。
为进一步提升傅里叶红外光谱定量分析中的预测准确性和模型效率,对多种数学模型进行了研究验证。最终实验发现,采用RBF作为SVR模型的核函数构建的新模型效果更好,将其命名为“Radial SVR”(简称为R-SVR)。R-SVR基于支持向量机(SVM)的核心思想,即在高维空间中寻找最优超平面,以进行数值预测任务[15]。其模型将傅里叶红外光谱数据作为输入,含量值作为输出,确保数据的一致性和准确性,RBF作为核函数,进一步增强模型对非线性关系的处理能力,从而适应光谱数据中更复杂的模式识别,在参数设置方面,R-SVR将自动优化尺度参数,以确保RBF核函数能更有效地映射输入数据,同时引入惩罚参数,以适度控制模型复杂性并减少过拟合的风险。
通过优化,R-SVR能够更加准确地预测混合气体组分的含量,并在效果图及预测指标数据上实现更优的表现。酸气组分H2S、CO2、CH4的R-SVR建模含量预测效果图及预测指标数据对比见图9~图11和表4。
实验结果表明,R-SVR模型在傅里叶红外光谱的定量分析中展现了优异的预测性能。通过对H2S、CO2、CH4 这3种气体组分的仿真预测测试,表4所列的预测样本数据对比结果显示该模型能高度准确地预测气体含量,且误差极小。真实值与预测值的拟合度极高,表明该模型在处理此类组分时具有较高的精确度和可靠性。
在定量分析建模实验中,利用R2和$ \varepsilon $RMSE评价RBF和R-SVR模型的预测性能,R-SVR模型表现出更优异的预测性能,与RBF神经网络相比,R-SVR的预测准确度更高,尤其是两个模型在CO2和H2S的含量预测对比结果中,R-SVR模型的R2接近1,且$ \varepsilon $RMSE显著小于RBF模型(见表5)。这表明R-SVR在处理复杂非线性关系时,能够更好地拟合数据,预测误差较低。
本研究基于HITRAN数据库,结合傅里叶变换红外光谱(FTIR)技术和机器学习方法,对高含量H2S混合气体的定量分析进行了深入仿真研究。通过模拟含H2S、CO2和CH4 这3种气体的混合光谱,结合适当的噪声模拟和FTIR仪器响应特性,使得生成的仿真数据更加接近实际测量光谱。在建模实验中,基于径向基核函数的支持向量回归(R-SVR)模型表现出更高的精度和稳定性,优于RBF神经网络,在多组分气体的定量分析中具有显著优势。
尽管仿真研究中采用的光谱数据是基于理论构建的,但本研究提出的仿真研究方法提高了高危气体检测领域研究的效率和安全性,也为高精度、多组分气体的在线检测提供了前期理论基础和技术参考。由于本研究依赖于仿真模拟数据,而未进行实际标准气或酸气样品的实验验证,这可能影响实验模型在实际应用中的适用性,未来的研究将进一步结合实际光谱数据及实验仪器的测试结果,优化和完善本研究提出的建模方法。