石油与天然气化工  2025, Vol. 54 Issue (3): 130-137
基于HITRAN数据库的高含硫气体红外光谱定量分析
杨正刚1 , 曾巧2 , 奚宁凯1 , 高进1 , 李太福3     
1. 中国石油西南油气田公司天然气净化总厂;
2. 重庆科技大学安全科学与工程学院;
3. 重庆科技大学创新创业学院
摘要目的 为提高高危气体检测的安全性与效率,减少实际操作中的安全隐患,研究基于高分辨率透射分子吸收数据库(HITRAN数据库)的高含量H2S混合气体红外光谱定量分析方法,并验证其在工业、环境监测和公共安全领域中的应用可行性。方法 利用傅里叶变换红外光谱技术(FTIR),结合支持向量回归(SVR)和径向基函数(RBF)神经网络模型,对含H2S、CO2和CH4的混合气体数据进行定量分析。通过HITRAN数据库生成高精度理论光谱数据,并采用光谱叠加方法模拟混合气体光谱,同时加入噪声模拟FTIR仪器的响应特性,以更接近实际检测环境。结果 该方法在多组分气体的定量分析中表现出较高的效率和精度,其中基于径向基核函数的支持向量回归(R-SVR)模型效果优于RBF神经网络模型,能够实现更高精度的检测结果。结论 为高含量H2S混合气体检测提供了一种低成本、高效且安全的仿真验证手段,同时为实际应用中的多组分气体检测提供了可靠的技术支持,具有重要的工程实践价值。
关键词H2S    HITRAN数据库    红外光谱    定量分析    RBF神经网络    支持向量回归    
Quantitative analysis of high sulfur-containing gases by infrared spectroscopy based on HITRAN database
YANG Zhenggang1 , ZENG Qiao2 , XI Ningkai1 , GAO Jin1 , LI Taifu3     
1. Natural Gas Purification Plant General, PetroChina Southwest Oil & Gasfield Company, Chongqing, China;
2. College of Safety Science and Engineering, Chongqing University of Science and Technology, Chongqing, China;
3. College of Innovation and Entrepreneurship, Chongqing University of Science and Technology, Chongqing, China
Abstract: Objective To enhance the safety and efficiency of hazardous gas detection while minimizing operational risks, this study investigates a quantitative analysis method for high hydrogen sulfide(H2S)-containing gas mixtures based on the high-resolution transmission molecular absorption database (HITRAN database), and further validates the feasibility of its application in the fields of industrial, environmental monitoring, and public safety. Method Fourier transform infrared (FTIR) spectroscopy was employed in conjunction with support vector regression (SVR) and radial basis function (RBF) neural network models to perform quantitative analysis on gas mixtures containing H2S, CO2, and CH4. High-precision theoretical spectra data were generated using the HITRAN database, and a spectral superposition method was applied to simulate the infrared spectra of gas mixtures. The noise was added to simulate the response characteristics of FTIR instruments, making the simulated spectra closer to real detection scenarios. Result The proposed method demonstrated high efficiency and precision in the quantitative analysis of multi-component gas mixtures. The radial basis function kernel-based SVR (R-SVR) model outperformed the RBF neural network model, achieving higher detection precision. Conclusion This study provides a low-cost, efficient, and safe simulation-based validation method for detecting high H2S-containing gas mixtures. It offers reliable technical support for multi-component gas mixtures detection in practical applications and holds significant value for engineering practices.
Key words: H2S    HITRAN database    infrared spectroscopy    quantitative analysis    RBF neural network    support vector regression    

在现代工业、环境监测和公共安全等领域中,实时、准确、便捷的检测技术正在快速发展,傅里叶变换红外光谱(Fourier transform infrared spectroscopy,FTIR)技术因其能够满足高效生产、安全保障和环保需求,成为替代气相色谱等实验室检测技术的首选方案[1-4]。本研究基于高分辨率透射分子吸收数据库(high-resolution transmission molecular absorption database,以下简称HITRAN数据库)的高危混合气体红外光谱定量分析仿真,选择含有H2S、CO2和CH4 3种气体的混合气体作为研究对象进行定量分析实验。该实验对象来源于天然气净化厂脱硫工艺产生的含硫气体,通常被称为酸气,其H2S含量高[5-6]。脱硫工艺的现有技术主要是采用克劳斯法将酸气中的H2S转化为元素硫,在这一过程的升级改造中,需要对酸气组分进行精准检测,以确保工艺的安全性和效率。目前的检测方法主要依赖于人工取样和实验室分析,存在一定的安全隐患,同时,检测结果的及时性和准确性难以保证。因此,研究高效、准确的在线检测技术具有重要意义。

本研究采用HITRAN数据库生成的高精度理论光谱数据基于傅里叶红外光谱技术进行仿真实验研究,通过光谱叠加方法模拟酸气组分H2S、CO2和CH4的混合光谱。为提高仿真光谱与实际检测数据的相符程度,加入适当的噪声并模拟FTIR仪器的响应特性。在建模过程中利用支持向量回归(support vector regression, SVR)和径向基函数(radial basis function, RBF)神经网络模型对生成的混合气体数据进行定量分析。实验表明,该技术在多组分气体检测中的有效性和准确性,其中,采用RBF作为核函数的支持向量回归(R-SVR)模型在定量分析中的表现优于其他方法。

通过本研究的仿真实验结果,验证了傅里叶红外光谱技术在酸气检测应用中的可行性,低成本高效地为高含量H2S混合气体的检测技术提供了可靠的前期验证手段,同时减少了毒气实验在实际操作中的安全隐患。其他研究人员参考本研究的混合气体定量分析仿真实验方法,可以快速评估和优化检测模型,提升实验的可控性和重复性,从而为在线检测技术的工程应用研究提供支持。

1 HITRAN数据库及其仿真数据的建立
1.1 HITRAN数据库概述

HITRAN数据库从1973年首次发布后,已成为气体分子光谱研究、遥感、气候研究和环境监测等领域的核心工具之一[7]。该数据库包含了多种气体分子的波数、强度、线宽和温度指数等光谱特性,这些数据对于模拟和解析分子吸收光谱至关重要,是本研究进行混合气体红外光谱分析仿真研究的数据来源。该数据库网站的气体分子参数通常按照特定的文本格式进行组织存储。表1所列为HITRAN数据库H2S分子的逐行数据下载格式示例[8]

表 1    HITRAN数据库H2S分子逐行数据格式示例

1.2 红外光谱仿真数据的建立

HITRAN数据库中的数据可用于模拟气体的红外吸收光谱,帮助研究人员了解不同气体的吸收特性,并为定量分析提供基础数据[9]。在本研究中,利用HITRAN数据库中的气体光谱数据模拟H2S、CO2和CH4的红外吸收光谱,通过对模拟计算的仿真光谱和标准样气测定的实际光谱进行对比,验证了HITRAN数据库在模拟混合气体红外光谱中的实用性。表2列出了3种气体的物化性质及其主要吸收峰位置,其中吸收峰位置仅用于展现目标气体的光谱特性,而非模拟计算中选用的具体波数范围。本研究采用的是900~5000 cm−1波段的全光谱范围的定量分析,以最大限度地包含各目标组分的主要吸收峰光谱信息。

表 2    混合组分物化性质及主要吸收峰位置

从HITRAN数据库下载实验所需的混合气体(H2S、CO2、CH4)的逐行数据,根据经典光学定律Beer-Lambert,光的吸收强度与气体含量和光程长度成正比,这一理论依据可模拟光谱分析中的吸收过程[10]。用Beer-Lambert法计算吸光度,如式(1)所示。

$ {{A}} = \alpha \cdot c \cdot L $ (1)

式中:A为吸光度;$ \alpha $为吸收系数,L·mol−1·cm−1c为气体浓度,mol/L;L为光程长度,cm。

吸收系数可根据下载的逐行数据(见表1)计算得到,如式(2)所示。

$ \alpha (v) = I \cdot \varPhi (v) $ (2)

式中:v为波数,cm−1$ \alpha(v) $为在波数$ v $时的吸收系数,L·mol−1·cm−1$ I $为对应的线强度(线强度从数据库中读取);$ \varPhi(v) $为线型函数,线型函数通常选择洛伦兹线型(Lorentzian),其表达式如式(3)所示。

$ \varPhi (v) = \frac{\gamma }{{\text{π}} } \cdot \frac{1}{{{{(v - {v_0})}^2} + {\gamma ^2}}} $ (3)

式中:$ v_{0} $为过渡中心波数,cm−1$ \gamma $为半宽度(是逐行数据中gamma_air与gamma_self的加权和,根据实验条件如压力、温度确定),cm−1·kPa−1

根据上面的计算方法,可以计算出不同含量的单组分理论光谱数据,其吸收光谱图见图1图2

图 1     模拟计算的单组分光谱图

图 2     不同含量梯度的H2S样本光谱图(部分波段)

为进一步模拟混合气体组分的红外光谱数据,采取朗伯比尔定律与吸收谱的加和性原理进行计算(混合组分之间相互不发生化学反应)[11],基本原理公式如式(4)所示。

$ {\text{A}}( \nu ) = \sum\limits_{i = 1}^n {A_i^{}( \nu )} = \sum\limits_{i = 1}^n {a_i^{}( \nu )} {c_i}L,\;i = 1,2,...,n $ (4)

式中:$ A(v) $n个混合气体光谱组分在波数为$ v $时的总吸光度;$ a_{i}(v) $为第i个组分在波数为$ v $时的吸光度;ci为第i个组分的浓度,mol/L;L为吸收气室光程长度,cm。

图3所示为酸气组分( CO2、H2S、CH4体积分数分别为58.2%,41.3%、0.2% )在同体积分数配比及同条件下计算的模拟光谱与实际仪器光谱图的比对图。由图3可看出,去除仪器中其他环境影响,本实验研究的3种混合气体组分在关键吸收峰位置上的吸光度同仪器所示光谱大致相同。因此,通过以上方法计算仿真光谱数据进行的气体定量分析仿真实验是可行的。

图 3     模拟光谱与实际仪器光谱的比对图

2 红外光谱的定量分析仿真实验
2.1 定量分析仿真实验

本研究采用傅里叶红外分析仪进行模拟,理论上可测量0~100%的气体体积分数范围,光谱范围为5 000~900 cm−1,光谱分辨率为1 cm−1。用于建模的数据样本是基于HITRAN数据库构建的H2S、CO2和CH4的混合气体组分仿真光谱数据,共300组。图4所示为部分混合气体组分样品光谱图,表3所列为仿真数据样本的酸气组分配比示例表,体积分数边界点设定参照天然气净化厂实际工艺中酸气的常见体积分数范围。采用随机方式抽取4/5的样本作为校正集,1/5的样本作为验证集。为使仿真数据更接近真实情况,在光谱数据中加入了适当的噪声,以模拟FTIR仪器的响应特性,同时在混合气体样本配比中加入了氮气(N2),也是配样和检测时采用的背景气和清洗气。

图 4     部分酸气组分样品光谱图(部分波段)

表 3    H2S、CO2和CH4体积分数配比示例

2.1.1 数据预处理

本实验中的预处理方法采用了S-G(Savitzky-Golay)平滑滤波,该方法的主要目的是在减小噪声影响的同时,尽可能地保留傅里叶光谱中的重要特征信息[12]图5所示为预处理前后的光谱对比情况(CO2、H2S、CH4体积分数分别为29.1%、55.2%、0.9%)。从图5可清楚地看到,数据经预处理后,在保持重要光谱特征的前提下,起到了噪声抑制的作用。

图 5     光谱数据预处理前后对比图

完成数据预处理后,形成了用于建模的光谱数据矩阵A和含量数据矩阵C,如式(5)和式(6)所示。

$ {\boldsymbol{A}} = \left[ {{a_{ij}}} \right] = \left( {\begin{array}{*{20}{c}} {{a_{11}}}& \ldots &{{a_{1n}}} \\ \vdots & \ddots & \vdots \\ {{a_{m1}}}& \cdots &{{a_{mn}}} \end{array}} \right) $ (5)
$ {\boldsymbol{C}} = \left[ {{c_{ij}}} \right] = \left( {\begin{array}{*{20}{c}} {{c_{11}}}& \ldots &{{c_{1n}}} \\ \vdots & \ddots & \vdots \\ {{c_{p1}}}& \cdots &{{c_{pn}}} \end{array}} \right) $ (6)

式中:${a_{ij}}$为第j个标准样本在i个波数上面的吸光度;${c_{ij}}$为第j个标准样本中第i个组分的标准含量。

本实验采用了SVR和RBF神经网络两种定量分析模型,并对其进行分析和比较。

2.1.2 RBF神经网络模型

RBF是一种基于距离的函数,常见的RBF有高斯函数、倒数多项式函数和多面体函数[13]。本实验主要采用的是高斯函数,其计算公式如式(7)所示。

$ \phi(\|x-c\|)=\exp (-\frac{\|x-c\|^{2}}{2 \sigma^{2}}) $ (7)

式中:$ \left\| {x - c} \right\| $为输入向量x和中心c之间的欧几里得距离;$ \sigma $为控制函数形状的参数。

其算法训练过程是通过聚类算法(K-means)确定RBF单元的中心和宽度,确定单元参数后再通过最小二乘法计算输出层的权重。在定量分析中,RBF模型建立输入光谱数据和输出含量目标值之间的关系,同时引入模型效果预测指标。本研究选用决定系数(coefficient of determination, R2)和均方根误差(root mean square error, $ \mathrm{\varepsilon } $RMSE)作为模型效果的评价标准,R2介于0和1之间,反映统计模型对结果的预测程度,R2越接近1,说明模型对实际观测值的拟合程度越高,预测效果越好[14]$ \varepsilon $RMSE则反映了预测值与真实值之间差异的平方根,能够衡量模型误差大小,$ \varepsilon $RMSE越小,意味着模型的预测误差越低。酸气组分RBF建模含量预测效果图如图6~图8所示。

图 6     组分H2S的RBF建模含量预测效果图

图 7     组分CO2的RBF建模含量预测效果图

图 8     组分CH4的RBF建模含量预测效果图

实验结果表明,酸气组分H2S、CO2、CH4的RBF模型建模预测效果总体良好,预测值与真实值的拟合程度较高(其中,真实值来源于仿真数据样品建模中五分之一的验证集数据),反映了模型在大部分样本中的预测准确性。然而,观察图6可以发现,组分H2S的部分预测值偏离真实值较大,特别是在边界点附近。分析表明,这种现象可能是由以下原因导致的:随机抽样方式可能导致校正集样本的含量分布不均匀,尤其在边界区域样本较少;仿真数据中人为引入的噪声,用以模拟傅里叶红外光谱仪器的响应特性,在部分含量范围内可能加大了误差;RBF神经网络模型对某些复杂非线性关系的拟合能力存在局限性,导致在部分区域预测精度下降。

为解决这些问题,本研究尝试引入SVR模型,结合RBF,提出优化模型R-SVR,以进一步提升模型的预测能力。

2.1.3 SVR模型优化

为进一步提升傅里叶红外光谱定量分析中的预测准确性和模型效率,对多种数学模型进行了研究验证。最终实验发现,采用RBF作为SVR模型的核函数构建的新模型效果更好,将其命名为“Radial SVR”(简称为R-SVR)。R-SVR基于支持向量机(SVM)的核心思想,即在高维空间中寻找最优超平面,以进行数值预测任务[15]。其模型将傅里叶红外光谱数据作为输入,含量值作为输出,确保数据的一致性和准确性,RBF作为核函数,进一步增强模型对非线性关系的处理能力,从而适应光谱数据中更复杂的模式识别,在参数设置方面,R-SVR将自动优化尺度参数,以确保RBF核函数能更有效地映射输入数据,同时引入惩罚参数,以适度控制模型复杂性并减少过拟合的风险。

通过优化,R-SVR能够更加准确地预测混合气体组分的含量,并在效果图及预测指标数据上实现更优的表现。酸气组分H2S、CO2、CH4的R-SVR建模含量预测效果图及预测指标数据对比见图9~图11表4

图 9     组分H2S的R-SVR建模含量预测效果图

图 10     组分CO2的R-SVR建模含量预测效果图

图 11     组分CH4的R-SVR建模含量预测效果

表 4    脱硫酸气主要组分R-SVR建模的预测数据对比

实验结果表明,R-SVR模型在傅里叶红外光谱的定量分析中展现了优异的预测性能。通过对H2S、CO2、CH4 这3种气体组分的仿真预测测试,表4所列的预测样本数据对比结果显示该模型能高度准确地预测气体含量,且误差极小。真实值与预测值的拟合度极高,表明该模型在处理此类组分时具有较高的精确度和可靠性。

2.2 实验结果分析

在定量分析建模实验中,利用R2$ \varepsilon $RMSE评价RBF和R-SVR模型的预测性能,R-SVR模型表现出更优异的预测性能,与RBF神经网络相比,R-SVR的预测准确度更高,尤其是两个模型在CO2和H2S的含量预测对比结果中,R-SVR模型的R2接近1,且$ \varepsilon $RMSE显著小于RBF模型(见表5)。这表明R-SVR在处理复杂非线性关系时,能够更好地拟合数据,预测误差较低。

表 5    脱硫酸气主要组分的预测指标数据对比

3 结语

本研究基于HITRAN数据库,结合傅里叶变换红外光谱(FTIR)技术和机器学习方法,对高含量H2S混合气体的定量分析进行了深入仿真研究。通过模拟含H2S、CO2和CH4 这3种气体的混合光谱,结合适当的噪声模拟和FTIR仪器响应特性,使得生成的仿真数据更加接近实际测量光谱。在建模实验中,基于径向基核函数的支持向量回归(R-SVR)模型表现出更高的精度和稳定性,优于RBF神经网络,在多组分气体的定量分析中具有显著优势。

尽管仿真研究中采用的光谱数据是基于理论构建的,但本研究提出的仿真研究方法提高了高危气体检测领域研究的效率和安全性,也为高精度、多组分气体的在线检测提供了前期理论基础和技术参考。由于本研究依赖于仿真模拟数据,而未进行实际标准气或酸气样品的实验验证,这可能影响实验模型在实际应用中的适用性,未来的研究将进一步结合实际光谱数据及实验仪器的测试结果,优化和完善本研究提出的建模方法。

参考文献
[1]
基于傅里叶红外光谱技术的现场应急气体检测研究与应用[J]. 分析仪器, 2024(1): 1-6. DOI:10.3969/j.issn.1001-232x.2024.01.001
[2]
傅里叶红外光谱分析仪在化工园区大气预警监测中的应用[J]. 广州化工, 2023, 51(8): 170-172. DOI:10.3969/j.issn.1001-9677.2023.08.049
[3]
MDEA脱硫溶液近红外光谱法在线分析技术研究[J]. 石油与天然气化工, 2023, 52(2): 123-127. DOI:10.3969/j.issn.1007-3426.2023.02.020
[4]
FTIR在气体标准物质研究中的应用[J]. 计量科学与技术, 2021, 65(5): 67-76. DOI:10.12338/j.issn.2096-9015.2020.9041
[5]
泄漏硫化氢干法应急处置安全性及工艺研究[J]. 石油与天然气化工, 2024, 53(3): 1-7. DOI:10.3969/j.issn.1007-3426.2024.03.001
[6]
基于改进络合铁法的含硫化氢尾气处理工艺模拟与优化[J]. 石油与天然气化工, 2024, 53(2): 1-8. DOI:10.3969/j.issn.1007-3426.2024.02.001
[7]
GORDON I E, ROTHMAN L S, HARGREAVES R J, et al. The HITRAN2020 molecular spectroscopic database[J]. Journal of Quantitative Spectroscopy and Radiative Transfer, 2022, 277: 107949. DOI:10.1016/j.jqsrt.2021.107949
[8]
ROTHMAN, Laurence S. . The HITRAN 2008 molecular spectroscopic database[J]. Journal of Quantitative Spectroscopy and Radiative Transfer, 2009, 110.9-10: 533-572.
[9]
傅里叶红外光谱气体检测限的定性分析[J]. 物理学报, 2022, 71(9): 093201.
[10]
王博雨. 高性能近红外傅里叶变换光谱系统的研究[D]. 北京:北京交通大学,2020.
[11]
康明. 天然气组分FTIR图谱在线解析方法研究[D]. 重庆:重庆科技学院,2022.
[12]
ZIMMERMANN B, KOHLER A. Optimizing Savitzky-Golay parameters for improving spectral resolution and quantification in infrared spectroscopy[J]. Applied Spectroscopy, 2013, 67(8): 892-902. DOI:10.1366/12-06723
[13]
TANG W, YAN W J, HE G Q, et al. Dynamic spectrum nonlinear modeling of VIS & NIR band based on RBF neural network for noninvasive blood component analysis to consider the effects of scattering[J]. Infrared Physics & Technology, 2019, 96: 77-83.
[14]
OKEKE A G,ADEDEJI A A. Fourier-Transform Infrared (FTIR) spectroscopy and machine learning approaches to detect and quantify cross-contact of non-gluten and gluten-rich flours[C]. 2020 ASABE Annual International Virtual Meeting. St. Joseph:American Society of Agricultural and Biological Engineers,2020:1.
[15]
IGNE B, DRENNEN J K, ANDERSON C A. Improving near-infrared prediction model robustness with support vector machine regression: a pharmaceutical tablet assay example[J]. Applied Spectroscopy, 2014, 68(12): 1348-1356. DOI:10.1366/14-07486