石油与天然气化工  2019, Vol. 48 Issue (1): 62-67
基于随机森林与多元线性回归的咪唑啉衍生物缓蚀剂的构效关系研究
刘友权1 , 李坤2 , 唐永帆1 , 吴文刚1 , 王道成1 , 张燕1 , 孙川1     
1. 中国石油西南油气田公司天然气研究院;
2. 四川大学化学学院
摘要:以15种不同十一烷基咪唑啉衍生物缓蚀剂为研究对象,采用随机森林与多元线性回归相结合考察了分子结构对其缓蚀效率(IE)的影响。首先,从能量、电荷、分子表面与信息量、立体构象与拓扑特征6个方面对15种咪唑啉类缓蚀剂进行了全面表征,共得到55个分子结构参数;然后运用随机森林(RF)与多元线性回归(MLR)分别对特征参数进行了优化,筛选出top10的8个重叠参数。从8个参数中随机挑选3个,使用留一法(LOO)进行多元线性回归模型构建,最终得到了最优的特征组合为分子总能量(Te)、信息含量(Ic)与分子折射率(Mr)。基于此得到的最优定量结构-缓蚀效率关系模型,其相关系数R2为0.843,关系式表示为IE=-5.517-0.010 1×Te+15.601 7×Ic+0.222×Mr。考察样本后去掉一个奇异样本,其相对误差达到18.9%,剩余14个样本留一法建模,模型效果大大提高,其R2为0.911。结果表明,Te、Ic、Mr与缓蚀效率具有较高的正相关性,分子结构越稳定、对称性好及折射率高,则其IE值就越高,为设计新型高效的缓蚀剂提供了理论指导。
关键词咪唑啉衍生物缓蚀剂    定量结构-缓蚀效率关系    立体结构参数    随机森林    多元线性回归    
Relationship modeling on quantitative structure-inhibitive efficiency of imidazoline inhibitors by combining random forest and multiple linear regression
Liu Youquan1 , Li Kun2 , Tang Yongfan1 , Wu Wengang1 , Wang Daocheng1 , Zhang Yan1 , Sun Chuan1     
1. Research Institute of Natural Gas Technology, PetroChina Southwest Oil & Gasfield Company, Chengdu, Sichuan, China;
2. College of Chemistry, Sichuan University, Chengdu, Sichuan, China
Abstract: Focusing on 15 different undecyl imidazoline corrosion inhibitors, a new method of combining random forest (RF) and multiple linear regression (MLR) was proposed to investigate the quantitative structure-inhibitive efficiency (IE) relationship. First, 15 corrosion inhibitors were comprehensively characterized by six aspects, which include energy, charge, molecular surface and information content, spatial and topological features, and 55 molecular structural features were achieved. Then RF and MLR were respectively employed to optimize these 55 features, so 8 overlapped parameters were selected from the top ten. Only 3 from 8 optimal features were randomly selected to construct the MLR model between the relationship of structure-IE. The optimal combination of features were molecular total energy (Te), information content (Ic) and molecular refractive index (Mr). Based on this, the optimal model of quantitative structure-inhibitive efficiency (IE) relationship was obtained, the correlation coefficient (R2) is 0.843, the relational expression is IE=-5.517-0.010 1Te+15.601 7Ic+0.222Mr. A singular sample was removed after the investigation of samples, its relative error reached 18.9%. The remaining 14 samples were modeled, the performance of the model was obviously further improved with the R2 of 0.911. The results indicate that Te, Ic and Mr all show the high positive correlation with IE. When the molecular structure is more stable, the symmetry is good, and the refractive index is high, then the IE value is higher. The model may be used as a theoretical reference for the design of new corrosion inhibitors.
Key words: imidazoline derivative corrosion inhibitor    quantitative structure-inhibitive efficiency relationship    3-D structural features    random forest    multiple linear regression    

抗腐蚀是油气工业发展的一个极其重要的问题,其中添加缓蚀剂是一种极为有效的防腐蚀措施[1]。缓蚀剂是一种当它以适当的浓度和形式存在于环境中时,可以防止或减缓腐蚀的化学物质或复合物[2]。缓蚀剂添加于腐蚀介质中大大降低金属腐蚀速率的现象,称为缓蚀作用。缓蚀作用的大小通常采用缓蚀效率(IE)来表示:

$ IE = \frac{{{V_0} - V}}{{{V_0}}} \times 100\% = \left( {1 - \frac{V}{{{V_0}}}} \right) \times 100\% $ (1)

式中:V0为未加入缓蚀剂时金属的腐蚀速率,mm/a;V为加入缓蚀剂后金属的腐蚀速率, mm/a。缓蚀效率越大,缓蚀剂的阻碍或延缓腐蚀的效果就越好。

目前, 对于有机缓蚀剂的分子结构与缓蚀性能的关系研究基本上是基于量子化学的计算方法[3-7]。另外,Camacho-Mendoza等运用密度泛函理论对不同种类缓蚀剂的构效关系做了较为深入的电化学分析[8];Li等探讨了影响苯并咪唑衍生物QSAR模型效果的量子化学参数,使用主成分分析进行特征压缩后,利用基于径向基核函数的支持向量机方法建模,结果证实量子化学参数与缓蚀效率之间存在着非线性关系[9]。Shirazi等从分子自身结构出发,提出了一种基于简单的分子结构因子的表征方法,然后采用多元线性回归方法建模预测30个吡啶及咪唑衍生物的缓蚀效率。通过比较,该方法获得了比传统基于量子化学参数更好的预测效果[10]

本研究从分子整体结构特性出发,对15种不同十一烷基咪唑啉衍生物缓蚀剂的缓蚀效率进行研究。在基于量子化学特征基础上,扩大特征空间,从能量、电荷、分子表面与信息量、立体构象与拓扑特征6个方面对唑啉类缓蚀剂进行分子表征,继而利用随机森林(RF)与多元线性回归(MLR)分别对55个结构参数进行评估,从两种方法得出的8个重叠参数进行C83的组合,得到56个线性回归模型,并选出了最优模型。

1 实验部分

数据来源:15种十一烷基咪唑啉衍生物的化学结构与缓蚀效率数据来自文献[5],其基本结构见图 1。其中:R1为长烷基疏水基团,固定为—CH2(CH2)9CH3;R2为亲水基团,15种不同的亲水基团见表 1。15种缓蚀分子的缓蚀性能采用失重法测定获得,并利用做平行实验求均值的方法减小IE的测定误差。为获得每个分子的合理的初始构象,首先利用ChemBio Office软件绘制咪唑啉化合物的2D分子结构,然后运用Chem3D模块中的分子力学(MM)方法对每个分子进行结构优化,获得其能量最低3D结构。

图 1     咪唑啉衍生物的化学结构 Figure 1     Molecular skeleton of the imidazoline derivative

表 1    15种咪唑啉衍生物缓蚀剂的化学结构 Table 1    Chemical structures of 15 imidazoline corrosion inhibitors

2 结果与讨论
2.1 分子结构参数的计算

利用Material Studio 8.0的QSAR模块计算得到55个分子结构描述符,55个描述符分别表征了能量、电荷、分子表面与信息量、立体构象与拓扑特征6个方面的特征。55个特征参数见表 2

表 2    由Material Studio计算得到的55个分子特征 Table 2    55 structural descriptors calculated by Material Studio

2.2 特征参数的重要性评估与筛选

本研究中,运用了两种不同的特征挑选方法实现对55个特征参数的评估与筛选。第一种方法是在RF中采用Gini重要性评估对每个特征进行了重要性打分,每个特征的得分结果如表 3所列,得分越高,说明其越重要。第二种方法是对每一个特征都做一次线性回归,然后根据每一个MLR模型的相关系数(R2),挑选出最重要的特征,其R2值越高,说明越重要,结果见表 3。从表 3可看出:通过Gini重要性得分,排名前10的特征为第1、3、11、12、16、20、26、31、40和44;根据线性回归分析的R2值排序,前10的特征为1、11、12、16、20、26、31、40、46和50。两种不同的评估方法得到的特征重要性重合率较好,有8个均在两种方法中位列top10,说明这8个特征对缓蚀效率具有重要的影响。

表 3    55个结构特征重要性排名列表 Table 3    Ranking list of the importance scores for 55 structural descriptors

2.3 建模分析

为防止过拟合,MLR一般要求样本数(n)与特征数(m)的比值在5左右。根据15个样本数,需要挑选出最多3个最重要的特征来表征这些分子。为寻找最优的特征组合,从8个参数中随机挑选出3个进行组合,共组合了56个不同的特征子集,然后采用MLR进行建模比较以筛选出最优的特征子集。其结果比较见图 2

图 2     56个MLR模型的结果比较 (红色点代表预测效果最好的模型) Figure 2     Linear regression results of 15 imidazoline corrosion inhibitors based on 56 MLR models

图 2可看到,P-value最低且R2最高的模型为最优模型(用红色点表示)。该模型的3个特征分别为Total energy(Te)、Information content (Ic)、Molecular refractivity(Mr),其回归模型见式(2),其R2为0.843 0,P-value=0.000 099 38。

$ IE=-5.517-0.010\ 1\times T\text{e+15}\text{.601}\ \text{7}\times I\text{c+0}\text{.222}\times M\text{r} $ (2)

式中:Te为分子的总能量,代表分子的结构稳定性,由于每个分子的Te为负值,分子的结构越稳定,能量越低,则其缓蚀效率越高;Ic则反映了分子的连接性和支化度,与分子对称性和形状有关,通过该方程可以看出,分子对称性好,则Ic值高,其IE值就高;第3个关键描述符Mr为分子的折射率,折射率越高,则缓蚀效率越高。

通过本研究发现,与以往基于复杂量子化学计算不同的是,尽管也计算得到了包括HOMO energy等量子化学参数,但是把特征空间扩大后,通过特征评估显示其他的非量子化学参数也与缓蚀效率紧密相关。这与Shirazi等人的结论较类似,他们通过对分子整体结构进行简单表征所建立的QSAR模型比基于量子化学参数的模型效果更好[13]。根据最后模型,得到了每个缓蚀剂分子的预测结果,如表 4所列。

表 4    15种咪唑啉衍生物缓蚀剂的实验缓蚀效率和预测缓蚀效率 Table 4    List of predicted IE values for 15 imidazoline corrosion inhibitors

表 4可看出,样本O的预测相对误差达到了18.9%,而其他的均在10%以下。因此,姑且认为该分子为奇异样本,删除该分子后,对剩余的14个分子进行MLR建模,其R2值提高到了0.911。该结果说明,该奇异样本确实对模型的预测效果产生了偏置(bias)。进一步删除第二大偏差的H分子(相对误差8.5%)后,剩余的13个分子的模型R2达到了0.93,模型显示出很高的预测能力。

本研究用到的15个分子IE值均为实验方法测定获取,其评价方法会存在一定的误差。该研究结果是在假定实验数据准确的前提下得出的,如果有更准确、更多的样本数据可以获取,那么该研究的结果有望进一步得到修正与提高。

3 结论

(1) 从能量、电荷、分子表面与信息量、立体构象与拓扑特征6个方面对分子进行结构表征。结合随机森林与线性回归对55个结构参数进行了评估,筛选出了8个均在两种方法中位列top10的特征,说明两种方法的筛选重合率较好,证明了8个重要性特征的可靠性。

(2) 从8个特征中挑选3个进行随机组合,构建56个MLR模型,从而筛选出了最优的QSAR模型,其最优的特征组合为Te、Ic与Mr,留一法的模型预测效果好,R2为0.911。

(3) Te、Ic、Mr与缓蚀效率具有较高的正相关性,分子结构越稳定、对称性好及折射率高,则其IE值就越高,为设计新型高效的缓蚀剂提供了理论指导。

参考文献
[1]
蒋秀, 郑玉贵. 油气井缓蚀剂研究进展[J]. 腐蚀科学与防护技术, 2003, 15(3): 164-168. DOI:10.3969/j.issn.1002-6495.2003.03.011
[2]
王凤平, 康万利, 敬和民, 等. 腐蚀电化学原理、方法及应用[M]. 北京: 化学工业出版社, 2008: 234-238.
[3]
RODRÍGUEZ-VALDEZ L M, MARTINEZ-VILLAFAǸE A, GLOSSMAN-MITNIK D. Computational simulation of the molecular structure and properties of heterocyclic organic compounds with possible corrosion inhibition properties[J]. Journal of Molecular Structure: THEOCHEM, 2005, 713(1-3): 65-70. DOI:10.1016/j.theochem.2004.10.036
[4]
ARSLAN T, KANDERMIRLI F, EBENSO E E, et al. Quantum chemical studies on the corrosion inhibition of some sulphonamides on mild steel in acidic medium[J]. Corrosion Science, 2009, 51(1): 35-47. DOI:10.1016/j.corsci.2008.10.016
[5]
胡松青, 胡建春, 石鑫, 等. 咪唑啉衍生物缓蚀剂的定量构效关系及分子设计[J]. 物理化学学报, 2009, 25(12): 2524-2530. DOI:10.3866/PKU.WHXB20091126
[6]
胡松青, 贾晓林, 胡建春, 等. 咪唑啉缓蚀剂分子结构与缓蚀性能的量子化学分析[J]. 中国石油大学学报(自然科学版), 2011, 35(1): 146-150. DOI:10.3969/j.issn.1673-5005.2011.01.029
[7]
胡松青, 米思奇, 贾晓林, 等. 苯并咪唑类缓蚀剂的3D-QSAR研究及分子设计[J]. 高等学校化学学报, 2011, 32(10): 2403-2409.
[8]
CAMACHO-MENDOZA R L, GUTIE'RREZ-MORENO E, GUZMA'N-PERCA'STEGUI E, et al. Density functional theory and electrochemical studies: structure-efficiency relationship on corrosion inhibition[J]. Journal of Chemical Information and Modeling, 2015, 55(11): 2391-2402. DOI:10.1021/acs.jcim.5b00385
[9]
LI L, ZHANG X H, GONG S D, et al. The discussion of descriptors for the QSAR model and molecular dynamics simulation of benzimidazole derivatives as corrosion inhibitors[J]. Corrosion Science, 2015, 99: 76-88. DOI:10.1016/j.corsci.2015.06.003
[10]
SHIRAZI Z, KESHAVARZ M H, ESMAEILPOUR K, et al. A novel and simple method for the prediction of corrosion inhibition efficiency without using complex computer codes[J]. Zeitschrift für Anorganische und Allgemeine Chemie, 2017, 643(24): 2149-2157. DOI:10.1002/zaac.v643.24