抗腐蚀是油气工业发展的一个极其重要的问题,其中添加缓蚀剂是一种极为有效的防腐蚀措施[1]。缓蚀剂是一种当它以适当的浓度和形式存在于环境中时,可以防止或减缓腐蚀的化学物质或复合物[2]。缓蚀剂添加于腐蚀介质中大大降低金属腐蚀速率的现象,称为缓蚀作用。缓蚀作用的大小通常采用缓蚀效率(IE)来表示:
式中:V0为未加入缓蚀剂时金属的腐蚀速率,mm/a;V为加入缓蚀剂后金属的腐蚀速率, mm/a。缓蚀效率越大,缓蚀剂的阻碍或延缓腐蚀的效果就越好。
目前, 对于有机缓蚀剂的分子结构与缓蚀性能的关系研究基本上是基于量子化学的计算方法[3-7]。另外,Camacho-Mendoza等运用密度泛函理论对不同种类缓蚀剂的构效关系做了较为深入的电化学分析[8];Li等探讨了影响苯并咪唑衍生物QSAR模型效果的量子化学参数,使用主成分分析进行特征压缩后,利用基于径向基核函数的支持向量机方法建模,结果证实量子化学参数与缓蚀效率之间存在着非线性关系[9]。Shirazi等从分子自身结构出发,提出了一种基于简单的分子结构因子的表征方法,然后采用多元线性回归方法建模预测30个吡啶及咪唑衍生物的缓蚀效率。通过比较,该方法获得了比传统基于量子化学参数更好的预测效果[10]。
本研究从分子整体结构特性出发,对15种不同十一烷基咪唑啉衍生物缓蚀剂的缓蚀效率进行研究。在基于量子化学特征基础上,扩大特征空间,从能量、电荷、分子表面与信息量、立体构象与拓扑特征6个方面对唑啉类缓蚀剂进行分子表征,继而利用随机森林(RF)与多元线性回归(MLR)分别对55个结构参数进行评估,从两种方法得出的8个重叠参数进行C83的组合,得到56个线性回归模型,并选出了最优模型。
数据来源:15种十一烷基咪唑啉衍生物的化学结构与缓蚀效率数据来自文献[5],其基本结构见图 1。其中:R1为长烷基疏水基团,固定为—CH2(CH2)9CH3;R2为亲水基团,15种不同的亲水基团见表 1。15种缓蚀分子的缓蚀性能采用失重法测定获得,并利用做平行实验求均值的方法减小IE的测定误差。为获得每个分子的合理的初始构象,首先利用ChemBio Office软件绘制咪唑啉化合物的2D分子结构,然后运用Chem3D模块中的分子力学(MM)方法对每个分子进行结构优化,获得其能量最低3D结构。
利用Material Studio 8.0的QSAR模块计算得到55个分子结构描述符,55个描述符分别表征了能量、电荷、分子表面与信息量、立体构象与拓扑特征6个方面的特征。55个特征参数见表 2。
本研究中,运用了两种不同的特征挑选方法实现对55个特征参数的评估与筛选。第一种方法是在RF中采用Gini重要性评估对每个特征进行了重要性打分,每个特征的得分结果如表 3所列,得分越高,说明其越重要。第二种方法是对每一个特征都做一次线性回归,然后根据每一个MLR模型的相关系数(R2),挑选出最重要的特征,其R2值越高,说明越重要,结果见表 3。从表 3可看出:通过Gini重要性得分,排名前10的特征为第1、3、11、12、16、20、26、31、40和44;根据线性回归分析的R2值排序,前10的特征为1、11、12、16、20、26、31、40、46和50。两种不同的评估方法得到的特征重要性重合率较好,有8个均在两种方法中位列top10,说明这8个特征对缓蚀效率具有重要的影响。
为防止过拟合,MLR一般要求样本数(n)与特征数(m)的比值在5左右。根据15个样本数,需要挑选出最多3个最重要的特征来表征这些分子。为寻找最优的特征组合,从8个参数中随机挑选出3个进行组合,共组合了56个不同的特征子集,然后采用MLR进行建模比较以筛选出最优的特征子集。其结果比较见图 2。
从图 2可看到,P-value最低且R2最高的模型为最优模型(用红色点表示)。该模型的3个特征分别为Total energy(Te)、Information content (Ic)、Molecular refractivity(Mr),其回归模型见式(2),其R2为0.843 0,P-value=0.000 099 38。
式中:Te为分子的总能量,代表分子的结构稳定性,由于每个分子的Te为负值,分子的结构越稳定,能量越低,则其缓蚀效率越高;Ic则反映了分子的连接性和支化度,与分子对称性和形状有关,通过该方程可以看出,分子对称性好,则Ic值高,其IE值就高;第3个关键描述符Mr为分子的折射率,折射率越高,则缓蚀效率越高。
通过本研究发现,与以往基于复杂量子化学计算不同的是,尽管也计算得到了包括HOMO energy等量子化学参数,但是把特征空间扩大后,通过特征评估显示其他的非量子化学参数也与缓蚀效率紧密相关。这与Shirazi等人的结论较类似,他们通过对分子整体结构进行简单表征所建立的QSAR模型比基于量子化学参数的模型效果更好[13]。根据最后模型,得到了每个缓蚀剂分子的预测结果,如表 4所列。
从表 4可看出,样本O的预测相对误差达到了18.9%,而其他的均在10%以下。因此,姑且认为该分子为奇异样本,删除该分子后,对剩余的14个分子进行MLR建模,其R2值提高到了0.911。该结果说明,该奇异样本确实对模型的预测效果产生了偏置(bias)。进一步删除第二大偏差的H分子(相对误差8.5%)后,剩余的13个分子的模型R2达到了0.93,模型显示出很高的预测能力。
本研究用到的15个分子IE值均为实验方法测定获取,其评价方法会存在一定的误差。该研究结果是在假定实验数据准确的前提下得出的,如果有更准确、更多的样本数据可以获取,那么该研究的结果有望进一步得到修正与提高。
(1) 从能量、电荷、分子表面与信息量、立体构象与拓扑特征6个方面对分子进行结构表征。结合随机森林与线性回归对55个结构参数进行了评估,筛选出了8个均在两种方法中位列top10的特征,说明两种方法的筛选重合率较好,证明了8个重要性特征的可靠性。
(2) 从8个特征中挑选3个进行随机组合,构建56个MLR模型,从而筛选出了最优的QSAR模型,其最优的特征组合为Te、Ic与Mr,留一法的模型预测效果好,R2为0.911。
(3) Te、Ic、Mr与缓蚀效率具有较高的正相关性,分子结构越稳定、对称性好及折射率高,则其IE值就越高,为设计新型高效的缓蚀剂提供了理论指导。