N-Gram模型下网络客户端病毒防御方法仿真

孙茜，吴鸣

(1. 江西科技学院信息工程学院，江西南昌 330098；
2. 南昌大学，江西南昌 330031)

计算机和互联网技术的快速发展，多样网络病毒的入侵范围开始逐渐广泛，成为网络安全运行需要解决的首要问题[1，2]。现阶段，无论是在技术领域还是模型领域，已有的网络客户端检测技术和防御技术均不够先进，无法对一些新型的病毒进完成检测和防御，而且滞后性较强。

为了有效解决上述问题，国内相关专家给出了一些较好的研究成果，例如张瑜等人[3]采用接种数字疫苗形成低于病毒攻击的未成熟抗体；
然后免疫抗体动态演化机制，形成抗原的成熟体以及记忆抗体，同时借助交叉视图法来构建病毒攻击动态防御模型。刘娜[4]主要通过数据挖掘技术获取网络病毒特征，进而制定对应得到防御策略。但是，以上文献方法均无法获取病毒的特征向量，导致病毒防御不具有针对性，病毒防御效果不理想。

基于上述已有方法，提出一种基于N-Gram模型的网络客户端病毒防御方法。经实验测试证明，所提方法可以更好地防御网络客户端病毒。

2.1 基于N-Gram模型的网络客户端病毒检测

优先分析不同长度的N-Gram特征对网络客户端病毒检测结果产生的影响，进而采用N-Gram模型提取对应的网络客户端病毒特征向量。

N-Gram模型的主要作用是提取未知类型的病毒特征，是基于马尔科夫链形成的一种概率模型。N-Gram特征提取就是将经过数据预处理得到的网络客户端病毒数据做窗口大小为N的滑动窗口进行切分。特征选择[5，6]是在提取到的特征中选取一个特征子集，通过特征子集可以创建更好的病毒数据特征向量。在训练检测模型中，输入数据特征的选取对分类结果会产生更加明显的影响，好的特征选择能够促使分类结果准确率更高且效果更好。若没有进行特征选择，提取的特征数量会增加，而且各个不相关特征或者特征之间的依赖性也会随之增加，进而提升模型训练时间。其中，特征选择的详细操作步骤如下所示：

1)产生过程

在已有的特征集中选择特征子集的过程，主要借助搜索算法或者启发算法等完成。

2)评价函数

主要用来判断形成的候选特征子集好坏。

3)停止准则

属于评判规则，通常为一个阈值，当评价函数的取值达到设定的阈值，则可以结束搜索。

4)验证过程

对上述操作步骤进行验证时，需要在已有数据集中选择有效且真实的特征子集。

对于提取的N-Gram序列需要选择合适的方法，以下主要使用特征向量表示。其中，网络客户端的病毒特征向量提取过程如下所示[7，8]：

1)采用N-Gram模型提取网络客户端病毒的特征子序列，同时统计特征子序列的总数。

2)计算不同类型特征子序列在总序列中所占据的比例。

3)将全部特征序列的比例值从小到大进行排列，形成候选特征子集M。

4)将M中取值最大的特征子序列加入到特征向量中，采用式(1)计算特征向量对应的增益值

(1)

当式(5)的取值大于0，则保留该特征子序列中的向量；
反之，则将其删除。

5)重复步骤4)，直至特征子集为空。

6)输出特征向量。

在上述分析的基础上，将距离相似度检测技术和决策算法两者进行有效结合，对网络客户端病毒进行检测[9，10]，详细的操作步骤如下所示：

计算距离比较常用的方法就是相似性度量方法，根据计算两个对象A和B的距离D(A，B)，可以计算相似度计算S(A，B)，如式(2)所示

(2)

由式(2)可知，当相似度S(A，B)的取值越大，则说明D(A，B)的取值越小，两个对象之间的相似度就越高。

卡方距离检测主要被应用于检测网络客户端病毒中，整个算法的详细操作步骤如下所示：

1)训练阶段

输入网络客户端病毒的特征向量，计算正常的网络客户端数据，进而获取平均客户端病毒的平均特征向量。

2)检测阶段

输入被检测的网络客户端数据，得到被检测数据的特征向量。计算步骤1)和步骤2)中两个特征向量的卡方距离D2(X，Y)，如式(3)所示

(3)

式中，X代表被检测网络客户端的特征向量；
Y代表被正常数据中提取到的特征向量；
N代表序列的总数。当Yi的取值为0时，则说明数据需要进行平滑处理。

根据上述操作步骤已经提取的特征向量[11，12]，需要对上述检测阶段的给出计算公式进行距离改进，同时确定检测阈值，以下给出详细的操作步骤：

1)计算正常混合N-Gram特征向量的平均向量；

2)输入网络客户端数据，设定特征向量的长度为1500；

3)重复步骤1)和步骤2)；

4)确定检测阈值；

5)计算两个客户端之间的距离d，如式(4)所示

(4)

式中，α和β分别代表最大距离值和最小距离值。

6)判定数据是否为异常数据；

7)输出最终的网络客户端病毒检测结果。

2.2 网络客户端病毒防御

当病毒入侵网络后，采用N-Gram模型提取病毒的特征，通过寻找抗原的对应特征来激活自主防御性能，有效消除对应的病毒，同时会形成含有记忆功能的抗体，对病毒的特征进行记录。当受到相同的病毒攻击时，系统的整体速度就会增加。利用图1给出网络客户端病毒防御方法的详细操作步。

图1 网络客户端病毒防御流程图

假设在一个网络系统中，客户植入了n个病毒，每个病毒都包含自身的特征，病毒集合为N={p1，p2，…，pn}，病毒对应的特征集合为P={x1，x2，…，xn}。设定网络客户端的数据集和为Ω={σ1，σ2，…，σn}，每个数据包都对应一个信任值ωi，对应的计算公式为

(5)

式中，C(σi)代表数据包的原始容量；
C(σi)′代表数据包容量的变化情况。

通过概率函数ξ(x，Z)描述不同变量的分布情况，具体如式(6)所示

(6)

式中，Z(xi，μ，∑)代表高斯概率密度函数；
θ(xi)代表分布权值函数；
∑代表协方差矩阵。其中，分布权值函数的具体表达形式如式(7)所示

(7)

式中，v代表病毒的传播速度；
μ代表最佳估算值，具体的计算式如下

(8)

式中，yi代表样本xi对应的特征向量。

设定带有xi特征的病毒pi从原始客户端ipj进入，入侵数据包σj准备攻击目标IP为ipt的服务器，则此时数据包信任值的变化情况可以表示为式(9)的形式

(9)

式中，(ipt-ipj)代表两者IP地址之间的差值。通过设定一个信任阈值T(ω)，当数据包的信任值小于T(ω)时，则说明数据包遭到入侵，可以采用相关公式进行跟踪，最终获取攻击目标的准确IP地址。

为了使后期的防御功能得到提升，需要对网络客户端病毒完成评估[13，14]，危险等级越高，则说明受到攻击的可能性就越大。危险等级划分方式如式(10)所示

Li=F(ipj)·F(xi)·F(ωj)

(10)

式中，Li代表网络客户端病毒的危险等级；
F(ipj)代表IP地址为ipj的危险度函数；
F(xi)代表特征xi的危险度熵函数；
F(ωj)代表数据包信任值对应的危险度熵函数，分别将其表示为以下的形式

(11)

假设为了防御含有病毒的数据[15]包，免疫系统会随机形成对应的特殊数据包yi，将其表示为式(12)的形式

yi=-xi·li·f(xi)·e-c

(12)

式中，li代表网络客户端中包含的二进制字符串；
c代表任意常数；
f(xi)代表病毒对应的特征函数，具体的计算式如下：

(13)

上式中，α代表网络客户端病毒的危险系数；
T代表病毒的衍生速度。

根据形成含有抗体的特殊数据，将含有病毒的数据包两者进行有效融合，最终达到防御病毒的目的。为更好评估网络客户端病毒等级N(yi)，采用式(14)进行计算：

(14)

式中，Li和LT分别代表系统默认的最低风险评估等级。

在上述分析的基础上，根据网络客户端风险评估结果，进而对应的网络客户端病毒防御方案。

为了验证所提基于N-Gram模型的网络客户端病毒防御方法的有效性，仿真测试实验。为了确保实验结果不失去一般性，分别选取和复杂社会网络最为接近的无标度网络作为研究对象，共计包含1500个节点。

为了统计数据结果的准确性，进行200次计算，获取计算结果的平均值，将其作为实验依据。为了测试网络结构的控制能力和节点分布情况，利用图2给出对应的统计结果。

图2 介数中心控制力以及接近中心控制力统计图

分析图2中的实验数据可知，大部分节点的介数中心控制力均在50以下，只有小部分节点的介数控制中心在150到200之间，说明能够对整个网络起到比较核心的控制作用。

一般情况下，病毒攻击和防御是从两个角度出发的，以下实验测试重点分析所提方法的网络客户端病毒防御性能，具体实验结果如表1所示。

表1 所提方法的网络客户端病毒防御性能测试

分析表1中的实验数据可知，所提方法可以有效控制病毒的传播以及恶意程序的扩散，制定更加有效的防御策略。由于所提方法在进行病毒防御前，优先检测了网络客户端的病毒，这样可以全面提升所提防御性能，更好抑制病毒的传播。

针对传统方法存在的应用问题，设计并提出一种基于N-Gram模型的网络客户端病毒防御方法。经实验测试结果证明，所提方法能够有效抑制病毒传播，同时制定对应的防御策略。

网络客户端病毒防御机理是现阶段计算机领域研究的热点话题，后续将全面引入计算机病毒理论以及安全操作系统等相关技术，全面提升系统的防御性能。后续将重点针对以下两方面的内容进行研究：

1)引入计算机病毒程序，同时对其进行进一步完善。

2)全面考虑黑客以及木马等攻击，进一步加强防御性能。

3)引入病毒预警相关内容，由于现阶段已有的病毒预警系统处于研究初期，十分容易被黑客攻击，后续将对其进行深入完善，使其能够更好被应用于病毒防御中。

4)针对所提方法存在的不足进一步进行完善，确保整个方法的综合性能得到有效提升，可以以更快的速度完成网络客户端病毒防御。

猜你喜欢特征向量数据包客户端二年制职教本科线性代数课程的几何化教学设计——以特征值和特征向量为例九江职业技术学院学报(2022年1期)2022-12-02你的手机安装了多少个客户端新作文·高中版(2022年5期)2022-11-22你的手机安装了多少个客户端新作文·高中版(2022年5期)2022-11-22——稳就业、惠民生，“数”读十年成绩单">“人民网+客户端”推出数据新闻
——稳就业、惠民生，“数”读十年成绩单人民周刊(2022年17期)2022-10-21二维隐蔽时间信道构建的研究*计算机与数字工程(2022年3期)2022-04-07克罗内克积的特征向量保定学院学报(2022年2期)2022-04-07民用飞机飞行模拟机数据包试飞任务优化结合方法研究民用飞机设计与研究(2020年4期)2021-01-21C#串口高效可靠的接收方案设计物联网技术(2018年8期)2018-12-06三个高阶微分方程的解法研究数学学习与研究(2018年15期)2018-11-12新华社推出新版客户端打造移动互联新闻旗舰声屏世界(2015年7期)2015-02-28

推荐访问:仿真防御客户端

N-Gram模型下网络客户端病毒防御方法仿真

2.1 基于N-Gram模型的网络客户端病毒检测

2.2 网络客户端病毒防御

也许您还喜欢:

最新范文