• 工作总结
  • 工作计划
  • 心得体会
  • 述职报告
  • 事迹材料
  • 申请书
  • 作文大全
  • 读后感
  • 调查报告
  • 励志歌曲
  • 请假条
  • 创先争优
  • 毕业实习
  • 财神节
  • 高中主题
  • 小学一年
  • 名人名言
  • 财务工作
  • 小说/有
  • 承揽合同
  • 寒假计划
  • 外贸信函
  • 励志电影
  • 个人写作
  • 其它相关
  • 生活常识
  • 安全稳定
  • 心情短语
  • 爱情短信
  • 工会工作
  • 小学五年
  • 金融类工
  • 搞笑短信
  • 医务工作
  • 党团工作
  • 党校学习
  • 学习体会
  • 下半年工
  • 买卖合同
  • qq空间
  • 食品广告
  • 办公室工
  • 保险合同
  • 儿童英语
  • 软件下载
  • 广告合同
  • 服装广告
  • 学生会工
  • 文明礼仪
  • 农村工作
  • 人大政协
  • 创意广告
  • 您现在的位置:六七范文网 > 其它相关 > 正文

    基于密度划分的云数据分块存储方法仿真

    来源:六七范文网 时间:2022-12-14 15:00:26 点击:

    潘文标,元文浩

    (温州医科大学信息技术中心,浙江 温州 325035)

    互联网技术与移动互联网业务迅速普及,使得在日常应用过程中产生了大量数据[1],给后续的数据存储、分析等均带来了极大的难度,因此,谢鹏等研究人员[2]在数据存储的探究课题中,结合HBase分布式存储系统,创建空间矢量数据存储模型,期望打破存储技术的探索瓶颈。

    进入云计算时代后,云存储技术[3]迅猛发展,云端服务器应运而生,作为新型的存储方式,该存储形式在大数据时代得以广泛应用,不仅让用户体验到了极佳的数据存储服务,也为大规模数据存储减轻了不小的压力。随着云端服务器越来越普及,应用频率越来越高,其爆炸式的增长趋势使云数据的存储问题受到高度关注,相关存储方法应运出现,比如,刘福鑫设计的Kubernetes云原生海量数据存储系统[4],取得了较好的研究成果。

    我国云数据存储技术的研究刚刚起步,仍存在很大的优化空间。本文基于密度划分算法,设计一种分块存储方法,缓解存储压力。根据细粒度云数据的密度不均匀属性,设计出低敏感度的密度划分算法,获取高集中性的数据类别,去除无效的冗余数据,缩减存储空间;
    根据密度分割点建立阶跃函数,避免密度阈值过高导致聚类不精确;
    基于伽罗华域完成云数据分块编码与解码的全部运算,利用范德蒙矩阵编码、解码,简化编解码复杂性,降低运算难度与复杂度,加快运算速度。

    针对细粒度云数据,按照下列密度划分算法流程,聚类所有云数据:

    1)输入细粒度云数据集合P,构建距离矩阵D;

    2)明确自然特征值λ,以距离矩阵DN*N为依据,以r为搜索范围,遍历各云数据的近邻与逆近邻[5]数据,待反向邻域数据个数稳定时停止,获得的矩阵nb为全部云数据的逆近邻数量,此时有r=λ;

    3)利用云数据及其近邻数据,建立局部邻域集LN;

    4)通过式(1)求解云数据p的局部密度

    (1)

    式中,Nμ(p)指代数据p的μ近邻数据集;
    dist(p,x)指代云数据p及其第μ个近邻数据x之间的欧几里得距离[6]。其中,μ=max{nb};

    5)按局部密度值,降序排列云数据,密度值最大的云数据就是局部邻域集LN的局部核,划分剩下云数据至局部核的所属类别中;

    6)取得比平均密度低的最大二阶导数,将该最大值对应的云数据密度作为密度阈值ρt,去除每个类别内比该阈值小的数据;

    7)利用各云数据及其λ近邻点,建立全局邻域图;

    8)假设类别Ci与Cj间的跨类别边缘数据是vi、vj,两数据间的边权重值为w(vi,vj),(vi,vj)表示数据vi、vj的偏导数,CE(Ci,Cj)表示两类别的联合密度,则采用下列计算公式求解类别Ci、Cj之间的关联度

    (2)

    若跨类别边缘数据是vi、vj的欧几里得距离是dist(vi,vj),则云数据边权重值w(vi,vj)的计算公式如下所示

    (3)

    通过下列公式计算类别Ci与Cj间的紧密度

    (4)

    求解类别间关联度与紧密度的乘积,即得到类别Ci与Cj的相似度,数学表达式如下所示

    sim(Ci,Cj)=connect(Ci,Cj)*close(Ci,Cj)2

    (5)

    9)根据距离阈值η,判定跨类别数据的同类性与异类性,获取数量比例;

    10)降序排列类别相似度,以类别相似度与跨类别数据的类别属性为依据,聚类所有云数据。当跨类别数据的同类数多于异类数时,符合聚类条件,将两类别整合在一起[7];
    获取新的相似度与聚类条件,待不符合聚类条件时,终止聚类操作,将未完成聚类的类别云数据整合成一类[8];

    11)划分密度阈值较低的云数据至其局部核的所属类别。至此,实现所有云数据聚类。

    密度划分算法的两个重要参数为聚合条件的判定矩阵ψ与距离阈值η[9,10]。假设集合P中含有M个云数据,其中,数据i及其第k个近邻点的间距是dik,则距离阈值η的计算公式如下所示

    (6)

    若类别Ci、Cj的跨类别数据共有ni,j对,则将下列表达式界定为聚合条件的判定矩阵ψ

    (7)

    (8)

    针对比平均密度小的密度曲线,取得离散的最大二阶导数,获得聚合条件判定矩阵ψ与距离阈值η的最优值。

    将完成聚类的细粒度云数据划分为规格相同的数据块,任意类别中的数据块集合为B={b0,b1,…,bm-1},各数据块经里所码分块后,得到K个规格相同的云数据分块集F={f0,f1,…,fK-1},其中,m-1与K-1各指代里所码分块前后的云数据块数量。为简化编码复杂性,利用范德蒙矩阵A编码,获得校验块集G={g0,g1,…,gM-K-1},该集合中含有M-K个校验块。编码处理通过下列矩阵方程实现

    (9)

    式中,范德蒙矩阵A的界定式如下所示

    (10)

    经范德蒙矩阵编码处理,储存编码后的细粒度云数据。为避免主节点产生大量冗余云数据,选取的节点只存储一个云数据块,根据两者间的相关性,获取分块存储的元数据。每完成一个节点的云数据块存储,元数据都将直接更新至各节点。综上所述,设计出下列细粒度云数据分块存储算法流程:

    1)假设待输入的细粒度云数据是data,其文件名是src,通过用户端把云数据data输入流中;

    2)数据分块,得到B={b0,b1,…,bm-1};

    3)在主节点选取的节点上存储云数据块;

    4)利用范德蒙矩阵进行编码,二次分块细粒度云数据;

    5)在所选节点上储存编码后的云数据;

    6)基于各云数据块,获取新的元数据。迭代循环整个流程,直到没有新的元数据生成,此时,即可实现所有云数据的分块存储。

    迭代分块存储过程中,需要调度节点来执行云数据块的处理任务,这就涉及到一个重要的步骤,即细粒度云数据的解码处理。

    假设待处理云数据块为bα,任务执行的节点为nodeα,搜寻所有储存数据块bα的节点,形成列表listα,针对其前φ个有效节点,取得云数据块及其元数据,将范德蒙矩阵A与有效节点上储存的云数据块集F″={f″0,f″1,…,f″K-1,f″K}相结合,得到矩阵L及其逆矩阵L-1,建立L-1与新分块集F′={f′0,f′1,…,f′K-1,f′K}的乘积形式,即完成云数据块解码处理。该解码处理通过下列矩阵方程实现

    (11)

    式中,逆矩阵L-1的界定公式如下所示

    (12)

    综上所述,构建出下列细粒度云数据块的解码操作流程:

    1)假设云数据的路由信息与缓冲大小各是path与size;

    2)创建系统文件,根据文件名搜索元数据;

    3)基于存储待处理云数据块的节点列表,完成解码处理;

    4)更新云数据块,利用用户端取得经过解码处理的云数据块;

    5)迭代循环上列步骤,直到分块存储完所有云数据。

    本文基于伽罗华域完成云数据分块编码与解码的全部运算,且在不改变范德蒙矩阵形式的前提下,执行编码与解码处理,二者均能够在一定程度上降低运算难度与复杂度,加快运算速度。

    为增加实验可靠性,设定仿真环节为三个阶段:明确里所码编码比例的最优参数;
    分析密度划分算法的可用性;
    探究分块存储方法的完整性、压缩性。

    4.1 基于分块存储的里所码编码比例设置

    令里所码编码比例按等差数列取值,分析不同编码比例下分块存储细粒度云数据时的开销与带宽,根据实验结果,择优设置里所码编码比例参数。

    图1 编码比例参数相关性

    从不同编码比例参数值下分块存储的开销与带宽情况可知(见图1),当里所码编码比例参数取值为0.5时,存储开销最小,且随着运行时间的增加呈持续大幅下降趋势;
    同时带宽一直保持最高数值,且随着运行时间的增加呈平缓上升趋势。因此,设定里所码编码比例参数为0.5,能够以最佳状态展开方法验证试验,减小该参数对存储效果的影响。

    4.2 密度划分算法可用性分析

    选取细粒度云数据量不同的三个集合,分别采用正相关的纯度、互相关信息熵、F1综合指标,评估密度划分算法的聚类效果。各评估指标的取值范围均为0到1,计算方式如下所示

    (13)

    (14)

    (15)

    其中,Cn为类别n的真实聚类;
    θ(Cn,Ci)指代聚类结果是Ci,但实际类别是Cn的几率,θ(Cn)与θ(Ci)各指代真实聚类为Cn的几率与聚类结果是Ci的几率,MCn与MCi各指代两类别数量;
    F1(Ci,Cn)指代两类别的F1综合指标值,计算公式如下

    (16)

    根据图2所示的各集合评价指标结果可以看出,对于不同大小数据量的实验样本,密度划分算法始终具有较好的聚类效果,即便面对海量细粒度云数据,该算法通过深入探讨判定矩阵与距离阈值两个关键参数,凭借近邻与逆近邻数据构成的局部邻域集与全局邻域图优势,精准完成聚类,具备良好的可用性,对分块存储的干扰几乎可以忽略不计。

    图2 不同数据量的聚类效果示意图

    4.3 细粒度云数据分块存储效果分析

    利用本文方法分块存储某细粒度云数据集,将得到的实验结果分别与HBase模型及Kubernetes系统的存储效果作比较,验证本文方法的优越性与实践性。

    4.3.1 分块存储完整性

    以500GB的云数据量集为检验对象,设定主节点所选节点的存储量为50个数据块,待完成所有云数据块存储后,根据各节点上存储的数据块数量,分析不同方法在存储数据过程中发生的数据丢失情况。任意选取其中十个节点,其数据块存储结果如图3所示。

    图3 数据块存储数量示意图

    由十个节点的数据块存储量可以看出,本文方法结合密度划分算法与里所码技术,大幅提升细粒度云数据块的聚类与划分精度,确保各云数据都得到分类处理,尽可能不遗漏数据块,因此,仅有节点5、8各丢失一个数据块,相较于文献方法的多次、多块丢失情况,具有更理想的存储完整性。

    4.3.2 分块存储压缩性

    就分块存储压缩性能,利用输入、输出数据的大小比值(即压缩因子指标)客观评估,该指标值与压缩效果呈正相关性。三种存储方法的压缩因子指标数值如表1所示。

    表1 不同存储方法的压缩因子数值

    根据表1中的压缩因子参数值可以看出,本文方法的压缩因子值几乎是文献方法的二倍,压缩优势显著,实现了分块存储目标。这是因为该方法根据类别相似度,准确聚类所有云数据,为数据分块奠定基础,利用多个适配度较高的节点,分块存储云数据,极大程度减缓存储压力,令压缩性能得到更好发挥。

    大数据与云时代的来临,在为用户提供便利的同时,导致云数据规模暴增,这一发展趋势对存储技术提出了巨大挑战,其中,以细粒度数据的存储难度最大。为此,针对细粒度云数据,提出分块存储方法,通过实验证明,方法取得较好效果。所以,在接下来研究中,为拓展方法应用领域,进一步提升存储效果,将以下几点作为重点研究方向:数据类型多种多样,应就多元化的数据种类,不断检验本文方法的存储效果;
    针对编码语义的可扩展性,验证复杂情况下能否实现数据的统一编码;
    需利用经典的加密算法,提升分析存储安全性;
    改进密度划分算法的离线处理局限性,令其对实时的数据流也具备较好的处理能力;
    应在真实场景中开展实验活动,令方法更契合实际应用。

    猜你喜欢 聚类类别矩阵 基于数据降维与聚类的车联网数据分析应用汽车实用技术(2022年4期)2022-03-07一起去图书馆吧少儿画王(3-6岁)(2020年4期)2020-09-13基于模糊聚类和支持向量回归的成绩预测华东师范大学学报(自然科学版)(2019年5期)2019-11-11简析基于概率预测的网络数学模型建构东方教育(2018年20期)2018-08-22多项式理论在矩阵求逆中的应用读与写·教育教学版(2017年10期)2017-11-10基于密度的自适应搜索增量聚类法电子技术与软件工程(2016年23期)2017-03-06矩阵南都周刊(2015年4期)2015-09-10矩阵南都周刊(2015年3期)2015-09-10矩阵南都周刊(2015年1期)2015-09-10选相纸 打照片微型计算机(2009年4期)2009-12-23

    推荐访问:分块 密度 仿真