• 工作总结
  • 工作计划
  • 心得体会
  • 述职报告
  • 事迹材料
  • 申请书
  • 作文大全
  • 读后感
  • 调查报告
  • 励志歌曲
  • 请假条
  • 创先争优
  • 毕业实习
  • 财神节
  • 高中主题
  • 小学一年
  • 名人名言
  • 财务工作
  • 小说/有
  • 承揽合同
  • 寒假计划
  • 外贸信函
  • 励志电影
  • 个人写作
  • 其它相关
  • 生活常识
  • 安全稳定
  • 心情短语
  • 爱情短信
  • 工会工作
  • 小学五年
  • 金融类工
  • 搞笑短信
  • 医务工作
  • 党团工作
  • 党校学习
  • 学习体会
  • 下半年工
  • 买卖合同
  • qq空间
  • 食品广告
  • 办公室工
  • 保险合同
  • 儿童英语
  • 软件下载
  • 广告合同
  • 服装广告
  • 学生会工
  • 文明礼仪
  • 农村工作
  • 人大政协
  • 创意广告
  • 您现在的位置:六七范文网 > 心情短语 > 正文

    【ID3算法在汽车故障诊断中的应用】故障诊断算法

    来源:六七范文网 时间:2019-05-21 04:42:34 点击:

      摘要:国内汽车故障诊断技术起步较晚,近年来电子技术的迅猛发展,仪器诊断也随之产生,它是在经验诊断的基础上发展起来的现代检验方法。而数据挖掘技术及其改进算法则可通过对汽车故障实际诊断方面的研究,提取有价值规则的数据,构建出相应汽车故障诊断的决策树,并通过实验验证了此改进算法能够实现汽车故障的诊断与分析。
      关键词:汽车故障诊断技术;决策树算法; 改进的ID3算法
      中图分类号:TP206+.3 文献标识码:A 文章编号:1009-3044(2012)29-7107-04
      1 汽车故障诊断技术现状
      我国的汽车诊断技术真正起步是从80年代开始。由于当时电控诊断设备昂贵,难以满足,使得我国的汽车诊断技术严重落后于其他国家。与此同时,国产汽车没有微机控制,对于我国的汽车诊断技术的提升更是难上加难。近年来,伴随着一些小型辅助诊断仪器,为故障的诊断带来了便利,但绝大多数仍以人工诊断为主。随着计算机技术在我国的迅猛发展,电控技术的出现,仪器诊断也随之产生,它是在经验诊断的基础上发展起来的现代检验方法。仪器诊断可在汽车不解体的情况下,借助相关仪器或设备测试汽车性能和故障参数、曲线或波形,甚至能自动分析和判断汽车的技术状况。电控技术[1]的出现,同时也给汽车带来了一场革命,汽车故障诊断在国内的发展前景相当大,我国正向更完善的方向发展。
      2 数据挖掘算法
      2.1 数据挖掘算法介绍
      数据挖掘(Data Mining)[2]是通过分析每个数据,从大量数据中寻找其规律的技术,主要有数据准备、规律寻找和规律表示3个步骤。数据挖掘常用算法包含分类决策树算法、聚类算法、回归算法、迭代算法等,本文所采用的是分类决策树算法中的改进算法。
      2.2 分类决策树算法的核心算法
      2.2.1 ID3算法描述
      它是基于信息熵的分类决策树算法。ID3 算法是在所有可能的决策树空间中一种自顶向下、贪婪的搜索方法。
      2.2.2 ID3算法的基本原理[4]
      ①此算法将待挖样本集分为训练样本集和测试样本集,训练样本集用于构造决策树。首先,确定类别属性,以便于生成期望信息:
      注:为类别属性的取值个数(权值),既有个不同类,=1,2,...,
      是中的样本数,而,为整个样本集。
      ②其次,计算其余属性的信息熵,并进行最小值比较,以信息熵最小值的属性作为决策树根节点的决策属性:
      注:为属性A的取值个数,,对应属性A第j类属性值个数中类别属性第m类属性值的取值个数。
      ③或者接着计算相应的信息增益,并进行最大值比较,以信息增益最大值的属性作为根节点的决策属性):
      此时,用其属性的取值分类将训练样本集划分为与其属性值分类相对应的模块数,即由根衍生出的子树个数。然后,对于每个子树又选择最有判断力的决策属性进行划分,由此算法递归下去,直到所有子树包含同一类型的数据为止。最后得到一棵决策树, 它可以用来对新的样本进行分类。
      2.2.3 传统ID3算法的主要缺点[3]
      ID3算法常常是建立决策树的很好选择, 但该算法不足之处主要在于:
      ①在建树的过程中每当选择一个新属性时, 算法只考虑了该属性带来的信息增益, 未考虑到选择该属性后为后续属性带来的信息增益, 即未考虑树的两层节点;
      ②其信息增益度量存在一个内在偏置, 它偏袒属性值数目较多的属性。而本文的改进算法则着重解决此问题。这也是改进算法的最大优势;
      ③所以导致不能增量地接受训练例, 这就使得每增加到一定数量的实例都必须废除原有的决策树。
      2.3.2 AID3算法基本原理[3]
      ①从大量实验数据结果看来,改进信息量计算公式后,随着训练集的逐渐增长,分类准确率越来越高。把信息量(信息期望)的公式修改如下:
      其中:为子集中属于类别的样本集,为A属性第个子集除以样本集的比值。是中样本属于的概率。
      ③Quinlan所提出的熵函数算法并不完美,此算法容易选择取值较多的属性,为克服此缺点,除了对各公式有所改进外,对每个属性的信息增益公式引入两个参数:属性优先值(经验值)和权值。
      优先值是一个摇摆不定的参数,它的取值根据在不同的案例中的重要性来定,大小在在之间。取值规则:影响力越大,则取值越小。
      权值为每个属性的取值个数。
      改进后的信息增益公式融入了属性、属性的取值以及属性的重要性,避免了ID3的测试属性偏爱于取值较多的属性这一缺点,更巩固了决策树的平衡性。改进公式如下:
      注:最小者作为根节点(子树根节点)。
      2.3.3 利用AID3算法构造决策树[5]:
      ①决策树从代表整个训练样本集全部记录的单个节点(作为根节点)开始。
      ②如果样本记录都在同一个类,则该节点成为树叶,并用该节点中样本所属的类进行标记。
      ③为每一样本数据选定属性优先值a,并确定权值m的取值。
      ④使用改进的信息增益公式,计算所有候选属性的信息增益度量指标。
      ⑤选择具有最小信息增益度量的候选测试属性作为该节点的测试属性。
      ⑥对选定的测试属性的每个已知的值,创建一个分支,并据此将样本数据划分到各个分支中。
      ⑦算法递归的使用上述同样的过程,形成每个划分上的子样本决策树。一旦一个属性被选作为一个节点的测试属性,就不必再考虑该节点的任何后代。
      ⑧递归划分步骤当且仅当下列条件之一成立时停止:
      A.给定节点上的所有样本数据属于同一类,即所有记录类标号属性的取值相同。
      B.没有剩余候选属性可以用来进一步划分样本。
      C.分裂后,某分支没有样本记录。在这种情况下,以样本数据中的多数类创建一个树叶。
      由此可见,改进算法依然沿用了“贪心搜索”和“深度优先”的方法。
      3 改进算法在汽车辅助诊断方面的应用
      4 结束语
      ID3算法易偏袒属性值数目较多的属性。为此,改进的AID3算法除了对各公式做了改进外,还引入属性优先值的概念,使得决策树生长更为快速,更为平衡,判定更为准确,即从表2可知不易随着测试集数量的变化而波动较大。在实际测试中确实可行,适合在汽车故障诊断系统中应用。
      参考文献:
      [1] 电控技术.百度文库.
      [2] 韩家炜,堪博.数据挖掘概念与技术[M.范明,孟小峰,译.北京:机械工业出版社,2011.
      [3] 王永梅,胡学钢.决策树中ID3算法的研究[J].安徽大学学报,2011(5).
      [4] 卜亚杰.决策树分类算法的研究及应用[D].保定:华北电力大学,2007.
      [5] 时明华,王剑.基于决策树的装甲车故障辅助诊断系统的设计与实现[D].沈阳:东北大学,2008.

    推荐访问:算法 故障诊断 汽车 ID3