数据挖掘在江西钨产业技术预见领域的应用

　　[提要] 江西省要成为经济大省和经济强省，就要从本省的实际情况出发，优先发展以钨产业为代表的优势产业，需要重视技术预见的作用和关键技术选择的研究，选择适合本省发展的技术发展路径。本文以江西钨产业为研究对象，利用Web数据挖掘手段，充分收集相关数据，并制定算法步骤，为钨产业进行技术预见做好相关准备工作。
　　关键词：江西；Web数据挖掘；技术预见；钨产业
　　中图分类号：F49 文献标识码：A
　　收录日期：2012年9月3日
　　一、研究背景
　　随着互联网的普及，基于互联网的新知识经济迅速发展，互联网知识经济的是否发达或者说全民对互联网的普及应用率已经成为衡量一个国家文明程度和现代化水平高低的新指标之一。同时，互联网的作用已从最初的简单应用发展成为各种信息流的主要传输渠道。尤其重要的是，传统产业正在或已经开始与互联网结缘，并利用它巩固和扩大自己的市场份额。互联网最大的优点是能够迅速、自由、准确地在全球范围广泛传播任何信息。对有色金属产业的科学创新而言，如何从海量的冶金矿业网站数据中提取有关市场行情的资料，以及从各大有色金属网站中得到有关最新资讯、行业动态、发展趋势等信息，更加显示出其深远的意义性。
　　二、Web数据挖掘具体流程
　　Web数据挖掘作为数据挖掘方法的一种，最大不同于其他传统方法的是Web数据挖掘是在对海量的网络数据进行收集并进行阐明的基础之上，通过采取一种最适合其数据类型的数据挖掘算法，最终做出分析与评价，预测出所需要的有价信息，为决策者降低决策风险及为其做出正确的决策提供参考。
　　一般来说，一次典型的Web数据挖掘具体做法如下：
　　（一）问题定义：操作者通过和需求者的协调沟通，初步了解需求者的目的，并进一步对该需求提出清晰定义，为后期工作制定总体方向。
　　（二）准备Web数据源：定义了问题之后，第二步就是在了解Web相关知识的基础上从互联网上各类网站找出所需的数据信息网站。
　　（三）分析Web数据特征：互联网上来源不同的数据具有完全不同的数据特征，甚至对于相同来源的数据，其数据特征也不尽相同。因此，对数据信息网站中各类数据的特征进行分析是非常有必要的。
　　（四）选择抽取技术：对于具有不同数据特征的数据，其相对应的算法也是不一样的，这一步就是要根据其不同数据特征，选取一种或多种合适的算法。
　　（五）设计程序：确定了一种或者多种合适的算法之后，还需要把这一算法以计算机程序语言的方式加以实现。
　　（六）Web数据预处理：检查数据的一致完整性、去除数据中的噪声、删除无效的数据、填补因各种原因丢失的域、规范数据的格式，最后对获得的数据进行再加工。
　　（七）综合评价与知识运用：对数据库中的数据进行分析和评价，首先需要选取最合适的模型并将其构建出来，最终把通过该模型分析评价获得结果，并应用到需求系统中去。
　　有关钨信息网站的Web数据挖掘具体流程如图1所示。（图1）
　　三、网站Web数据结构特征分析
　　由于包含有钨信息的网站中的Web数据并非都如专业数据库中的数据一样具有很完善的结构性，相比之下Web数据中的结构化数据非常少。一些有色金属的网站中的Web数据看似具有结构化数据具备的一些特征，但其实只是形式上的表现，而非真正内容上的结构化。由于有关钨信息的网站涉及面非常广泛，所以其数据的结构特征互不相同且非常复杂。
　　网页文件本身其实是一种特殊的文本文件，要想通过浏览器让其显示网站中的内容，就需要在这种特殊的文本文件中加入标记符。目前大部分网站的编程语言都是采用超文本标记语言（HTML）来标记网页中的各个部分以显示内容的，这种HTML中特有的标记符通常被人们称为HTML标签，即把关键词用尖括号包围起来表示，比如。由于元素内容是要通过被放在两个标签之间来实现的，所以HTML标签通常以成对的形式出现，例如把元素内容加在开始标签和结束标签之间形成整体。但在一些特殊情况下，HTML标签有时也会单独出现，例如、
等，还有如之类用于显示效果的标记符。正是由于这些属性的存在，HTML语言不能成为完全的结构化语言。通过对Web中数据的分析，可以发现其数据结构呈现为树状结构，一般称其为文档对象化模型树（DOMtree），如图2所示。（图2）
　　四、有关钨的网站网页的数据抽取
　　钨的网站网页数据抽取算法步骤如下：
　　（一）对Web页面进行聚类处理。通常情况下，一个网站发布后，其中往往会含有很多个网页。这些页面数据的内容虽然不尽相同，但其数据结构是非常相似甚至相同的。因此，可以试着以其中的某一个页面为基础新建一个模板，其他的页面都以这个模板中数据的结构作为参考进行比较，最终将具有相同或者相似数据结构的页面给按类别聚集到一起。
　　（二）构造包装器进行数据抽取。分析HTML标记并以HTML语言半结构化的特征为出发点预先制定一个映射规则，然后在此基础上构造一个映射包装器对数据进行抽取。包装器按照事先预先制定的映射规则，从来自于Web的数据源中抽取需要的数据信息，并进一步对其形式进行转化处理，使之成为一种能被进一步处理的数据，最后以某种数据结构存储方式将其储存起来。
　　（三）获取Web页文本代码。在经常使用的众多代码获取方法中选择出一种或几种方法来获取Web页动态文本。本文拟采用和WebClient类和XMLHTTP类对URL中的文本代码进行读取。
　　（四）对经过再处理的文本代码进行数据抽取。在遵守包装器的抽取法则的前提下，本文拟采用反序索引的方法对数据进行排序，抽取出其中有价值的数据。
　　（五）对抽取的数据进行再处理。将其中的乱码和不必要的空格去除，并且将数据进行结构化处理，为下一步将其保存到数据库中做好准备工作。
　　（六）将数据信息储存到数据库中。以上工作全部完成后，即可以把所获得的最终数据储存到一个新建的专门数据库之中。
　　（七）对结果进行分析与评价。最后用Web数据挖掘工具对获得信息进行分析与评价是必不可少的过程，此部分工作提高了最终信息的质量且使所获得的信息具有可用性，从而满足最终的需求。
　　五、结论与建议
　　（一）通过对有关钨矿的网站数据分析，发现我们要寻找的有用数据信息通常存在于、标签中，且在这些标签中的表格同时是数据列表和网页布局。通过对HTML中表格数据的研究不难发现，一个网页中的数据区域通常都是由相类似的数据表格所组成的。因此，可以寻求一种遍历和通过计算DOM树模型中各相邻节点之间的相似度来挖掘网页数据区域的算法。
　　（二）用数据挖掘工具获得信息与知识始终是为了满足需求者的需求，因此对挖掘出来的信息与知识进行解释是必不可少的过程，尤其是针对非专业的需求者，如何以一种易于理解的方式将挖掘出来的数据汇总成可以独立使用的结果并加以阐明，是关键的一步。利用合适的工具和技术对挖掘出来的信息进行分析与评价，最终使得到的信息具有直接可用性。
　　主要参考文献：
　　[1]邢平平，施鹏飞.数据挖掘技术在农业数据中的有效应用.计算机工程与应用，2001.2.
　　[2]杨杰，叶晨洲，陈念贻.数据挖掘平台及其应用.系统仿真学报，2001.13.6.
　　[3]苏卫.数据挖掘工具的应用与标准化[J].计算机工程（增刊），2008.30.
　　[4]王闯舟.PMML实现高速便捷的数据挖掘[J].金融电子化，2007.4.

推荐访问:江西预见数据挖掘领域

数据挖掘在江西钨产业技术预见领域的应用_数据挖掘 python

也许您还喜欢:

最新范文