• 工作总结
  • 工作计划
  • 心得体会
  • 述职报告
  • 事迹材料
  • 申请书
  • 作文大全
  • 读后感
  • 调查报告
  • 励志歌曲
  • 请假条
  • 创先争优
  • 毕业实习
  • 财神节
  • 高中主题
  • 小学一年
  • 名人名言
  • 财务工作
  • 小说/有
  • 承揽合同
  • 寒假计划
  • 外贸信函
  • 励志电影
  • 个人写作
  • 其它相关
  • 生活常识
  • 安全稳定
  • 心情短语
  • 爱情短信
  • 工会工作
  • 小学五年
  • 金融类工
  • 搞笑短信
  • 医务工作
  • 党团工作
  • 党校学习
  • 学习体会
  • 下半年工
  • 买卖合同
  • qq空间
  • 食品广告
  • 办公室工
  • 保险合同
  • 儿童英语
  • 软件下载
  • 广告合同
  • 服装广告
  • 学生会工
  • 文明礼仪
  • 农村工作
  • 人大政协
  • 创意广告
  • 您现在的位置:六七范文网 > 其它相关 > 正文

    企业用户情报需求挖掘及资源关联可视化展示研究

    来源:六七范文网 时间:2023-06-10 10:40:28 点击:

    专题

    前言:在竞争环境下,信息资源已经成为企业的重要战略资源。企业的生存与发展越来越离不开技术、市场、政策等领域情报的高效获取与利用。良好的情报服务,可以帮助企业更快地适应环境变化,应对挑战,提高竞争优势,创造发展机遇。

    中国南方电网有限责任公司是我国电力领域的重要国有骨干企业,连续多年入围世界500强企业名单,供电面积100万平方公里,供电总人口2.3亿人。它承担重要的社会责任,是情报工作应重点服务的公共企业。情报保障工作对公司的决策、管理、研发等均具有重要的战略意义与长远效益。

    南方电网公司成立专门的情报机构负责相关工作。为了能够使情报工作更加高效、深度、精确地反映公司各层面、各类型的用户需求,南方电网公司与武汉大学合作,共同开展了“南方电网公司情报需求智能表达、预测及高级应用功能”研究项目。本项目目的是将信息资源增值利用理论应用于实践,开发情报系统,服务企业业务,同时探索情报研究与业务流程的结合问题。

    为了能够建立情报资源供给和需求的精确匹配,实现情报服务内容的深度挖掘和个性化推送,提高信息资源共享效率,我们对用户情报搜寻与利用行为规律进行了探索。课题组参考国内外研究成果,结合南方电网公司的实际情况,进行了问卷、访谈、观察等方式的调研。

    本专题刊发的论文就是此次研究的部分成果。论文在数据支撑基础上,分析了大型国有电网企业用户的情报采纳行为特征、情报需求情景偏好、情报获取及时性关注度、情报共享动力等重要内容,探讨了企业用户情报需求挖掘和资源关联可视化展示的相关问题。相关结论对不同类型的企业有一定的借鉴和参考价值。

    此次研究工作的开展是高校与企业间合作,以现实情报需求为牵引,融情报与业务流程,以解决实际问题为导向,协同创新的尝试。希望能够得到各界专家的指导指正。

    陈传夫

    摘 要:文章旨在识别和挖掘用户的显性及潜在情报需求,并通过形象化、可视化手段加以展示,实现情报用户需求的高效管理。模型基于用户相关历史文档、用户操作日志等文档,采用统计分析方法和日志分析技术,提取用户的情报行为数据,挖掘用户的情报需求,并基于计算机图形学和图像处理相关技术,利用prefuse-flare数据可视化技术创建FLASH文件,实现用户需求分布展示、需求演化分析及兴趣图谱呈现,对系统情报资源和网络资源进行多维度、任意属性的关联可视化展示。

    关键词:情报需求挖掘 数据可视化表达 需求分布与演化 兴趣图谱 prefuse-flare

    中图分类号: G250.0 文献标识码: A 文章编号: 1003-6938(2014)03-0027-06

    Study about the Mining of the Information Needs of Enterprise Users and the Visualization of the Relationship of Information Resources

    Abstract This study is aiming at identifying and excavating the potential information needs so as to visualize and manage the information needs effectively. The model is based on user-related historical documents, user logs and other documents. Statistical analysis and log analysis techniques are used to extract users" information behavior data and tap users information needs based on computer graphics and image processing technology. Prefuse-flare data visualization technology has been used to create FLASH files, and as a result the user needs have been obtained to achieve distribution display, and the needs and interests of maps showing the evolution of the intelligence system and network resources for multi-dimension have also been analyzed.

    Keywords information need mining; data visualization; demand distribution and evolution; interest map; prefuse-flare

    1 引言

    需求挖掘是指以满足人们的消费需求为目的的基本活动。用户需求挖掘指从用户的行为、习惯、特点等海量信息背后自动搜索隐藏于其中的对用户有着特殊关系、使用户感兴趣的需求的过程。需求挖掘主要通过统计、在线分析处理、机器学习和模式识别等诸多方法来实现。通过挖掘用户的需求,可以帮助用户更好的了解自己,分析自己未来的需求,为用户做必要的辅助决策工作;同时可以有针对性的为用户推荐信息,刺激用户对信息的消费水平,进而实现拉动信息消费增长的目的。可视化作为一种计算和处理方法,它将抽象的符号表示成具体的几何关系,使研究者能亲眼看见他们所模拟的计算结果,使用户看见原本不能看见的东西。可视化技术应用在情报分析中,可以弥补传统方法的一些缺陷,对信息从一个全新的角度进行观察分析,发现以往的方法所不能发现的隐藏情报,并对其进行分析解释,得出有价值的结论和对决策有用的情报,从而大大提高情报分析的效率和效果。

    本文依托于武汉大学与南方电网科学研究院合作的“南方电网情报需求智能表达预测及高级应用”项目,以清华同方KBase全文数据库等为数据来源,首先利用用户的个人信息、用户关系、需求定制单、用户行为日志等基础数据,利用统计学分析方法,从需求分布、需求演化和兴趣图谱三个角度对用户的需求进行挖掘;然后采用prefuse-flare技术,从时间、领域和地域三个维度对挖掘结果进行资源关联展示(见图1)。

    2 理论基础

    需求挖掘是从大量的数据中挖掘出有用的信息,即从大量的、不完全的、有噪声的、模糊的、随机的数据集中发现隐含的、规律性的、需求性的信息[1]。需求挖掘在计算机领域中属于数据挖掘的一部分。数据挖掘的方法有很多,在情报学中使用较多的主要有决策树方法、聚类方法、统计分析方法、遗传算法、可视化技术等方法,每一种方法都有其各自的特点和适用领域[2]。

    可视化的发展经历了3个阶段:科学计算可视化、信息可视化和知识可视化。“可视化”这一术语的第一次提出是在1987年的美国国家科学基金举办的可视化会议上,从此以后可视化作为一个新的研究领域出现在人们的视野中。可视化的目的是通过视觉的方法提供一种新的科学洞察分析方法,从而弥补现有科学分析方法的缺陷[3]。随着对可视化研究的深入,可视化的研究范围一步步扩大,1989年,Robertson在《用于交互性用户界面的认知协处理器》[4]中首次提出了“信息可视化”概念。信息可视化是一门研究人、计算机表示的信息以及它们相互影响的技术,虽然最初提出是为了解决3D动画问题,但如今它的研究范围已远远超出了这个领域。在科学计算可视化和信息可视化发展的基础上,知识可视化应运而生,它主要应用于视觉表征手段,促进群体知识的传播和创新[5-8]。

    3 需求挖掘模型

    需求挖掘模型依据用户属性与行为特征库、情报需求库、情报资源体系库的全分类多维护关系网的建立,在深层次勾勒各类情报以及情报需求之间的关联性上,可实现用户各种维度(时间、领域、地域等)的需求可视化表达,在可视化展示上采用图形学和图像处理相关技术,实现对用户情报需求的交互性展示,实现可视化需求分布分析、需求演化分析、兴趣图谱分析。该模型主要采用数据挖掘常用的统计分析方法进行需求挖掘。统计分析是通过对总体样本数据进行分析,从而找出他们之间的关系和规律。通过对数据的统计分析,可以挖掘出潜在的关联规则和模式,进而提取出用户的需求。

    3.1 情报需求分布模型

    情报需求分布用于识别获取用户的显性情报需求,从用户属性及情报定制单出发,如定制的领域、关键词、关注的学者、机构等,识别用户的显性情报需求(统计分析算法流程见图2)。

    用户按时间、领域、地域三个条件在需求定制表中查询需求定制记录,对返回结果进行统计分析。对每条记录,从领域和地域两个方面对其归类,统计用户所选的每个领域、地域在设置时间段内的情报操作次数,并以此作为情报需求量。最后按照VO对象格式(包括领域id,地域id,情报需求量三个地段),生成两个VO对象列表,作为前台可视化展示的输入数据。

    3.2 情报需求演化模型

    基于对系统易用性的考察,本功能在用户非显性参与需求设定的情况下,通过对用户关系图谱、操作日志(包括用户的浏览、下载和收藏等行为)、相关系统历史数据的分析,利用统计分析方法和日志分析技术,深入挖掘情报用户的情报需求关联规则,实现用户潜在情报需求的挖掘(用户情报需求演化算法流程见图3)。

    根据用户设置的时间、领域和地域条件,利用数据库查询语言HQL,对用户操作日志进行查询分析,获得符合条件的用户日志记录。利用统计方法,对这些日志记录按时间(年月维度)、领域和地域三个维度进行归类。最后,按照既定的需求演化记录VO对象格式(领域id,地域id,年月份,情报需求量),生成前台所需的VO对象列表,作为前台的输入数据。

    3.3 个人兴趣图谱模型

    基于用户的收藏行为及专家、机构间的合作关系,挖掘当前用户感兴趣的专家和机构,并采用统计分析学的方法统计各专家、机构之间的合作关系,构建用户兴趣图谱、专家合作关系拓扑图和机构合作关系关联图(个人兴趣图谱算法流程见图4)。

    根据用户设置时间段,查询用户收藏表,根据收藏有效与否标志及用户收藏、取消的次数,判断哪些专家、机构属于用户在该时间段内的有效收藏,获得用户兴趣图谱第一层关联节点。根据专家或机构的合作发文量来衡量他们之间的合作关系,建立专家或机构合作关系关联节点,构建兴趣图谱第二层拓扑图。

    4 资源关联可视化表达工具

    可视化技术是现代情报应用的核心技术之一,应用可视化技术,可以形象化的描述事物的复杂特征,合理的可视化技术应用可以在一定程度上揭示复杂现象背后所蕴含的规律。

    本文资源关联可视化主要采用Prefuse-Flare技术,一个开源的基于ActionScript语言的数据可视化组件[9]。从基本的图表到复杂的交互式图形,这个工具包提供包括数据管理、可视化编码、动画和交互技术等一系列支持。Flare前身是有名的Prefuse,一个用于交互式数据可视化的Java类库。Flare与Prefuse不同点在于Flare是基于ActionScript面向对象编程语言,它是一个ActionScript类库,运行于Adobe Flash Player之上。

    用flare技术进行数据可视化展示的过程如下:

    (1)建立Flash开发环境。Flash开发环境有两种方式来实现,一种是使用Adobe公司的Flex Builder,这是一个完整的AS/FLEX开发环境,也是最方便的建立flash开发环境的方式;另一种方式是下载FLEX SDK,只安装基本的AS/FLEX编译器mxmlc和compc。本文采用第一种方式构建开发环境。

    (2)加载prefuse-flare库。从flare官方网站下载flare类库,这个核心工具包由一组AS库工程组成。这是flare的核心开发工具包,用户所有的开发都是基于这一核心包进行开发的。下载后将flare库加载到已建立的开发环境中。

    (3)开发自定义的Flash。在Flex开发视图下,基于flare类库,利用ActionScript语言,根据用户需求开发适合自己应用程序的Flash文件(.swf文件)。本文主要构建了5个自定义的AS文件,分别是:基于用户领域Pie图的Flash文件、基于地域Pie图的Flash文件、基于用户领域TimeLine图的Flash文件、基于地域TimeLine图的Flash文件和基于关联关系Graph图的Flash文件。并对这5个文件编译运行生成5个.swf文件,作为需求挖掘与可视化工程的输入文件。

    (4)结合Flash文件到应用程序。首先,将开发好的Flash文件加载到自己的应用程序工程;其次,对应用程序进行配置,实现Flash文件与应用程序的无缝结合。

    其模型主要是基于J2EE框架的Web应用程序来实现,Flash文件与Web程序的结合是通过将Flash文件嵌入Web页面实现的。Web页面通过 标签定义一个嵌入的对象,利用此元素向页面添加多媒体。 元素允许规定插入 HTML 文档中的对象的数据和参数,以及可用来显示和操作数据的代码。

    (5)应用程序与Flash文件的动态交互。将Flash文件与应用程序结合后,就可实现自由控制Flash文件数据、动态生成图片的效果。Web应用程序与Flash进行交互主要使用JavaScript语言(简称JS)。Flash文件提供了与JS交互接口(如sendShowCommand、sendStopCommand),应用程序通过在页面上用JS调用sendShowCommand发送展示命令,将程序动态生成的数据输送到Flash文件并将文件显示到Web页面;通过调用sendStopCommand控制Flash文件停止运行。

    在应用程序和Flash文件间动态交互的数据以Json格式存在。本文模型可实现对5个Flash文件生成6个Json数据:基于领域的需求分布数据和需求演化数据、基于地域的需求分布数据和需求演化数据、用户专家关系数据和用户机构兴趣数据。

    5 实验与结果展示

    5.1 数据来源

    本文以中国南方电网公司为例,选取南方电网科学研究院技术情报所服务的企业情报用户为对象,从时间、领域和地域三个维度对南方电网情报用户需求分布、需求演化及兴趣图谱进行可视化展示。其领域参照同方知网数据库的电力分类体系树中的电力工业知识体系,主要有电力工业概况、电工基础理论、电工材料、电器、发电和发电厂等13个一级领域及一级领域下的50个二级领域;地域主要统计分析了中国南部5个省(区),分别是广东省、广西壮族自治区、云南省、贵州省和海南省,另外还有这些省(区)下的地级市组成的60多个二级地域。

    本文数据来源主要以清华同方KBase全文数据库为基础,包括南方电网企业文库、外购特色资源(论文库、标准库、成果库、专利库、情报产品库、电力机构库、电力学者库、资讯库、图书库、期刊库等)、科技创新数据(关注领域、关注专家、关注机构、核心期刊)、南方电网共享资源(使用各资源厂家提供的原始数据导入KBase数据库)。

    5.2 情报需求分布展示

    情报需求分布展示依据用户属性及需求定制单,从时间、领域、地域三个方面统计分析当前用户和不同地域用户的需求分布情况。本文以领域为例分析情报需求分布图(地域维度类似)来表明当前用户在电力工业概况、电器、电气测量技术及仪器等7个领域的情报需求情况,即用户在7个不同电力领域的显性需求量分布(见图5)。

    5.3 情报需求演化展示

    情报需求演化依据情报用户的操作日志、用户关联关系,从情报领域、用户地域两个方面,以时间为依托,展示当前用户对情报在不同领域的需求演化图及不同地域的用户的需求演化图。图6以主题需求演化为例展示了用户从2013年11月1日至11月30日期间在电力调度、科技期刊及评定等主题领域上的需求量演化图。

    5.4 个人兴趣图谱展示

    特定情报用户的兴趣网络查询,即检索特定的情报用户,依据情报用户的关注,以其为中心,展示个人的兴趣图谱。依据专家或机构之间的合作关系(这里的合作关系指共同发文关系),展示兴趣主体(专家或机构)之间的关联性,两个兴趣主体合作关系越高,则关系越紧密。以用户专家关系为例分析,分析其用户关注的领域专家、机构和热点主题。

    如以用户“周京”为例对其关系图谱进行可视化呈现(见图7)。第一层,即中间节点表示当前用户;第二层节点分别表示当前用户关注或收藏的专家、热点主题以及兴趣机构等;外围节点表示与用户关注的具体专家、机构和热点主题。图中的线即代表用户与专家及各专家之间的联系,如果用户关注了该作者或作者之间有合作关系,就表示他们之间有联系,他们之间相应的就有一条连线。

    6 结语

    用户需求挖掘包括显性需求挖掘和潜在需求挖掘,本文主要从这两个方面对用户情报需求进行了挖掘,并分别以情报需求分布饼状图和情报需求演化折线图的形式对情报需求挖掘结果进行了可视化表达。同时,基于用户的兴趣维度,分析了用户的兴趣图谱网络及各实体间的合作关系网络,并以网络拓扑图的形式进行了可视化显示。但对于用户的潜在需求挖掘,只是使用了统计分析方法,挖掘效果有待提升,下一步研究思路为利用协同过滤、模式识别等方法对挖掘算法进行改进,以期通过模型把用户的需求更准确的表达出来,提高挖掘的效果。

    参考文献:

    [1]张云涛,龚玲. 数据挖掘原理与技术[M]. 北京:电子工业出版社,2004:56-98.

    [2]易华通. 数据挖掘与情报学的发展[J]. 农业网络信息,2008,(5):170-173.

    [3]Hansen C D, Johnson C R. The visualization handbook [M]. Elsevier Inc, 2005:112-134.

    [4]Robertson G, Card S K, Mackinlay J D. The cognitive coprocessor architecture for interactive user interfaces[C].Proceedings of the 2nd annual ACM SIGGRAPH symposium on User interface software and technology. ACM, 1989: 10-18.

    [5]Eppler M J, Burkand R A. Knowledge visualization: towards a new discipline and its fields of application [D]. Lugano: University of Lugano, 2004:78-111.

    [6]周宁,陈勇跃,金大卫. 知识可视化与信息可视化比较研究 [J] . 情报理论与实践,2007,(2):93-95.

    [7]张少龙,周宁,吴佳鑫. 专利文献引用关联可视化系统的构建[J]. 现代图书情报技术,2007,(2):64-66.

    [8]刘波,马红妹,徐学文. 20年可视化发展历程对情报学的影响[J]. 情报理论与实践,2008, 31(1):15-17.

    [9]Data Visualization for the Web[EB/OL].[2013-12-10]. http://flare.prefuse.org/.

    作者简介:王庆红(1976-),男,南方电网科学研究院高级工程师,博士;王平(1981-),男,武汉大学信息管理学院讲师,管理学博士。

    推荐访问:可视化 关联 挖掘 情报 需求