信息可视化应用研究进展
李纲郑重
(武汉大学信息资源研究中心,武汉,430072)
[摘要]本文讨论了信息可视化的定义、基本过程与特征以及信息可视化的分类和数字图书馆可视化等可视化主要应用领域,并着重介绍了近年可视化技术在数据挖掘、空间信息挖掘及知识管理等领域的最新应用。
[关键词]信息可视化数据挖掘数字图书馆知识管理[中图分类号]G354[文献标识码]A[文章编号]1003-2797(2008)04-0036-05[Abstract]Abstract:Thearticleisanoverviewaboutthepossibledomainsininformationvisu-alization(IV)research,includingdefinition,basiccourseandcharacteristicofIV.ThepaperalsoalsoexpatiatethethenewestIVapplicationinfieldssuchasdatamining,spaceinformationexca-vatingandknowledgemanagement,etc.
[Keywords]InformationvisualizationDataminingDatalibraryKnowledgemanagement信息可视化这一术语最早出现在1989年G.Ro-bertson、S.Card与J.Mackinlay的论文中[1],目前信息可视化已成为一个与科学可视化并列的研究领域。科学可视化的研究内容包括图像生成和图像理解两部分。按其结合程度将可视化分为三个层次:一是后置处理(postprocessing),即将科学和工程计算的结果解释成可视图形;二是实时跟踪处理(tracking),即图形可视化显示与计算过程同步进行;三是交互控制(steering),表明在计算过程中根据显示结果可随时对模型和控制参数进行修改和引导[2]。
信息可视化是科学可视化的应用领域之一,但二者存在着很大差异。一般而言,科学可视化指空间数据场的可视化,而IV是非空间数据场的可视化。虽然差异明显,但科学可视化的发展对IV的研究起到了很大的推动作用。两者不同点可参见表1。1信息可视化主要应用领域1.1信息可视化应用分类
马里兰大学教授本施奈德曼(BenShneider-man)把数据分成以下七类:一维数据(1-D)、二维数据(2-D)、三维数据(3-D)、多维数据(multidimen-sional)、时态数据(Temporal)、层次数据(tree)和网络数据(Network)。信息可视化方法根据不同的
[3]
表1信息可视化和科学可视化的区别
数据源/信息源
作用
信息可视化
大型数据库中的数据直观地表达知识信息之间的逻辑关系
信息获取知识信息多维显示知识信息分析与挖掘信息管理、商业、金融、企业管理等
几何技术、基于图标的技术、面向像素的技术、分级技术等
科学可视化
计算和工作测量中的数据提供集成、方便的数据处理工具、对海量数据进行模拟和计算
数据预处理映射(构模)绘制和显示
医学、地质、气象、液体力学等
线状图、直方图、等值线(面)、绘制、体绘制
处理过程应用领域主要的应用方法
数据也可划分为以下七类:
(1)一维信息可视化。一维信息是简单的线性
信息,如文本或者一列数字。贝尔实验室的Eick等人在可视化系统SeeSoft中实现了一种对上百万行计算机程序进行可视化的方法。
(2)二维信息可视化。在信息可视化环境中,二维信息是指包括两个主要属性的信息。城市地图和建筑平面图都属于二维信息可视化。最常见的二维信息可视化是地理信息系统(GIS)。
(3)三维信息可视化。三维信息通过引入体积的概念超越了二维信息。许多科学计算可视化都是三维信息可视化。近年来,三维信息可视化被广泛地应用于建筑和医学领域。我国863高技术发展
[基金项目]本文系武汉大学海外人文社会科学研究前沿追踪计划研究成果,并得到教育部新世纪人才支持计划资助。[作者简介]李纲,1966年生,教授、博士生导师;郑重,1982年生,博士生。
36李纲等:信息可视化应用研究进展
LiGuangetc.:ResearchProcessoftheCoreDomainofInformationVisualization
研究课题数字化虚拟中国人数据暨构建与海量数据系统的目的,就是用计算机在三维空间模拟真实人体的所有特征。
(4)多维信息可视化。多维信息是指在信息可视化环境中的那些具有超过3个属性的信息。例如,关于某地所有房屋的价值和它们的地址数据的一个清单(一维数据),可以按照价值排序;也可以创建一个测度,用点的大小来表示房子的相对价值,并且将点放置在地图上来表示它们的位置(二维数据)。
(5)时间序列信息可视化。有些信息自身具有时间属性,可以称为时间序列信息。如果事物本身是按照时间序列发生的,那么根据时间顺序图形化显示事物就是一种普遍使用的、很有效的信息可视化方法。项目管理工具可以使用户一眼看出持续发生事件的概况。时间线在多媒体制作软件中,提供了很好的同步控制功能,如Flash。
(6)层次信息可视化。抽象信息之间的一种最普遍关系就是层次关系,如磁盘目录结构、文档管理、图书分类等。人们在对层次信息可视化进行研究的过程中提出了一系列新的可视化技术,典型的有:Robertson、Mackinlay和Card[4]等提出的一种利用三维图形技术对层次结构进行可视化的方法Conetree;Shneiderman等提出的一种可以充分利用屏幕空间的层次信息表示模型Tree-map;Lam-ping和Rao等提出的一种基于双曲几何的可视化和操纵大型层次结构Focus+Context技术Hyper-bolictree。
(7)网络信息可视化。网络信息并不一定完全是网络上的信息,准确地讲,它是指这样的一个节点,它们与其他任意数量的节点之间有着联系。因为网络数据集合中的节点不受其他与它们相联系的有限数量节点的限制(与层次节点不同,它们只有一个交节点),网络数据结构没有内在的等级结构,两个节点之间可以有多种联系,节点以及节点间的关系可以有多个属性。1.2数字图书馆可视化
自美国科学家上世纪90年代初提出了数字图书馆概念后,以驱动多媒体海量数字信息组织与互联网应用问题各方面研究的技术领域开始在全球迅速发展起来。将信息可视化技术引入到数字图书馆领域,解决信息需求与服务的个性化、信息提供的个性化等问题,可以通过信息可视化尝试解决发展问题。这一领域主要关于信息检索过程可视化和信息结果可视化。信息检索由两个步骤组成:构建和使
用。用户作为信息使用者的同时也是信息构建者,通过增加检索路径到信息空间,这些增加的路径给其他用户检索其他路径提供了有价值的信息。
TileBARS是美国加州伯克利大学数字图书馆项目中基于Web的分布式检索课题Cheshire的一部分,也是目前一种较为方便、实用的检索可视化
[5]
系统。它使用一种被称为Texttiling的算法,将每一篇文档按页或段落划分为分主题块。用户检索式用若干个主题来确定,每个主题一行,称为词集(asetofwords),一般一个主题是一系列的同义词或相关词。TileBARS用矩形块图标表示文档,矩形块的大小表示该文档的相对长度。系统允许用户使用完全的信息,通过基于文档中查询检索词的分布式行为,决定哪些文档和文档的哪些部分来进行浏览,达到快速和简洁地展示文档的相关长度,检索词在文档中出现的频率、分布以及相对分布。
用户在输入检索式时,将检索主题分成n组检索词(一般n=3),如检索词组1,检索词组2,检索词组3,所有的检索词都围绕一个相同的检索主题,根据每一组检索词构造文档簇,每一个大的矩形表示一个抽象的文档,矩形的长度表示文本的长度。每个矩形的上面的小正方形表示检索词组1的命中次数,中间的长方形为检索词组2的命中次数,下面的正方形为检索词组3的命中次数,正方形的颜色越深,表示检索词命中的频率越大(白色代表命中次数为0,黑色为8或更多的命中次数,一个检索词组的所有检索词的频率为各检索词之和)。每个矩形的第一列为文档的第一部分,第二列为文档的第二部分,如此等等。用户需要浏览感兴趣的页面时,只需点击具体的正方形即可,而不必再为了查找具体的某一段而浏览整篇文档。如图1所示。
图1TileBARS
2信息可视化的最新进展
近几年来,国际上对IV专题进行了广泛而深入的研究,取得了一些重要进展。这些进展和研究成果的展示与交流体现在一些国际研讨会上及其论文中。国际信息可视化技术最新进展是将可视化技术运用于数字图书馆的开发、数据挖掘以及知识管理过程中。关于这些领域的研究均取得了一系列的成果。
372008年第4期
2.1可视化数据挖掘
信息可视化不仅用图像来显示多维的非空间数据,使用户加深对数据含义的理解,而且用形象直观的图像来指引检索过程,加快检索速度。可视化数据挖掘是一个使用可视化技术在大量的数据中发现潜在有用知识的过程,它可以将许多数据同时显示在屏幕上,并将每一个数据值映射成屏幕的一个像素。像素的颜色对应于每个数据值或是数据值与给定查询值之间的差值。在这种技术中,用户由可视化的视觉反馈指导并且能更快地研究数据库中数据的众多特性。可视化数据挖掘的关键技术主要包括三个方面,即交互性技术、选择查询技术和可视化模型。
目前,可视化数据挖掘主要有两种分类系统,一种是Keim提出的分类体系,另外一种是Card提出的分类体系。Keim等人将面向多变量和多维信息的可视化数据挖掘技术分为六大类[7],包括像素导向(Pixe-lbased)技术、几何映射(Geometricprojection)技术、图标技术(Icon-based)、分层技术、图形技术以及混合技术。其中混合技术集成了
多种技术,可以清晰表现数据信息,可视化结果可以在一个窗口显示,也可以在多个窗口显示。
Card等人根据信息可视化的类型将可视化数据挖掘技术分为四个层次。最高层的可视化工具可以为用户提供在其运行环境之外(如在Internet或在线服务器上收集)进行信息收集的可视化途径;第二层可视化工具旨在通过创建信息工作空间的快速获取和高度交互的可视化表示来支持用户执行任务。第三层是可视化的知识工具,描述数据的可视化表达,它提供了一个控制集用以与这些可视化的表达进行交互,这就使用户能够确定并提取数据的关系。第四层次是增强的可视化对象,它的目标在于揭示对象内部的一些本质信息。第三层次中的可视化知识工具可以根据可视化结构(VisualStructure)的类型进一步细分。
2.2可视化技术在空间信息挖掘中的应用
从空间数据挖掘的国内外研究现状来看,所作的空间数据挖掘研究多是侧重于空间要素的数据挖掘,而以空间要素和非空间要素信息做联合空间数据挖掘研究的不多。空间数据挖掘通常以地图应用为主,通常表现为地理现象的分布规律、聚类规律、发展演变规律、相连共生的关联规则等;而应用数据挖掘在GIS遥感影像解译中,由于同物异谱和同谱异物的存在,单纯依靠光谱值知识的统计分类和特38[8]
[6]
征提取难以满足要求,如果能将空间目标的关联知识考虑进去,可以大大提高自动化和准确程度。
由此可见,数据挖掘与GIS集成可以根据不同的研究内容分为面向空间要素的数据挖掘、面向非空间要素的数据挖掘和空间要素信息与非空间要素信息的联合数据挖掘。根据不同的类型,所选的可视化技术也不相同,需要根据实际情况决定采用何种可视化数据挖掘技术。
面向空间要素的数据挖掘主要是挖掘空间实体间的空间关系、空间规则和特征信息,主要从两种数据挖掘的粒度基于目标实体和栅格来考虑的。面向非空间要素的数据挖掘是对经过空间化后的数据在非空间层次进行一般的数据挖掘,即建立在对GIS所管理的空间实体所对应的属性信息的数据挖掘,然后利用GIS对所挖掘的结果进行表达,是一种较低层次的数据挖掘与GIS集成应用。空间要素和属性信息关联的空间数据挖掘不同于前两者的数据挖掘集成,它的研究内容不仅仅局限于对地理要素的空间位置和空间关系的研究,而还包括对空间现象(四季变换、温度变化、刮风降水)、空间因素(高山、谷地、平原)、空间组成(土壤、地貌、植被、水域、矿产)、空间活动(动物变迁、人类活动、水土流失、沙漠侵蚀)等的研究,力图从中揭示出相互影响的内在机制与规律。
匹兹堡大学的可视信息系统中心VisualInfor-mationSystemCenter(VISC)是匹兹堡大学KenSochats教授领导下,进行可视数据挖掘,地理信息系统、环境系统等可视化项目的研究中心。
其最新研究项目包括[9]:国家防御中心;地理信息系统;Lancelot-Grail;环境可视化;潜在威胁建模;学校数据地图。
以空间信息可视化系统(GeographicInforma-tionSystems)为例,地理空间可视化通过强大的、有效的地图系统将复杂的空间和属性数据以地理的形式展现出来,从而挖掘数据之间的关联性和发展趋势,了解市场动态、发现商业机会,进而作出及时和正确的判断和决策。
匹兹堡大学对GIS已进行了近10年的研究,其研究成果应用于多种场合。目前增强现实技术AR与GIS结合的研究比较广泛,如将空间超媒体、GIS等与AR技术结合,为已有的各种系统提供新的功能或开发新的系统;将AR与GIS空间数据库结合可用于车辆自主导航;将AR与GIS组合,可用于解决环境变化的可视化问题;将AR作为GIS
李纲等:信息可视化应用研究进展
LiGuangetc.:ResearchProcessoftheCoreDomainofInformationVisualization
的新界面,可在面向公众的应用领域开辟广阔的市场前景等。
2.3知识管理可视化2.3.1知识管理体系
根据日本学者野中郁次郎(Nonaka)和竹内弘武(Takeuchi)对显性知识和隐性知识的表述,可以归纳一个简单的公式来表达知识的组成。首先定义Ke表示外显知识,Kt则表示内隐知识,二元运算为加法,为笛卡儿积,则可由抽象代数的定理理解知识的代数结构性质。个人的显性知识可被定义为:Ke=(IS)P。相似地,Kt的定义公式:Kt=(BL)M。在这个隐性知识公式中,(BL)显然与Ke具有极为密切的关系。因为具有越多的显性知识的个人就无疑拥有更多的知识资源和链接。或者可以用公式这样表示:P=f1(Kt);(BL)=f2(Ke)一个完整的知识管理体系应该包括:知识收集、知识提炼、知识存储和知识应用四个阶段。知识形态之间的转化,需要一种视觉化模型来表达和呈现,就好比UML(UnifiedModelingLanguage,统一建模语言)作为一种可视化建模语言,被用作软件开发流程中的分析和设计阶段一样。2.3.2几种已有的知识可视化工具
(1)概念图(ConceptMap)。概念图是康乃尔大学的诺瓦克(J.D.Novak)博士根据奥苏贝尔(Da-vidP.Ausubel)的有意义学习理论提出的一种教学技术。它通常将某一主题的有关概念置于圆圈或方框之中,然后用连线将相关的概念和命题连接,连线上标明两个概念之间的意义关系。
(2)思维导图(MindMap)。思维导图最初是20世纪60年代英国人托尼巴赞(TonyBuzan)(1999)创造的一种笔记方法。托尼巴赞认为思维导图是对发散性思维的表达,因此也是人类思维的自然功能,是打开大脑潜能的万能钥匙,可以应用于生活的各个方面。
(3)认知地图(CognitiveMaps)。认知地图也被称为因果图(CausalMaps),是由Ackerman&Eden(2001)提出的,它将想法(ideas)作为节点,并将其相互连接起来。这三种方式无疑都提供了进行知识管理的有效途径,但是,它们局限于都用节点(图标)表示主题,用线段表示关系,图形本身没有意义,也就是说,如果去掉了节点和线段上面的关键字就很难了解别人想要表达的含义;其次,这三种图形往往呈现树形结构,可表达的结构比较单一和简单;再次,因为三种图形的绘制方法没有定义严格的统
一规则,主观性较强。为了弥补以上方法的缺陷,一种新的知识建模语言(KML,KnowledgeModelingLanguage),用图形化的语法和语义来描述知识图,使其呈现的知识结构看起来更有语义。可视化(Visualization)就是把数据、信息和知识转化为可视的表示形式的过程,是人类与计算机这两个最强大的信息处理系统之间的接口。可视化的表达方式可以观察、浏览和编辑的形式展示语义信息。将可视化表达方式引入知识建模过程,无疑具有极其重要的意义。
2.3.3可视化知识建模语言KML
如何在浩瀚信息海洋中获取自己所需的知识,进而进行有效的管理并最终利用知识创造价值是知识管理的重要目标。而如何构建良好的知识模型来存储和表达所需的知识,是知识创造价值过程的关键因素。针对这种需求,提出了可记录隐性知识的可视化知识建模语言(KML),通过使用可视化知识建模语言,人们可以将内在的知识记录转化为图形化的文档,从而得以展现知识的全貌,而知识的使用也变得更加直观和有效。
KML语言由知识组件(knowledgeobject)、关系(relationship)和图形(diagram)三部分组成[10]。
(1)知识组件。如图2所示,知识组件有四种:分别是主题(topic)、案例(case)、内容(content)和判断(judgement)。主题是知识分类后抽象表达的结果,以圆形表示,所有的知识都可以抽象表达主题;案例是人们心智活动可以观察到的结果,用椭圆形表示;内容是资料和信息的来源,用矩形表示;判断是知识组件从一种活动状态变化到另一种活动状态时,所经过的知识处理和判断,以菱形表示。状态属性用以标示当时知识组件所处的状态;行为属性表示知识对象所隐含的行为,用以传达对象的某种信息。描述属性用来解释和记录。
图2知识组件示意图
(2)关系。关系(也可以叫关联,relationship)是知识对象之间的连结(link),或是表示相关的对象之间连结的意义。在集合论中,当人们考虑一个集合的对象的排列顺序时,这个集合就是有序集合(orderedset)。而把具有两个对象的有序集合,称为有序三元(orderedtriple),以次类推。在KML
392008年第4期
中定义了十种的关系:关联(association)、泛化(generalization)、依赖(dependency)、聚集(aggrega-tion)、组成(constitution)、分类(classification)、参考(reference)、顺序(sequence)、同步(synchroniza-tion)和判断(judgement)。而知识对象之间要使用何种关系来描绘,除了参照真实世界中对象彼此间的关系外,思考者的个人观点也是关键因素。
(3)图型。根据上面介绍的各种图形语法,可以给知识图下一个定义:知识图是利用各种元素连接一组相关知识对象所成的图形。笔者用这样的方式来表示知识模型,并描绘相应的知识图。理论上,利用上述所有的关系可以描绘出复杂的知识图,但过于复杂的图形表现,可能会降低知识图的可读性(readability),而过于简单的知识图也可能降低其可用性(usebility)。因此,将知识图划分为两大类图型:结构图(structurediagram)和活动图(activ-itydiagram)。结构图主要用来表达知识片段间的关系,活动图用来描述程序、流程或者场景变换的关系。3结语
IV在商务、金融和通信等领域,有着十分广阔的应用前景。在通信领域,一方面,目前正在开发更为精细和高级的网络模型,以辅助将来的规划过程。另一方面,更复杂的发射和交换设备,为现行网络的重构提供了更大的自由度和灵活性。近年来,随着PC功能的提高,各种图形显卡以及可视化软件的发展,IV技术已扩展到科学研究、工程、军事、医学、经济等各个领域。随着数字中国、数字长江、数字黄河、数字城市等工程的进展,IV技术在我国得到了广泛应用。但从总体上来说,与国外先进水平相比还有相当大的差距,特别是在商业软件方面,还是空白。因此,组织力量开发IV商业软件,并通过市场竞争,促使其逐步成熟,已成为当务之急。
引用文献
1G.G.Roberson,S.K.Card,J.D.Mackinlay,Thecognitive
co-processorforinteractiveuserinterfaces,ProceedingsofUIS'89,ACMSymposiomonuseinterfaceandsoft-wareandtechnology,10-18,1989.
2胡祥云,胡祖志等.科学可视化及其在地学中的应用.工
程地球物理学报,2004(8)
3StuartCard,JockMackinlay,BenShneiderman.Read-ingsinInformationVisualization:UsingVisiontoThink.MorganKaufmann,1999.
4MackinlayJD,RobertsonGG,CardSK.Theperspective
wall:detailandcontextsmoothlyintegrated.Proceed-ingsoftheACMConferenceonComputerHumanIn-ter-
action,1991.
5http://elib.cs.berkeley.edu/tilebars(2007-06-05)
6FerreiradeOliveira.MCLevkowitzH.FromVisual
DataExplorationtoVisualDataMining.ASurvey.IEEE.Transactionsonvisualizationandcomputergraph-ics(TVCG),2003,9(3)
7JiaweiHan,KamberM著.范明译.数据挖掘:概念与技术.北京:机械工业出版社,2001.156页
8芮小平.空间信息可视化关键技术研究[博士论文].中科
院遥感应用研究所,2004.
9http://visc.exp.sis.pitt.edu/(2007-06-05)
10金叶等.一种可视化的知识管理建模语言.计算机工程与
应用,2005(19)参考文献
1D.A.Keim.InformationVisualizationandVisualData
Mining.IEEETransactionsonVisualizationandCom-puterGraphics(TVCG),Vol.8,2002.
2StuartCard,JockMackinlay,BenShneiderman.Readings
inInformationVisualization:UsingVisiontoThink.
MorganKaufmann,1999.
3FerreiradeOliveira.MCLevkowitzH.FromVisualData
ExplorationtoVisualDataMining.ASurvey.IEEE
Transactionsonvisualizationandcomputergraphics(TVCG),2003,9(3)
4陈文伟,黄金才.数据仓库与数据挖掘.北京:人民邮电出
版社,2004.
5刘凯.信息可视化概念的深入探讨.情报杂志,2004(12)6李学静,谢蓉.信息可视化与Web信息检索.图书馆理论
与实践,2004(3)
7张海营.信息可视化刍议.科技情报开发与经济,2005(8)8宋绍成,毕强.信息可视化的基本过程与主要研究领域.
情报科学,2004(1)
9周宁.信息可视化在信息管理中的新进展.现代图书情报
技术,2003(4)10靖培栋.信息可视化情报学研究的新领域信息可视
化.情报科学,2003(7)
11周静怡,孙坦.信息可视化在数字图书馆中应用浅析.现
代图书情报技术,2005(1)12胡永刚.数据挖掘中可视化技术综述.计算机与现代化,2004(10)
13石明芳.数字图书馆中的信息可视化技术.情报杂志,
2006(7)
14http://ciir.cs.umass.edu/projects(2006-02-08)15http://www.vislab.usyd.edu.au(2006-01-08)16http://www.cssti.org.cn(2005-09-05)
17http://www.cs.usyd.edu.au/research/labs.shtml
(2005-11-03)18http://www.sigir2005.org/program.php(2006-05-08)
(收稿日期:2008-03-10)
40
因篇幅问题不能全部显示,请点此查看更多更全内容