时间:2023-11-11 12:02:11 下载该word文档
数据挖掘技术
近年来,随着计算机对数据的生成、收集、存贮和处理能力的大大提高,数据量与日俱增,传统的数据分析工具对海量数据的处理力不从心,数据挖掘技术应运而生。
1数据挖掘的应用与研究发展
数据挖掘是指从存放在数据库、数据仓库或其他信息库中的大量数据中挖掘有用知识的过程。数据挖掘是一门新兴的边缘学科,近年来引起了中国学术界和产业界的广泛关注。
数据挖掘出现于20世纪80年代后期,90年代有了突飞猛进的发展。2001年,GartnerGroup的一次高级技术调查将数据挖掘和人工智能列为“未来三到五年内将对工业产生深远影响的五大关键技术”之首,并且还将并行处理体系和数据挖掘列为未来五年内投资焦点的十大新兴技术前两位。美国麻省理工学院在2001年1月份的《科技评论》(TechnologyReview提出将在未来5年对人类产生重大影响的10大新兴技术,其中第3项就是数据挖掘。
数据挖掘技术已被广泛的应用于各个领域,其中一些典型应用如加州理工学院喷气推进实验室与天文科学家合作开发的SKICAT系统,能够帮助天文学家发现遥远的类星体,是人工智能技术在天文学和空间科学上的第一批成功应用之一;生物学研究中用数据挖掘技术对DNA进行分析;利用数据挖掘技术识别顾客的购买行为模式,对客户进行了分析;利用数据挖掘技术识别顾客的购买行为模式,对客户进行了分析;对银行或商业上经常发生的诈骗行为进行预测;IBM公司开发的AS(AdvancedScout系统针对NBA的数据,帮助教练优化战术组合等。
数据挖掘技术汇集了来自机器学习、模式识别、数据库、统计学以及管理信息系统等学科的成果。多学科的相互交融和相互促进,使得数据挖掘这一新学科得以蓬勃发展。
1995年在加拿大召开了第一届知识发现和数据挖掘国际学术会议,由于数据库中的数据被形象地比喻为矿床,数据挖掘一词很快流传开来。1995年以来,国外在数据挖掘和知识发现方面形成了热门研究方向,其中发表论文比较集中的期刊如:《DataMiningandKnowledgeDiscovery》(数据挖掘和知识发现、《ArtificialIntelligenceReview》(人工智能评论等。
2数据挖掘技术的研究
对数据挖掘的理论研究主要在以下六个方面:OLAP技术、面向属性的归纳法、关联规则、分类和预测、聚类和与数据仓库的集成技术。
2.1OLAP技术
联机分析处理(On-LineAnalyticalProcessing,OLAP是关系数据库之父E.F.Codd博士在1993年提出的。OLAP可以在使用多维数据模型的数据仓库或数
据集市上进行,使用数据立方体结构,OLAP操作可以有效地实现。OLAP技术主要是应用隐含在数据里的领域背景知识对数据进行操作,为用户在不同的抽象层上提供数据。OLAP技术一般都是集成在数据仓库中实现的。面向属性的归纳方法
2.2面向属性的归纳方法
1991年,JiaweiHan等提出了面向属性的归纳方法(Attribute-Oriented,AO[10],这是一种有效的、完整的知识发现算法,算法的一个关键就是攀升属性所对应的概念层次树,把原始数据集的数据泛化到用户感兴趣的概念层上,减少数据集的大小,从而降低知识发现过程的计算复杂度。
2.3关联规则
关联规则的挖掘最早是由R.Agrawal等人于1993年提出。在关联规则算法的研究中,生成所有的频繁项目集是核心问题。目前国内对关联规则的研究主要集中在以下3方面:1提高原有算法的效率
在解决最大频繁项目集的生成问题上,为了提高对空间和时间的利用效率,对数据库的扫描次数进行了缩减,由最初的两次扫描减少为一次就可以生成最大频繁集,提高了算法的效率。
2结合其它理论对关联规则进行研究
引入粗糙集概念,使关联规则发现的模式具有较高的解释能力和精确度。为了解决数量关联规则提取过程中的连续属性离散化问题采用了聚类方法[;通过引入神经网络的概念,提出用相互激活与竞争网络来进行数据库中的关联规则的发现等。可以看出通过引入其他领域的先进理论,丰富了关联规则研究的内容,提高了算法的有效性。
3不同形式关联规则的研究
关联规则最早是由购物篮分析开始的,但是随着研究的扩展和深入,关联规则的应用范围不断扩大,因此出现了多种形式关联规则的研究。由最简单的单维、单层、布尔关联规则逐渐向复杂形式扩展。在基本失联规则的基础上提出了布尔型加权关联规则和广义模糊型加权关联规则算法,由单层的关联规则扩展为多层次关联规则的研究[19],提出了基于多维标度关联规则算法[20],其他类型的关联规则如借助正态模糊数模型,软化数量属性的划分边界,生成语言值关联规则[21],