基于Hadoop的大数据查询系统简述*
陈梦杰 陈勇旭 贾益斌 张一川 宋 杰
【摘 要】摘 要 近年来,随着计算机技术的迅猛发展,其领域迎来了大数据时代。随着大数据的出现,传统的关系型数据库已经不能满足高储存量的要求,此时成本低廉、有着良好并行性和伸缩性的云数据库应运而生,它采用键值对数据模型和分布式的计算环境。但是海量数据在Key-value数据库中的查询效率低下、实时性差等问题又普遍存在。为了解决查询效率低下这一问题,将多维数据模型和索引技术应用于Key-value数据库,将事实数据以多维的形式进行存储并在多维模型上建立索引以加快查询速度。论文将系统地描述多维数据模型的建立和索引技术的实现,最后简单地和主流Key-value数据库进行优缺点对比。
【期刊名称】计算机与数字工程
【年(卷),期】2013(041)012
【总页数】4
【关键词】关键词 大数据;Key-value数据库;多维模型;Z-ordering;K-d tree
1 引言
随着计算机技术的发展及其在互联网、传感器和科学数据分析等领域的广泛应用,数据量爆炸性地增长[1]。大数据时代的到来促使云数据库技术得到飞速的发展[2]。为了存储海量数据,各大数据库厂商都相继推出了其云数据库产品。经研究调查,目前业界普遍认同云数据库具有高可扩展性、高可用性、采用多租形式和支持资源有效分发等特点[3],与此同时海量数据查询效率方面的优点鲜有提及。事实上,当数据量到达TB乃至PB级时,现有云数据库的查询效率普遍低下,多条件复杂查询效率问题尤为突出。本课题为了解决海量数据查询效率低下这一问题,以事实数据的属性为基础建立多维数据模型并在此模型上应用索引技术来加快查询速度。
2 系统架构
系统架构重点描述本系统数据装载和数据查询的过程。
如图1所示,首先通过数据装载工具将数据导入系统的Hadoop集群[4],同时管理节点抽取数据的维信息并导入维元数据服务器进行存储。数据装载完成以后客户端可以向管理节点发送查询条件,管理节点解析条件并将其传入维元数据服务器,维元数据服务器查询被传入条件对应的维编码并将其返回给管理节点,管理节点将各个维编码通过索引技术处理得到索引值或者索引范围。索引通过管理索引的树结构查询得到其对应事实数据所在的文件地址或者文件地址范围,此时管理节点将文件地址和操作指令作为作业参数发送给底层文件系统(Hadoop集群),Hadoop集群执行作业并给客户端返回查询结果。
¥29.8
¥9.9
¥59.8