当前位置:
首页> 施磊磊 20130930 开题报告
施磊磊 20130930 开题报告
时间: 下载该word文档
江 苏 大 学 硕 士 学 位 研 究 生
开 题 报 告
论文题目 基于Hadoop和Hbase的Nutch分布式垂直搜索引擎的研究
姓 名 施磊磊 学 号 S1208052 专 业 计 算 机 应 用 技 术 指导教师 施化吉 教授
2013 年09月30日
- 1 -
基于Hadoop和Hbase的Nutch分布式垂直搜索引擎的研究
一、课题的研究背景、目的和意义
随着互联网的飞速发展,大量网站如同雨后春笋般大批涌现,目前互联网己经发展成为一个拥有上千亿个页面和超链接的海量信息空间,而且所包含的页面仍在继续以惊人的速度增长。人们工作与生活中需要的许多信息都蕴含在信息量庞大的互联网中。互联网信息极大地便利和丰富了人们的生活,但同时也给信息的组织、查找与分析等带来了极大的挑战。海量数据增加了用户对信息的阅读和选择。然而面对这么多的网页内容信息,人们怎样准确、快捷地访问到自己所需要的网页呢?在这样的形势下,人们需要借助搜索引擎来帮助他们寻找自己需要的资料,因此搜索引擎应运而生。
搜索引擎是指因特网上专门提供查询服务的一类网站,它以一定的策略在互联网中搜集、发现信息,对信息进行理解、提取、组织和处理,并为用户提供检索服务,从而起到信息导航的作用。通用的搜索引擎如Google、百度等,将很多网站信息自动整理在一个平台上,提供整合导航以及快捷的查询服务,成为互联网发展自门户网站以来的最具开创性和革命性的