聪明文档网

聪明文档网

最新最全的文档下载
当前位置: 首页> Web文本层次分类方法研究

Web文本层次分类方法研究

时间:    下载该word文档
维普资讯http://www.cqvip.com
第8卷第3期 2008年9月 
报 
Journal of Wenzhou Vocational&TechniCal Col1ege 
、b1.8 NO.3 Sep.2008 
We b文本层次分类方法研究 
王序臻 
(温州职业技术学院计算机系,浙江温州 325035) 

要]Web丈本分类是在给定分类体系下,根据Web文本内容判定丈本所属类别的一种分类方法。当丈本 
类别数量庞大或者类别复杂时,可采用基于向量空间模型的Web丈本层次分类方法,但该分类方法仍存在若干不 
足。本丈就此归纳多种改进方法,用作讨论,为文本在Web中的分类及构建模型提供参考。 
[关键词】Web文本分类;向量空间模型;层次分类方法;层次结构 
[中图分类号】TP391.1 [文献标识码】A [文章编号】1 671-4326(2008)03—0044—04 
A Study 0n the Method 0f Web Text Level Classifcation 
Ⅵ,ANG Xuzhen 
(Computer Science Department,Wenzhou Vocatonal&Technical Colege,Wenzhou,325035,China) 
Abstract:Web ext classicaton  a classficaton method hat categorze text n erms of the context of web 
text in the given classification system.When the category is complex or its number is large,a web text vector—space, model—based hierarchical classification method can be adopted,the method,however,is not perfect.Thus some improvements have been induced,providing the web text classification and its model construction with reference. 
Key words:Web ext classicaton;Vector pace model;Hierarchical classcaton method;Hierchical sucture 
0 引言 
随着网络信息技术的高速发展和高速通信基础设 施的建设,I nt  rn et上的We b页面数量呈指数增长, 
分类把人的分类问题转化为小的子问题,能较好地降 
低时间和空间的复杂度。本文介绍基于向量空间模型 的层次分类基本思想,并讨论各种改进方法。 
如何有效地组织和处理这些海量信息,如何更好地搜 索、过滤和管理这些网络资源,W e b文本分类成r父 键技术。W e b文本分类是基于文本内容将待定文本划 分为一个或多个预先定义的类的方法。最初的文本分 类采用专家手工进行,对领域知识要求高且花费人, 
1 Web文本表示方法 
向量空间模型(WeCtor Space Mode1,VSM)…是 由Sa    n教授最 在l 9 68年提出的,是近年来文本 表示应用较多且效果较好的方法之一。该模型涉及到 文档、项、项的权重三个基本概念: 
不能满足大规模文档处理的要求。随着文本自动分类 技术的出现,如类中心向量分类、KNN分类、sVM分类 等方法,较好地解决了大量文档的归类『ⅡJ题,并且被 应用到各个领域。 
(1)文档(DO C ument):泛指一般的文本或文本中 
的片断, ・般指一篇文章。 
(2)项(Te rm):文本中的内容特征常用切分后的词 表示,称为文本的项,即文本可用项集表示。 
(3)项的权重(Tei'm Weight):对f含有 项的文 本,不同的项, 区分文本的能力不同,故t 常被赋予不同 的权重W( , )以表示它们在文本中的重要程度。常用 
的有布尔函数、开根号函数、对数函数、T F I D F函数 
由于W  b文本概念类别之间一般存在着层次关系, 即一个大类往往包含许多小类,小类之下又有更小的 类别,尤其是当文本类别数量庞大或复杂的情况下, 层次分类是一种有效的分类方法。按照层次结构对文 
档进行分类更能体现文档之间的语义关系,而且层次 
等【I。其中,TF  DF函数在文本检索和机器学习中使用 
[收稿151期]2008—03—04 
[作者简介]王序臻(1 973-),男,浙江温州人,温州职业技术学院计算机系助理实验师 

免费下载 Word文档免费下载: Web文本层次分类方法研究

  • 29.8

    ¥45 每天只需1.0元
    1个月 推荐
  • 9.9

    ¥15
    1天
  • 59.8

    ¥90
    3个月

选择支付方式

  • 微信付款
郑重提醒:支付后,系统自动为您完成注册

请使用微信扫码支付(元)

订单号:
支付后,系统自动为您完成注册
遇到问题请联系 在线客服

常用手机号:
用于找回密码
图片验证码:
看不清?点击更换
短信验证码:
新密码:
 
绑定后可用手机号登录
请不要关闭本页面,支付完成后请点击【支付完成】按钮
遇到问题请联系 在线客服