时间: 下载该word文档
维普资讯http://www.cqvip.com
第8卷第3期 2008年9月
温州职业技术学院学报
Journal of Wenzhou Vocational&TechniCal Col1ege
、b1.8 NO.3 Sep.2008
We b文本层次分类方法研究
王序臻
(温州职业技术学院计算机系,浙江温州 325035)
[摘
要]Web丈本分类是在给定分类体系下,根据Web文本内容判定丈本所属类别的一种分类方法。当丈本
类别数量庞大或者类别复杂时,可采用基于向量空间模型的Web丈本层次分类方法,但该分类方法仍存在若干不
足。本丈就此归纳多种改进方法,用作讨论,为文本在Web中的分类及构建模型提供参考。
[关键词】Web文本分类;向量空间模型;层次分类方法;层次结构
[中图分类号】TP391.1 [文献标识码】A [文章编号】1 671-4326(2008)03—0044—04
A Study 0n the Method 0f Web Text Level Classification
Ⅵ,ANG Xuzhen
(Computer Science Department,Wenzhou Vocational&Technical College,Wenzhou,325035,China)
Abstract:Web text classification is a classification method that categorize text in terms of the context of web
text in the given classification system.When the category is complex or its number is large,a web text vector—space, model—based hierarchical classification method can be adopted,the method,however,is not perfect.Thus some improvements have been induced,providing the web text classification and its model construction with reference.
Key words:Web text classification;Vector space model;Hierarchical classification method;Hierrchiacal structure
0 引言
随着网络信息技术的高速发展和高速通信基础设 施的建设,I nt e rn et上的We b页面数量呈指数增长,
分类把人的分类问题转化为小的子问题,能较好地降
低时间和空间的复杂度。本文介绍基于向量空间模型 的层次分类基本思想,并讨论各种改进方法。
如何有效地组织和处理这些海量信息,如何更好地搜 索、过滤和管理这些网络资源,W e b文本分类成r父 键技术。W e b文本分类是基于文本内容将待定文本划 分为一个或多个预先定义的类的方法。最初的文本分 类采用专家手工进行,对领域知识要求高且花费人,
1 Web文本表示方法
向量空间模型(WeCtor Space Mode1,VSM)…是 由Sa 1 t O n教授最 在l 9 68年提出的,是近年来文本 表示应用较多且效果较好的方法之一。该模型涉及到 文档、项、项的权重三个基本概念:
不能满足大规模文档处理的要求。随着文本自动分类 技术的出现,如类中心向量分类、KNN分类、sVM分类 等方法,较好地解决了大量文档的归类『ⅡJ题,并且被 应用到各个领域。
(1)文档(DO C ument):泛指一般的文本或文本中
的片断, ・般指一篇文章。
(2)项(Te rm):文本中的内容特征常用切分后的词 表示,称为文本的项,即文本可用项集表示。
(3)项的权重(Tei'm Weight):对f含有 项的文 本,不同的项, 区分文本的能力不同,故t 常被赋予不同 的权重W(f , )以表示它们在文本中的重要程度。常用
的有布尔函数、开根号函数、对数函数、T