时间:2022-12-21 05:58:16 下载该word文档
基于文本语义和表情倾向的微博情感分析方法
王文;王树锋;李洪华
【摘要】针对基于机器学习的中文微博情感分析方法存在处理过程复杂、判断准确率低等问题,该文提出了一种新的情感分析方法。将微博爬虫和Web应用程序编程接口(API相结合,对动态微博数据进行收集和预处理。基于NTUSD和HowNet中文情感词典的微博情感词的抽取和分类,计算词语语义相似度和倾向性。综合考虑表情、文本情感倾向的加权和正面情感增强等因素。实验结果表明:表情情感倾向对微博情感倾向起着重要作用;在表情和文本情感倾向比值固定的情况下,调整因素和中性区间的选择会对情感倾向判断准确率产生影响;通过与基于HowNet语义相似度的计算模型比较,该文方法使得情感倾向判断准确率提高约5%。%AimingattheproblemsofcomplextreatmentworksandlowaccuracyofthesentimentanalysismethodofChinesemicrobloggingbasedonmachine-learning,anewsentimentanalysismethodisproposedhere.ThedynamicmicrobloggingdataarecollectedandpretreatedbycombiningWeibocrawlersandWebapplicationprogramming
interface(API.ThesemanticsimilarityandtendentiousnessarecalculatedbasedontheextractionandclassificationofmicrobloggingemotionalwordsofChinesesentimentworddictionariesNTUSDandHowNet.Theweightingsofexpressionandtextemotionaltendentiousness,theincreaseofpositiveemotionandotherfactorsareconsidered.Exper-imentaldatashowthat:expressiontendentiousnessplaysavitalroleonmicrobloggingemotionalten-dentiousness;thereasonablesettingofadjustmentfactorsandneutralthresholdscanimprovetheaccuracyofsentimentanalysis
betterwhentheratioofexpressionandtextemotionaltendentiousnessisfixed;comparedwiththecalculationmodelbasedonHowNetsemanticsimilarity,theadjustmentaccuracyofemotionaltendentiousnessofthesentimentanalysismethodproposedhereisimprovedbyabout5%.【期刊名称】《南京理工大学学报(自然科学版)》【年(卷,期】2014(000006【总页数】7页(P733-738,749
【关键词】文本语义;表情倾向;微博;情感分析;机器学习;微博爬虫;应用程序编程接口;情感词典;语义相似度【作者】王文;王树锋;李洪华
【作者单位】常州工学院计算机信息工程学院,江苏常州213002;常州工学院常州市软件技术研究与应用重点实验室,江苏常州213002;常州工学院计算机信息工程学院,江苏常州213002;常州工学院常州市软件技术研究与应用重点实验室,江苏常州213002;常州工学院计算机信息工程学院,江苏常州213002【正文语种】中文【中图分类】TP391
微博中蕴含着用户对于事件的情感,情感包含对微博所表达内容的态度、意见和评价,对微博用户所产生的舆论信息进行情感和情感趋势分析,能够很好地挖掘网络群体的行为规律。通过波动分析,能够实现对网络异常或突发事件的监测,有助于完善基于互联网的舆情监控系统。当前,情感分析方法主要包括基于语义和基于机器学
习的方法两大类[1]。所谓词汇的语义倾向,就是通过对微博文本个体词褒贬程度进行分析,将度量值规划在±1之间,最后通过组合个体词情感倾向的度量值得到语句和文本的情感倾向。基于机器学习的方法就是通过使用机器学习的方法构造分类器,根据已经标注好的训练集,训练一种分类器,将训练集中的正例和反例区分开,常用的方法有朴素贝叶斯法[2]、决策树法、K最近邻法、中心向量法和支持向量机法等。刘志明等人[3]使用支持向量机(Supportvectormachine,SVM、信息增益(Informationdivergence,ID和词频-逆向文件频率(Termfrequency-inversedocumentfrequency,TF-IDF三种特征项权重相结合的方法对微博情感分类进行研究,实验表明三者结合对微博的情感分类效果最好。吴维等人[4]采用多特征提取法,结合字典法和机器学习法提高情感分析的判断准确率,使得平均判断准确率达到72%以上。张珊等人[5]在考虑文本表情和情感词的基础上构建贝叶斯分类器,使用Unigram特征项并用熵进行优化之后,使得召回率和判断准确率都达到85%以上。基于机器学习的方法一般适用于新闻报道、论坛等长文本数据集和传统情感分析。由于微博存在文本短小精悍、文章语言结构不完整、口语化等特点,给基于微博的研究带来了一定的困难。同时由于微博信息量非常集中,语句最多140字,一般不会超过3句,正反例难以区分,分类模型的训练受限,所以分类效果较差。基于语义词典的微博情感计算方法能够较好地解决上述问题,从而保证情感倾向分析的准确性。Kumar等人[6]指出,通过提取推特文件中的词语,与先前被标注为积极或消极的情感字典中的词语进行比较来计算英文文本的情感,对英文推特文本是有效的。Riloff等人[7]通过人工定制模板并选取种子情感词语,采用迭代法成功获取了名词词性的