聪明文档网

聪明文档网

最新最全的文档下载
当前位置: 首页> 正在进行安全检测...

正在进行安全检测...

时间:2023-10-14 11:02:59    下载该word文档
语言模型的基本槪念本文介绍-下有关语言模型的基本概念,但是在介绍语言模型Z前,先简单回顾-自然语肓处理这个大问题吧。现在自然语言处理的研究绝对是一个非常火热的方向,主要是被肖前的互联网发展所带动起来的。在互联网上充斥着大最的信息,主要是文字方面的息,对这些信息的处理离不开自然语言处理的技术。那么究竞什么是自然语言以及自然言处理呢?自然语言处理的基本任务自然语言(NaturalLanguage)其实就足人类语言,自然语言处理NLP)就足对人类言的处理,当然主要是利用计算机。自然语言处理是关于计算机科学和语言学的交叉学科,常见的研究任务包括:分词(WordSegmentationWordBreaker,WB信息抽取(InformationExtraction*IE:命名实体识别和关系抽取(NamedEntityRecognition&RelationExtraction,NER词性标注(PartOfSpeechTagging.POS指代消解(CoreferenceResolution句法分析(Parsing词义消歧(WordSenseDisambiguation,WSD语音识别(SpeechRecognition语音合成(TextToSpeech.TTS机器翻译(MachineTranslation^MT动文摘(AutomaticSummarization问答系统(QuestionAnswering自然语言理解(NaturalLanguageUnderstandingOCR信息检索(InformationRetrieval9IR早期的自然语言处理系统主要是基于人工撰写的规则,这种方法费吋费力,且不能覆各种语言现象。上个世纪80年代后期,机器学习算法被引入到自然语言处理中,这要归功于不断提高的计算能力。研究主要集中在统计模型上,这种方法采用大规模的训练语corpus)对模型的参数进行自动的学习,和Z前的基于规则的方法相比,这种方法更具鲁棒性。统计语言模型统计语言模型<StatisticalLanguageModel)就是在这样的环境和背景下被提出來的。它广泛应用于各种自然语言处理问题,如语音识别、机器翻译、分词、词性标注,等等。简单地说,语言模型就是用来计算一个句子的概率的模型,即P(函,“2,…,%)。利用语言模型,可以确定哪个词序列的可能性更大,或者给定若「个讪可以预测卜•个最可能
现的词语。举个音字转换的例了•來说,输入拼H串为nixianzaiganshenme,对应的输出以有多种形式,如你现在干什么、你西安再赶什么、等等,那么到底哪个才是正确的转结果呢,利用语言模型,我们知道前者的概率大干后者,因此转换成前者在多数情况F比较合理。再举一个机器翻译的例子,给定一个汉语句子为李明正在家里看电视,也以翻译为LiMingiswatchingTVathomeLiMingathomeiswatching7V、等等,同样根据语H模型,我们知道前者的概率大于后者,所以翻译成前者比较合理。那么如何计算一个句子的概率呢?给定句子(词语序列S=,%,…,叭,它的概率可以表示为:PS=PW1“2…,%=P(叫)P(昨I购)・・・P%|Wi购…%』1由于上式中的参数过多,因此需要近似的计算方法。常见的方法有n-gram模型方法、决策树方法、最大埔模型方法、最人姑马尔科夫模型方法、条件随机域方法、神经网络方法,等等。n-gram语言模型n-gram模型的概念n-gram模型也称为rvl阶马尔科夫模型,它有一个有限历史假设:当前词的出现概率仅与前iffin-1个词相关。因此(1)式可以近似为:PS=P%“2…,=riLiP(纠IW+1…,-12n:123时,n-gram模型分别称为unigram,bigramtrigram语言模型。n-gram模型的参数就足条件概率P“JW_n+i,…,叱“)。假设词农的大小为100,000,那么n-gram模型的参数数最为100,000"n越大,模型越准确,也越复杂,需要的计算最越大。绘常用的是bigram.其次是unigramtrigram,n取工4的情况较少。n-gram模型的参数估计模型的参数估计也称为模型的训练,•般采用最大似然估计MaximumLikelihoodEstimation,MLE)的方法对模型的参数进行估计:PWJT+1…,纠T=d+1,…,叱+1…,叱-1CX)表示X在训练语料中出现的次数,训练语料的规模越大,参数估计的结果越对靠。但即使训练数据的规模很人,如若干GB,还是会有很多语言现象在训练语料中没有出现过,这就会导致很多参数(某n元对的概率)为0。举个例子來说明•下,IBMBrown366M英语语料训练trigram,结果在测试语料中,14.7%trigram2.2%bigram在训练中没有出现;根据博士期间所在的实验室统计结果,利用500万字人民口报训练bigram型,用150万字人民口报作为测试语料,结果有23.12%bigram没有出现。

免费下载 Word文档免费下载: 正在进行安全检测...

  • 29.8

    ¥45 每天只需1.0元
    1个月 推荐
  • 9.9

    ¥15
    1天
  • 59.8

    ¥90
    3个月

选择支付方式

  • 微信付款
郑重提醒:支付后,系统自动为您完成注册

请使用微信扫码支付(元)

订单号:
支付后,系统自动为您完成注册
遇到问题请联系 在线客服

常用手机号:
用于找回密码
图片验证码:
看不清?点击更换
短信验证码:
新密码:
 
绑定后可用手机号登录
请不要关闭本页面,支付完成后请点击【支付完成】按钮
遇到问题请联系 在线客服