时间:2023-10-14 11:02:59 下载该word文档
语言模型的基本槪念本文介绍-下有关语言模型的基本概念,但是在介绍语言模型Z前,先简单回顾-下自然语肓处理这个大问题吧。现在自然语言处理的研究绝对是一个非常火热的方向,主要是被肖前的互联网发展所带动起来的。在互联网上充斥着大最的信息,主要是文字方面的信息,对这些信息的处理离不开自然语言处理的技术。那么究竞什么是自然语言以及自然语言处理呢?自然语言处理的基本任务自然语言(NaturalLanguage)其实就足人类语言,自然语言处理(NLP)就足对人类语言的处理,当然主要是利用计算机。自然语言处理是关于计算机科学和语言学的交叉学科,常见的研究任务包括:分词(WordSegmentation或WordBreaker,WB信息抽取(InformationExtraction*IE:命名实体识别和关系抽取(NamedEntityRecognition&RelationExtraction,NER词性标注(PartOfSpeechTagging.POS指代消解(CoreferenceResolution句法分析(Parsing词义消歧(WordSenseDisambiguation,WSD语音识别(SpeechRecognition语音合成(TextToSpeech.TTS机器翻译(MachineTranslation^MT口动文摘(AutomaticSummarization问答系统(QuestionAnswering自然语言理解(NaturalLanguageUnderstandingOCR信息检索(InformationRetrieval9IR早期的自然语言处理系统主要是基于人工撰写的规则,这种方法费吋费力,且不能覆盖各种语言现象。上个世纪80年代后期,机器学习算法被引入到自然语言处理中,这要归功于不断提高的计算能力。研究主要集中在统计模型上,这种方法采用大规模的训练语料(corpus)对模型的参数进行自动的学习,和Z前的基于规则的方法相比,这种方法更具鲁棒性。统计语言模型统计语言模型<StatisticalLanguageModel)就是在这样的环境和背景下被提出來的。它广泛应用于各种自然语言处理问题,如语音识别、机器翻译、分词、词性标注,等等。简单地说,语言模型就是用来计算一个句子的概率的模型,即P(函,“2,…,%)。利用语言模型,可以确定哪个词序列的可能性更大,或者给定若「个讪可以预测卜・•个最可能出
现的词语。举个音字转换的例了•來说,输入拼H串为nixianzaiganshenme,对应的输出可以有多种形式,如你现在干什么、你西安再赶什么、等等,那么到底哪个才是正确的转换结果呢,利用语言模型,我们知道前者的概率大干后者,因此转换成前者在多数情况F比较合理。再举一个机器翻译的例子,给定一个汉语句子为李明正在家里看电视,也以翻译为LiMingiswatchingTVathome、LiMingathomeiswatching7V、等等,同样根据语H模型,我们知道前者的概率大于后者,所以翻译成前者比较合理。那么如何计算一个句子的概率呢?给定句子(词语序列)S=灼,%,…,叭,它的概率可以表示为:P(S)=P(W1,“2,…,%)=P(叫)P(昨I购)・・・P(%|Wi,购…%』(1)由于上式中的参数过多,因此需要近似的计算方法。常见的方法有n-gram模型方法、决策树方法、最大埔模型方法、最人姑马尔科夫模型方法、条件随机域方法、神经网络方法,等等。n-gram语言模型n-gram模型的概念n-gram模型也称为rvl阶马尔科夫模型,它有一个有限历史假设:当前词的出现概率仅仅与前iffin-1个词相关。因此(1)式可以近似为:P(S)=P(%“2,…,%)=riLiP(纠IW—+1,…,叱-1)(2)当