当前位置：首页> 正在进行安全检测...

正在进行安全检测...

时间：2023-10-14 11:02:59 下载该word文档

语言模型的基本槪念本文介绍-下有关语言模型的基本概念，但是在介绍语言模型Z前，先简单回顾-下自然语肓处理这个大问题吧。现在自然语言处理的研究绝对是一个非常火热的方向，主要是被肖前的互联网发展所带动起来的。在互联网上充斥着大最的信息，主要是文字方面的信息，对这些信息的处理离不开自然语言处理的技术。那么究竞什么是自然语言以及自然语言处理呢？自然语言处理的基本任务自然语言（NaturalLanguage）其实就足人类语言，自然语言处理（NLP）就足对人类语言的处理，当然主要是利用计算机。自然语言处理是关于计算机科学和语言学的交叉学科，常见的研究任务包括：分词(WordSegmentation或WordBreaker,WB信息抽取(InformationExtraction*IE:命名实体识别和关系抽取(NamedEntityRecognition&RelationExtraction,NER词性标注(PartOfSpeechTagging.POS指代消解(CoreferenceResolution句法分析(Parsing词义消歧(WordSenseDisambiguation,WSD语音识别(SpeechRecognition语音合成(TextToSpeech.TTS机器翻译(MachineTranslation^MT口动文摘(AutomaticSummarization问答系统(QuestionAnswering自然语言理解(NaturalLanguageUnderstandingOCR信息检索(InformationRetrieval9IR早期的自然语言处理系统主要是基于人工撰写的规则，这种方法费吋费力，且不能覆盖各种语言现象。上个世纪80年代后期，机器学习算法被引入到自然语言处理中，这要归功于不断提高的计算能力。研究主要集中在统计模型上，这种方法采用大规模的训练语料（corpus）对模型的参数进行自动的学习，和Z前的基于规则的方法相比，这种方法更具鲁棒性。统计语言模型统计语言模型＜StatisticalLanguageModel）就是在这样的环境和背景下被提出來的。它广泛应用于各种自然语言处理问题，如语音识别、机器翻译、分词、词性标注，等等。简单地说，语言模型就是用来计算一个句子的概率的模型，即P（函,“2，…,％）。利用语言模型，可以确定哪个词序列的可能性更大,或者给定若「个讪可以预测卜・•个最可能出
现的词语。举个音字转换的例了•來说，输入拼H串为nixianzaiganshenme,对应的输出可以有多种形式，如你现在干什么、你西安再赶什么、等等，那么到底哪个才是正确的转换结果呢，利用语言模型，我们知道前者的概率大干后者，因此转换成前者在多数情况F比较合理。再举一个机器翻译的例子，给定一个汉语句子为李明正在家里看电视，也以翻译为LiMingiswatchingTVathome、LiMingathomeiswatching7V、等等，同样根据语H模型，我们知道前者的概率大于后者，所以翻译成前者比较合理。那么如何计算一个句子的概率呢？给定句子（词语序列）S=灼,％，…,叭，它的概率可以表示为：P（S）=P（W1，“2，…,%）=P（叫）P（昨I购）・・・P（%|Wi，购…%』（1）由于上式中的参数过多，因此需要近似的计算方法。常见的方法有n-gram模型方法、决策树方法、最大埔模型方法、最人姑马尔科夫模型方法、条件随机域方法、神经网络方法，等等。n-gram语言模型n-gram模型的概念n-gram模型也称为rvl阶马尔科夫模型，它有一个有限历史假设：当前词的出现概率仅仅与前iffin-1个词相关。因此（1）式可以近似为：P（S）=P（%“2，…,％）=riLiP（纠IW—+1，…,叱-1）（2）当n取:1、2、3时，n-gram模型分别称为unigram,bigram和trigram语言模型。n-gram模型的参数就足条件概率P（“JW（_n+i，…，叱“）。假设词农的大小为100,000,那么n-gram模型的参数数最为100,000"。n越大，模型越准确，也越复杂，需要的计算最越大。绘常用的是bigram.其次是unigram和trigram,n取工4的情况较少。n-gram模型的参数估计模型的参数估计也称为模型的训练，•般采用最大似然估计（MaximumLikelihoodEstimation,MLE）的方法对模型的参数进行估计：P（WJ叱T+1…，纠T）=d+1，…,叱+1…，叱-1）⑶C（X）表示X在训练语料中出现的次数，训练语料的规模越大，参数估计的结果越对靠。但即使训练数据的规模很人，如若干GB,还是会有很多语言现象在训练语料中没有出现过，这就会导致很多参数（某n元对的概率）为0。举个例子來说明•下，IBMBrown利用366M英语语料训练trigram,结果在测试语料中,有14.7%的trigram和2.2%的bigram在训练中没有出现；根据博士期间所在的实验室统计结果，利用500万字人民口报训练bigram模型，用150万字人民口报作为测试语料，结果有23.12%的bigram没有出现。

阅读全文