正文介绍
Stanford《From Languages to Information》课程被说道到的 单词拼写错误
纠正。背后的数学原理主要是贝叶斯公式。单词拼写错误纠正主要涉嫌到零星只模型:一个凡是Nosiy
Channel模型,它是贝叶斯公式中的似然函数;另一个型是Language
Model,它是贝叶斯公式中的先验概率。

正文地址:http://www.cnblogs.com/aiweixiao/p/7434533.html

 

原稿地址:http://t.cn/RCEGinm 

一律,问题讲述

 

以马上句话被“.
. . was called a “stellar and versatile acress whose combination of sass and
glamour has defined her. . .”,有一个误的才词:acress 

统计 1

是荒唐单词
acress 对应的 正确单词是何人吧?是 actress? 还是cress?还是
caress?……

 

 

 

其次,出现单词拼写错误的情

     
 说起来犹太人,大家还见面想到犹太人聪明,犹太人会做生意,犹太人曾经遭受纳粹的杀戮,犹太人的国度以色列时刻在中东当交火。很多知名人士都是犹太人,马克思,爱因斯坦,斯皮尔伯格,玛丽莲梦露等等。那么今天咱们就来拉这个神奇的部族。

同一栽是
Non-word spelling errors,它是依赖:错误的仅仅词 不存
于词典中。也便说,你键盘输入了一个单词,而这个单词向未曾给英文词典收录,在字典中翻无交。比如你以
正确的只是词graffe,多由了一个字符 i ,变成了 giraffe,而
英文字典中常有无 giraffe这个单词。

统计 2

另一样种植是
real-word errors,比如:想输入 there
are,结果输入成了 three
are。而不当就词 three 是在于字典中的,关键问题是:怎么知道用
three 改化 there 呢?

犹太人-神奇的中华民族

 

 

其三,单词拼写错误的正步骤

概述

①首先检测出
是何许人也单词发生了拼写错误。

       
犹太人通常有零星种状况,广义上来讲,根据犹太教(Judaism)律法《哈拉卡》的定义,一切皈依犹太教的总人口(宗教意义)以及由于犹太母亲所好之人头(民族意义)都属犹太人。犹太人发源于西亚之以色列地要希伯来地。狭义上来讲则要追溯到于“种族”范畴上之史。

顿时可通过查阅字典来实现,比如依次扫描每个单词,若该单词不以词典中(未让词典收录),则认为它是一个拼写错误的单词。显然,词典越老,词典收录的只是词越多,我们即便更是能对检测出荒唐的单词。

     
 根据有关犹太人组织的统计,2007年海内外犹太人总数大约在1600万人口左右,其中540万人口落户在以色列,530万人住在美国,其余则散居在世界各地。以色列是世界上绝无仅有一个以犹太人为重点民族的国家。

②说不上,是要是自同组候选的
正确单词遭,选择一个“最标准”的单词,而以此“最规范”的单词,就是如果寻找的结果(错误单词
对应之 正确单词)。 

犹太人的到位

此处来只问题不怕是:如何寻找来同组候选的不错单词也?这就是用依据实际情形展开剖析了。以地方提到的缪单词
acress 为例:

       犹太人人口就独来1600万人口, 占比较全球人口不交0.25%,
但是可取了全球22%的诺贝尔奖,诺贝尔奖获得概率远超出其他依次民族,
概率是天下平均水平的108倍。爱因斯坦,弗洛伊德,马克思,冯诺依曼等闪耀历史之天才都自当时口不多的中华民族。

本想输入“across”,但是一不小心将
‘o’,输入成了’e’,结果变成了 “acress”, 这是substition 操作:将 ‘o’
替换成了 ‘e’

统计 3

自想输入
“actress”,但是打字太抢,漏打了
‘t’,结果成了”acress”,这是deletion操作:删除了 ‘t’

犹太人-犹太人股神巴菲特

…..

 

还是说:键盘上字符’m’
和 ‘n’ 很近,打字时,很易用 ‘m’替换成了’n’;又或者说:’m’ 和
‘n’发音相似,也致使经常以 ‘m’ 替换成 ‘n’ 

       中外最有钱之企业家中犹太人占一半,
美国富人中犹太人三厕其同一
,福布斯美国富豪榜前40称为受起18称作是犹太人
, 犹太人是尽善尽美的银行家
,律师和娱乐业大亨,这些行业也他们带了滚滚财源。犹太人中之金融业巨子数不胜数。你恐怕还免顶熟悉莱曼兄弟同所罗门·美邦这些华尔街大牌公司,但产生星星点点只人口的讳大家一定是举世闻名
掌管美国经济命脉的美联储主席格林斯潘及挑起亚洲金融危机的心心相印大亨索罗斯
在律师界,华盛顿和纽约无限红的律师事务所中生出40%的同台人是犹太人。娱乐与媒体业更毫不说了。犹太人控制着世界
,他们是国控 ,控制经济、 金融 、货币、 政治、
军工。美国五充分军工基本上给犹太人掌控。

要搜索相同组候选单词,即便好透过“编辑距离算法”来落实。关于编制距离,可参照“Damerau-Levenshtein
Edit
Distance”或者:太差编辑距离算法实现

   
 犹太人只占世界总人口之0.3%,但也操了社会风气上60%底财物
,世界最有的几大家族,例如罗斯柴尔德家族,摩根家族,洛克菲勒家族,维特根斯坦房等等,都是全的犹太。世界首富比尔盖茨为是犹太人的后生。从十九世纪至今,罗斯柴尔德家族控制了小国家的经济命脉,多少坏金融危机和乱的幕后都产生它们。

 

统计 4

季,贝叶斯推断
纠正 单词拼写错误

统计 5

①Noisy
Channel Model

犹太人-犹太人聪明之爱因斯坦

Noisy
Channel Model的示意图如下:

 

统计 6

   
 中国人口与美国人口打交道,实际上是当与犹太人打交道!可口可乐,麦当劳,肯德基,星克吧咖啡馆当还是犹太人创建的,犹太人的势力都渗透中国,这是一个多么神奇之名族。

原的一个没错的独词:经过
noisy channel ,结果变成了一个 noisy word。而这noisy
channel,其实就是是前面说的“两独词发音相近,容易拼错它们”,或者”两个字符在键盘上紧邻,输入时便会见误地用一个词
输入成了(type) 另一个词。(其实niosy
channel就是对准具体世界是的问题的一个建模)

   
犹太人的名士太多矣:爱因斯坦、巴菲特、玛丽莲梦露、弗洛伊德、马克思、扎克伯格、贝克汉姆、冯诺依曼,罗森杰尔德、卡耐基、希尔顿、斯皮尔伯格、孔菲德、J.P.摩根、洛克菲勒、基辛格、考夫曼、普利策、奥克斯、路透、戴尔等等一系列。

要一旦惦记得出错误单词(noisy
word) 对应之 正确单词,就需要因此到贝叶斯推断。具体原理如下:

犹太人的性状

既是
noisy word (或者说错误单词,记否 x
)已经面世了,那么我们以词典中寻找一个单词w,在 x 已经冒出的规范下,最有或是出于 哪个单词w 造成的?

【01 重视教育】:

We see an observation x (a misspelled
word) and our job is to find the word w that generated this misspelled
word
Out of all possible words in the
vocabulary V we want to find the
word w such that P(w|x) is highest. We use
the hat notation ˆ to mean “our estimate
of the correct word”.


 

       
犹太民族是一个硬而与此同时壮的中华民族。尽管屡遭众多煎熬,他们还没忘记传承本民族之文化精髓,没有忘掉吸收其他民族的知识精华。犹太人父母从男女好有点之时刻即便起启发他们追求学问,崇尚智慧;培养她们自主的品格,开拓创新的振奋;让他们认金钱,并鼓舞她们追财富的私欲;培养他们省的生活作风和活处世之社交能力;教育他们善待他人,与他人协调相处;提升他们开好之力和挑战逆境的胆量。

之所以公式(1)表示如下:

     
从儿女无异春秋半起就对他们进行记忆训练。犹太人在男女刚会说话时就是开让他们读《旧约》。孩子及了五年度时将记住全部《旧约》。《旧约》是一模一样本大部头经典,能全耿耿于怀水平就是是不行强了。

统计 7(公式1)

【02 聪明&善于经商】:

V是词典(Vocabulary),p(w|x)表示:从V中选出一个w,计算概率
P(w|x),概率最老的不得了 w,就是 错误单词x
对应之科学单词,将拖欠对单词记否: wˆ


 根据贝叶斯公式法则(公式2):

   
 犹太人的灵性是发出了名叫的,就是与他们有生以来受到的记忆力的训有涉嫌,加之犹太名族一直遭到各级之歧视和损害,他们吗因为聪明与做生意作为立身之论,因为未可知具备土地进行农业有关的产。所以在商贸,金融与政法等得高智力的小圈子都是楚翘。

统计 8

统计 9

以公式(1)变成如下形式:

 

统计 10(公式3)

 

 

犹太人的苦–被轰被迫害1500年

自打公式3
可以视:就是对 词典V 中的每个单词w,计算 [p(x|w)*p(w)]/p(x),找出
计量结果绝充分(概率最要命) 的那个 w,该 w 就是最优解 wˆ 

【01 为什么会受歧视贬损】:

苟于是匡过程遭到,可以免欲计算分母p(x),因为及时不影响我们
找有 概率最可怜的好 w 。因此将 p(x)
视为一个常量值。(这里关于贝叶斯的知情,可参照后面给闹底参考文献)


于是我们的公式就成了:

     
 自中世纪开始,在永的一千基本上年里,犹太人被欧洲基督教社会就是异教徒和杀基督者而吃歧视、隔离,一波又同样波的反犹浪潮和同样浅又平等浅的屠杀。当时底犹太人等同贱民,被视为“道德上之麻疯病患者”,不得与基督教徒混杂,被逼迫集中在犹太人贫民区“隔都”(ghetto)实行圈禁,有的国家甚至规定犹太人外出要放戴醒目的香艳标章加以羞辱和隔断。

统计 11(公式4)

统计 12

得看到,公式4
由少数片组成,一部分是 p(x|w),我们叫 channel model 或者 称为 error
model,它就是似然函数

统计 13

其余一样部分是
p(w) 我们叫先验概率(prior)。

犹太人-犹太人导师马克思

除此以外,值得一提的凡此Vocabulary
V,由于Vocabulary中就词个数是成千上万之,只有当出某种”条件“的情况下,一个单词才见面让无意拼写成了别样一个单词。换句话说,Vocabulary中的少数词以及左就词
x 之间是”八杆打不在“的干,因此我们一味以某些Candidate words 中 寻找
[p(x|w)*p(w)] 的那个 w

 

如这些Candidate words
就是出于前提到的”编辑距离算法“生成。因此,公式可继续成为(注意 argmax
的下标的浮动。V变成了C,而C就是 Candidate words的集)

       
欧洲丁对犹太人持有成见。罗马国君屠杀了百万犹太人,最后还把余者全部赶出巴勒斯坦土地,使她们流散到西欧,不许他们挤占土地,只许他们经营商。二战期间,近600万犹太人惨遭杀害,希特勒当属罪魁。希特勒对犹太人特有的种族仇恨以及政嫉恨,是政治狂人病态心理的同样种植特别反映。

统计 14

      反犹主义长盛不衰的原故有就是是犹太人控制所在国家之经济命脉。

之所以,现在之问题化了:如何告出channel
model 和 prior呢?

【02 犹太人的生生不息】:

第一介绍下先验概率p(w)的求解(Prior)


俺们应用
unigram language model 来当 p(w)。这里解释一下 unigram language
model:

     
犹太人经历三赖大离散,流落世界各地近2000年不光没有被其他民族同化,还是当一个独民族生生不息。

挑一个语料库(词库),这个语料库中一共有
404253213独单词,然后”编辑距离“算法 根据 错误的单词 acress
生成了一样多级之候选词(Candidate
words),每一个候选词在语料库中出现的次数count(candidate word)
除以 404253213 就是每个Candidate
word的先验概率。如下图所示,第一列是荒唐单词acress的
候选词,第二排列是这些候选词在语料库中冒出的次数,第三排是这些候选词在语料库中起的票房价值(频率)

   
 犹太人有和好之学识、信仰、传统,所以无轻给同化。他们生自己之清,会自成体系,无论他们身在哪儿,始终未会见遗忘自己之发源,会设法地来赞助协调之国家及全民族。所以她们让发配了一千差不多年,终于回到了好之故国,中东底地,建起来了自己之国–以色列。

统计 15

   
 有趣的凡,犹太人在欧洲中东一两千年没有给同化。然而以华夏的开封的犹太人,却为我充分中国同化的,这些犹太人是宋朝时过来华滴,壮哉我大天朝!

For this example let’s start in the following table by assuming a unigram language model. We computed the language model from the
404,253,213 words in the Corpus of Contemporary English (COCA).

   
 因为欧洲与中东发生由压犹太人的史,反而让他们我肯定感增长,恪守传统。来中国事后得科举可以匹配,,几百年后大多就是同化得差不多了……儒家文化太犀利了!有名有利有妹纸!谁会顶挡得下马哟!比从欧洲与中东非停歇的暴,仇恨以及歧视永远是隔阂人的尽老能量。
至于人口数量稀少,中国人数无比多,这可从因素了。(犹太人在旁地方啊是绝对少数,但同化程度远不如中国)。

 

   
 现在,开封犹太人八良家族——赵、李、艾、石、金、高、张、章,他们之姓氏是准希伯来古姓更改之。名字改成了常见中国人的姓,他们吧分散于城池依次角落,当时,到底还有多少犹太裔谁也非懂得,如今太乐观的数字,在本人数左右。

连接下是求解
channel model

形容以结尾

民用知道就是是:求解channel
model需要运用日常生活中因故到的文化更,或者行业使用中累积下来的多少(经验)。

   
 犹太人:一个苦难的部族,依靠自己的灵气及合力,创造了财富和灿烂的知识,在世界舞台成为了上流,这是神奇啊!

从公式:p(x|w)理解上来拘禁,给一定一个是的候选单词
w 的条件下,导致错误单词x 的概率有差不多深?

统计 16统计 17

假定我们采访了足够多的数额,比如观了森用户一起输入了(打字)1万赖
w,其中起10潮 输入成了x(打字打成了 x),那么 p(x|w)=0.0001

犹太人-年轻的犹太楚翘扎克伯格

咱着想四栽出错情况:

 

统计 18

 

del[x,y]
表示,输入 xy 时,少打了字符 ‘y’,结果变成了
x,那么最终取得的单词是一个错的单词,记录下这种情形下错的总次数
count(xy typed as x)

统计 19

trans[x,y]意味着,输入
xy 时,输入反了,变成了
yx,那么最终取得的单词是一个荒谬的单词,记录下这种景象下错的毕竟次数
count(xy typed as yx)

犹太人-扫描关注微信公众号

拿这些数量统计起来,放在一个表里面,这个表称为:confusion
matrix

 

比如夫网站(Corpora
of misspellings for
download)纵然闹一致层层之”错误就词的统计数据“。

统计 20(”错误单词”
示意图)

 

那根据
confusion matrix,就可知算计 似然函数的票房价值了(也就算能求解 channel model
了)

统计 21

解释一下
if transposition情况:

count[wi
wi+1]表示:含有 wi wi+1
字符的保有单词w 的个数;trans[wi ,wi+1 ]
表示,将 wi 与 wi+1
交换的次数。(将wi 与 wi+1 
交换后,就改成了一个错误的仅词了)

其余一样栽计算
confusion matrix 的章程是 EM算法,这个我哉从未学,不晓,就不说了。

对于错误的单词
acress,根据下面的7独候选单词计算出来的似然概率如下图:

统计 22

达成图中,第一尽代表,其中一个是的候选单词是
actress,正确的单词是 t,由于某种原因(键盘输入太快了,漏打了t,本来是输入ct
的,结果输入成了c ),统计到的这种情景出现的概率是0.000117
这种由,其实就是一个deleteion操作而造成的错误。

而今划算产生了
似然概率,也算算起了先验概率,二者相乘:p(x|w)*p(w),就得出了是的候选单词
actress 由于deletion 操作造成 得到错误单词 acress
的几率是 0.000117

同理,计算其它的候选单词
cress、caress、access……的
p(x|w)*p(w)概率,比较一下,哪个概率最要命,从达成图被来看:across
对应之概率最老,也即是说:应该将 acress 纠正吧:across 

 

但,事实上,从句子”“的意思来拘禁,acress
应该改吧 actress 更为客观。那上如果之channel model
为什么没有被出正确的正结果吧?

第一由是:先验概率是出于 unigram language model
得生底,如果以 bigram language
model,那么就是能正确地摸有”actress“,从而以acress纠正吧actress

下是动Contemporary American
English语料库训练得的次首Language Model。对于只有词w:actress 和
across,它为起的先验概率p(w)如下:

统计 23

统计 24

 

actress对应的先验概率:p(actress)=p(“versatile
actress whose”)=0.000021*0.0010

across对应的先验概率:p(across)=1*10-10

如此这般,再将先验概率和似然概率相乘,就能博取不错的单词应该是”actress“,而无是”across“了。

 

参考文章:

Natural
Language Corpus Data: Beautiful Data

Corpora of misspellings for
download

 

知情贝叶斯公式的同一多重文章
或者 推荐《A first course in machine learning 》这本开

机器上中的贝叶斯方法—先验概率、似然函数、后验概率的知晓以及如何采取贝叶斯进行模型预测(1)

机上中的贝叶斯方法—先验概率、似然函数、后验概率的知道和如何用贝叶斯进行模型预测(2)

采取最酷似然法来求解线性模型(2)-为什么是最大化似然函数?

应用最要命似然法来求解线性模型(3)-求解似然函数

采用最老似然法来求解线性模型(4)-最大化似然函数背后的数学原理

 

 NLP里面的片基本概念

 

原文:http://www.cnblogs.com/hapjin/p/8012069.html