本文介绍
Stanford《From Languages to Information》课程中讲到的 单词拼写错误
勘误。背后的数学原理首若是贝叶斯公式。单词拼写错误改进重要涉嫌到七个模型:贰个是Nosiy
Channel模型,它是贝叶斯公式中的似然函数;另二个模子是Language
Model,它是贝叶斯公式中的先验可能率。

正文地址:http://www.cnblogs.com/aiweixiao/p/7434533.html

 

初稿地址:http://t.cn/RCEGinm 

一,难点讲述

 

在那句话中“.
. . was called a “stellar and versatile acress whose combination of sass and
glamour has defined her. . .”,有二个错误的单词:acress 

统计 1

本条错误单词
acress 对应的 正确单词是哪位吧?是 actress? 依旧cress?照旧caress?……

 

 

 

二,出现单词拼写错误的情况

     
 说起来犹太人,我们都会想到犹太人聪明,犹太人会做生意,犹太人曾经面临纳粹的屠杀,犹太人的国家以色列国(The State of Israel)天天在中东在打仗。很多名流都以犹太人,马克思,爱因Stan,斯PeelBerg,玛丽莲梦露等等。那么前几天我们就来聊天这几个神奇的部族。

一种是
Non-word spelling errors,它是指:错误的单词 不存在
于词典中。也就说,你键盘输入了二个单词,而这么些单词根本没有被英文词典收录,在字典中查不到。比如您将
正确的单词graffe,多打了1个字符 i ,变成了 giraffe,而
英文字典中平昔没有 giraffe这一个单词。

统计 2

另一种是
real-word errors,比如:想输入 there
are,结果输入成了 three
are。而不当单词 three 是存在于字典中的,关键难题是:怎么通晓将
three 改成 there 呢?

犹太人-神奇的部族

 

 

三,单词拼写错误的改进步骤

概述

①首先检查和测试出
是哪些单词爆发了拼写错误。

       
犹太人平常有二种情景,广义上来讲,依照犹太教(Judaism)律法《哈拉卡》的定义,一切皈依犹太教的人(宗教意义)以及由犹太阿妈所生的人(民族意义)都属于犹太人。犹太人发源于西亚的以色列(Israel)地或希伯来地。狭义上来讲则要追溯到在“种族”范畴上的野史。

那能够通过查字典来落到实处,比如依次扫描每一个单词,若该单词不在词典中(未被词典收音和录音),则觉得它是一个拼写错误的单词。分明,词典越大,词典收音和录音的单词更多,大家就越能科学检查和测试出荒谬的单词。

     
 依据有关犹太人协会的总结,二〇〇六年海内外犹太人总数约在1600万人左右,在那之中540万人落户在以色列国(The State of Israel),530万人栖身在U.S.,别的则散居在世界外省。以色列国是世界上绝无仅有贰个以犹太人为主体民族的国家。

②次要,是要从一组候选的
正确单词中,接纳一个“最纯粹”的单词,而这些“最纯粹”的单词,就是要找的结果(错误单词
对应的 正确单词)。 

犹太人的完结

此处有个难题正是:怎么样找出一组候选的正确单词呢?那就必要依照真实情状开始展览剖析了。以地点提到的不当单词
acress 为例:

       犹太人人口虽仅有1600万人, 占比满世界人口不到0.四分一,
然而却取得了中外22%的诺Bell奖,诺Bell奖获得概率远高于其余各样民族,
概率是天下平均水平的108倍。爱因Stan,Freud,马克思,冯诺依曼等闪耀历史的天赋都来自那人数不多的部族。

理所当然想输入“across”,不过一相当大心将
‘o’,输入成了’e’,结果变成了 “acress”, 那是substition 操作:将 ‘o’
替换到了 ‘e’

统计 3

自然想输入
“actress”,不过打字太快,漏打了
‘t’,结果变成了”acress”,那是deletion操作:删除了 ‘t’

犹太人-犹太人股神巴菲特

…..

 

或然说:键盘上字符’m’
和 ‘n’ 很近,打字时,很简单将 ‘m’替换来了’n’;又或然说:’m’ 和
‘n’发音相似,也导致经常将 ‘m’ 替换来 ‘n’ 

       全世界最有钱的集团家中犹太人占2/4,
美国巨富中犹太人三居其一
,ForbesUnited States富豪榜前40名中有18名是犹太人
, 犹太人是不错的银行家
,律师和娱乐业巨头,那些行业为她们带来了滚滚财源。犹太人中的金融业巨子千千万万。你或许还不太熟习Lehman兄弟和Solomon·美邦那些华尔街大牌公司,但有两人的名字我们肯定是远近驰名掌管美利哥经济命脉的美国联邦储备系统主席格林斯潘与挑起澳洲金融危害的一见倾心大亨索罗斯在律师界,华盛顿与London最闻明的律师事务所中有40%的联手人是犹太人。娱乐与媒体业更不要说了。犹太人控制着世界
,他们是国家控 ,控制经济、 金融 、货币、 政治、
军工。美利坚同盟友中国共产党第五次全国代表大会军事工业基本上被犹太人掌握控制。

而搜索一组候选单词,就足以因此“编辑距离算法”来兑现。关于编写制定距离,可参照“Damerau-Levenshtein
Edit
Distance”大概:最短编辑距离算法完毕

   
 犹太人只占世界总人口的0.3%,但却控制了世界上伍分叁的财物
,世界最富有的几大家族,例如罗丝柴尔德家族,Morgan家族,Rockefeller家族,维特根Stan家族等等,都是清一色的犹太。世界首富Bill盖茨也是犹太人的后代。从十九世纪到现在,罗丝柴尔德家族控制了稍稍国家的经济命脉,多少次金融危害和烟尘的专断都有它。

 

统计 4

四,贝叶斯猜想校对 单词拼写错误

统计 5

①Noisy
Channel Model

犹太人-犹太人聪明的爱因Stan

Noisy
Channel Model的示意图如下:

 

统计 6

   
 中中原人民共和国人与德国人打交道,实际上是在与犹太人打交道!百事可乐,麦当劳,肯德基,星克吧咖啡馆等都是犹太人创制的,犹太人的势力已经渗透中华夏族民共和国,那是贰个多么神奇的名族。

原来的2个不易的单词:经过
noisy channel ,结果变成了一个 noisy word。而以此noisy
channel,其实就是前方讲的“多个词发音相近,简单拼错它们”,也许”五个字符在键盘上附近,输入时就会错误地将一个词
输入成了(type) 另3个词。(其实niosy
channel便是对具体世界存在的题材的3个建立模型)

   
犹太人的有名的人太多了:爱因Stan、巴菲特、玛丽莲梦露、Freud、马克思、ZackBerg、贝克汉姆、冯诺依曼,罗森杰尔德、卡耐基、希尔顿、斯PeelBerg、孔菲德、J.P.Morgan、洛克菲勒、基辛格、考夫曼、普利策、奥克斯、路透、戴尔等等一种类。

而要想得出错误单词(noisy
word) 对应的 正确单词,就须要用到贝叶斯推测。具体原理如下:

犹太人的特征

既是
noisy word (恐怕说错误单词,记为 x
)已经出现了,那么我们在词典中找1个单词w,在 x 已经面世的规则下,最有大概是由 哪个单词w 造成的?

【01 重视教育】:

We see an observation x (a misspelled
word) and our job is to find the word w that generated this misspelled
word
Out of all possible words in the
vocabulary V we want to find the
word w such that P(w|x) is highest. We use
the hat notation ˆ to mean “our estimate
of the correct word”.


 

       
犹太民族是多少个铮铮铁骨而又宏大的民族。就算遇到众多折磨,他们依然故我没有忘掉传承本民族的学识精华,没有忘掉吸收其余民族的知识精华。犹太人父母从儿女相当的小的时候就早先启发他们追求学问,崇尚智慧;作育她们自主的风格,开拓立异的振奋;让她们认识金钱,并刺激他们追求财富的私欲;培育她们仔细的生活作风和灵活处世的社交能力;教育他们善待外人,与客人协调相处;进步他们驾乘本身的力量和挑衅逆境的胆气。

用公式(1)表示如下:

     
从子女一虚岁半伊始就对她们开始展览回忆陶冶。犹太人在儿女刚会说话时就从头教他俩读《旧约》。孩子到了陆虚岁时就要记住全部《旧约》。《旧约》是一本大部头经典,能整个记住水平正是相当高了。

统计 7(公式1)

【02 聪明&善于经营商业】:

V是词典(Vocabulary),p(w|x)表示:从V中选出3个w,总计可能率P(w|x),概率最大的不得了 w,正是 错误单词x
对应的不错单词,将该正确单词记为: wˆ


 根据贝叶斯公式法则(公式2):

   
 犹太人的智慧是出了名的,正是跟她们有生以来受到的纪念力的磨练有关联,加之犹太名族一直遭到各国的歧视和损害,他们也以聪明和经营商业作为立身之本,因为不可能抱有土地举办农业相关的生育。所以在生意,金融和政治和法律等急需高智力商数力的园地都是楚翘。

统计 8

统计 9

将公式(1)变成如下格局:

 

统计 10(公式3)

 

 

犹太人的难过–被驱逐被加害1500年

从公式3
能够阅览:正是对于 词典V 中的各类单词w,计算 [p(x|w)*p(w)]/p(x),找出
算算结果最大(可能率最大) 的不胜 w,该 w 正是最优解 wˆ 

【01 为何会被歧视贬损】:

而在这么些总计进程中,能够不必要总计分母p(x),因为那不影响大家找出 概率最大的相当 w 。由此将 p(x)
视为一个常量值。(那里关于贝叶斯的明亮,可参看前面给出的参考文献)


于是乎我们的公式就变成了:

     
 自中世纪开头,在长时间的一千多年间,犹太人被欧洲佛教社会就是异教徒和杀基督者而面临歧视、隔绝,一波又一波的反犹浪潮以及2次再次的屠杀。当时的犹太人等同贱民,被视为“道德上的麻疯病人病者”,不得与佛教徒混杂,被强迫集中在犹太人贫民区“隔都”(ghetto)进行圈禁,有的国家甚至规定犹太人外出务必配戴醒目标香艳标章加以羞辱和隔开。

统计 11(公式4)

统计 12

可以见到,公式4
由两有个别构成,一部分是 p(x|w),大家誉为 channel model 或许 称为 error
model,它便是似然函数

统计 13

另一部分是
p(w) 大家誉为先验概率(prior)。

犹太人-犹太人导师马克思

除此以外,值得一提的是以此Vocabulary
V,由于Vocabulary中单词个数是不少的,只有在产生某种”条件“的情形下,八个单词才会被误拼写成了另一个单词。换句话说,Vocabulary中的某个词与不当单词
x 之间是”八竿子打不着“的涉嫌,由此大家只在少数Candidate words 中 寻找
[p(x|w)*p(w)] 的那个 w

 

而这一个Candidate words
就是由前边提到的”编辑距离算法“生成。由此,公式可继承成为(注意 argmax
的下标的变更。V变成了C,而C正是 Candidate words的成团)

       
亚洲人对犹太人持有成见。亚特兰洲大学统治者屠杀了百万犹太人,最终还把余者全体赶出巴勒Stan国土地,使她们流散到西欧,不许他们挤占土地,只许他们经商。二战时期,近600万犹太人惨遭杀害,希特勒当属罪魁。希特勒对犹太人特有的种族仇恨和政治嫉恨,是政治狂人病态心绪的一种特殊反映。

统计 14

      反犹主义长盛不衰的缘由之一正是犹太人控制所在国家的经济命脉。

为此,未来的难题变成了:怎么样求出channel
model 和 prior呢?

【02 犹太人的生生不息】:

先是介绍下先验概率p(w)的求解(Prior)


作者们利用
unigram language model 来作为 p(w)。这里解释一下 unigram language
model:

     
犹太人经历三次大离散,流落世界内地近贰仟年不只没有被此外民族同化,依旧作为叁个独门民族生生不息。

分选八个语言材料库(词库),那个语言材质Curry面一共有
40425321三个单词,然后”编辑距离“算法 根据 错误的单词 acress
生成了一文山会海的候选词(Candidate
words),每一种候选词在语言质地库中冒出的次数count(candidate word)
除以 404253213 便是种种Candidate
word的先验可能率。如下图所示,第叁列是一无所长单词acress的
候选词,第贰列是那个候选词在语言材质库中现身的次数,第2列是那个候选词在语言材质库中冒出的票房价值(频率)

   
 犹太人有和好的文化、信仰、守旧,所以不便于被同化。他们有自个儿的根,会自成连串,无论他们身在何处,始终不会忘记自身的源于,会想尽地来提携自身的国家和民族。所以他们被下放了1000多年,终于归来了友好的故国,中东之地,树立起来了祥和的国度–以色列(Israel)。

统计 15

   
 有趣的是,犹太人在亚洲中东一三千年没被同化。但是在中原的通辽的犹太人,却被小编大中夏族民共和国同化之,那么些犹太人是北宋时过来中国滴,壮哉作者大天朝!

For this example let’s start in the following table by assuming a unigram language model. We computed the language model from the
404,253,213 words in the Corpus of Contemporary English (COCA).

   
 因为澳国和中东有打压犹太人的历史,反而使得他们本人承认感增进,遵守守旧。来中华从此能够科举能够匹配,,几百年后大多就同化得差不离了……墨家文化太犀利了!有名有利有妹纸!什么人能抵挡得住啊!比起南美洲和中东不停的欺负,仇恨和歧视永远是鸿沟人的最大能量。
至于人口数量稀少,中华人民共和国人太多,那倒是其次因素了。(犹太人在别的地点也是纯属少数,但同化程度远不如中国)。

 

   
 今后,承德犹太人八咱们族——赵、李、艾、石、金、高、张、章,他们的姓氏是依据希伯来古姓更改的。名字改成了一般性中中原人民共和国人的姓氏,他们也散落在城池各种角落,当时,到底还有稍稍犹太后裔何人也不晓得,最近最无忧无虑的数字,在千人左右。

接下去是求解
channel model

写在结尾

村办通晓就是:求解channel
model需求接纳平时生活中用到的知识经验,只怕行业使用中累积下来的数据(经验)。

   
 犹太人:3个劫难的民族,依靠自身的智慧和强强联合,创设了能源和灿烂的知识,在世界舞台成为了尊贵,这是神奇啊!

从公式:p(x|w)了然上来看,给定2个毋庸置疑的候选单词
w 的规范下,导致错误单词x 的可能率有多大?

统计 16统计 17

设若大家收集了充足多的多寡,比如观看了不少用户一起输入了(打字)1万次
w,个中有12回 输入成了x(打字打成了 x),那么 p(x|w)=0.0001

犹太人-年轻的犹太楚翘扎克Berg

我们着想三种出错情状:

 

统计 18

 

del[x,y]
表示,输入 xy 时,少打了字符 ‘y’,结果变成了
x,那么最后获得的单词是四个错误的单词,记录下那种意况下出错的总次数
count(xy typed as x)

统计 19

trans[x,y]意味着,输入
xy 时,输入反了,变成了
yx,那么最后取得的单词是多个不当的单词,记录下那种情状下出错的总次数
count(xy typed as yx)

犹太人-扫描关怀微信公众号

把那么些多少总结起来,放在1个表里面,这些表称为:confusion
matrix

统计, 

比如以此网站(Corpora
of misspellings for
download)
就有一多元的”错误单词的总结数据“。

统计 20(”错误单词”
示意图)

 

那么根据confusion matrix,就能估摸 似然函数的可能率了(也即能求解 channel model
了)

统计 21

解释一下
if transposition意况:

count[wi
wi+1]表示:含有 wi wi+1
字符的兼具单词w 的个数;trans[wi ,wi+1 ]
表示,将 wi 与 wi+1
交流的次数。(将wi 与 wi+1 
调换后,就改为了3个不当的单词了)

另一种总计confusion matrix 的格局是 EM算法,那些自个儿也没学,不懂,就隐瞒了。

对此错误的单词
acress,依照下边包车型地铁多少个候选单词总括出来的似然可能率如下图:

统计 22

上海体育场所中,第壹行表示,当中二个不易的候选单词是
actress,正确的单词是 t,由于某种原因(键盘输入太快了,漏打了t,本来是输入ct
的,结果输入成了c ),总结到的那种境况出现的票房价值是0.000117
这种原因,其实就是一个deleteion操作而致使的荒唐。

现行反革命划算出了
似然可能率,也算算出了先验可能率,二者相乘:p(x|w)*p(w),就得出了不利的候选单词
actress 由于deletion 操作导致 获得错误单词 acress
的可能率是 0.000117

同理,计算其余的候选单词
cress、caress、access……的
p(x|w)*p(w)几率,相比较一下,哪个可能率最大,从上海教室中看出:across
对应的可能率最大,也正是说:应该将 acress 修正为:across 

 

可是,事实上,从句子”“的意趣来看,acress
应该查对为 actress 更为合理。那上而的channel model
为何一直不交到正确的改正结果吗?

最主因是:先验可能率是由 unigram language model
得出的,即便采纳 bigram language
model,那么就能够正确地找出”actress“,从而将acress考订为actress

上面是行使Contemporary American
English语料库磨炼取得的二元Language Model。对于单词w:actress 和
across,它交给的先验可能率p(w)如下:

统计 23

统计 24

 

actress对应的先验可能率:p(actress)=p(“versatile
actress whose”)=0.000021*0.0010

across对应的先验可能率:p(across)=1*10-10

诸如此类,再将先验几率和似然可能率相乘,就能收获不错的单词应该是”actress“,而不是”across“了。

 

参考小说:

Natural
Language Corpus Data: Beautiful Data

Corpora of misspellings for
download

 

清楚贝叶斯公式的一密密麻麻文章或然 推荐《A first course in machine learning 》那本书

机器学习中的贝叶斯方法—先验可能率、似然函数、后验可能率的知晓及怎么着利用贝叶斯实行模型预测(1)

机器学习中的贝叶斯方法—先验概率、似然函数、后验概率的明白及怎样运用贝叶斯实行模型预测(2)

行使最大似然法来求解线性模型(2)-为啥是最大化似然函数?

应用最大似然法来求解线性模型(3)-求解似然函数

运用最大似然法来求解线性模型(4)-最大化似然函数背后的数学原理

 

 NLP里面包车型大巴一些基本概念

 

原文:http://www.cnblogs.com/hapjin/p/8012069.html