王子嘉 自然语言处理起源:马尔科夫和香农的语言建模实验

栏目:美食 2021-10-07 07:19:04
分享到:

选自towardsdatascience

机器心脏编译

参与:极客人工智能王子嘉

语言建模和文本生成是自然语言处理领域的两个研究热点。早在一百年前,科学大师马尔科夫和香农就对此做了初步的探索......

1913年,俄罗斯数学家安德烈·安德烈·耶维奇·马尔科夫坐在圣彼得堡的书房里,手里拿着普希金19世纪写的诗化小说《叶甫盖尼·奥涅金》。

但马氏并没有读这篇著名的文章,而是拿起一支笔和一张草稿纸,去掉了这本书前2万个字母中的所有标点符号和空,记录成一长串字母。然后,他把这些字母分成200个网格,统计每行每列的元音数量,然后整理出这些结果。

对于毫无戒心的旁观者来说,马氏的行为略显奇怪。为什么会有人用这种方式解构一个文学天才的作品,并将其解构成如此不可理解的形式?

事实上,马氏读这本书并不是为了学习与生命和人性相关的知识,而是在文本中寻找更基本的数学结构。

之所以把元音和辅音分开,是因为马尔科夫在测试他从1909年开始研究的概率论研究。

在此之前,概率领域的研究大多局限于分析轮盘赌或抛硬币等现象,以往事件的结果不会改变当前事件的概率。然而,马尔可夫认为,大多数事情的发生都有一系列的因果关系,并取决于以前的结果。他想找到一种通过概率分析来模拟这些事件的方法。

根据马尔可夫,语言就是这样一个系统的例子:过去出现的字符在某种程度上决定了现在的结果。为了证实这一点,他想证明在普希金小说这样的文本中,某个字母出现在文本中的概率在一定程度上取决于前面的字母。

因此,本文开头就出现了《叶甫盖尼·奥涅金》中马尔可夫统计元音的场景。通过这个统计,他发现43%的字母是元音,57%是辅音。然后马尔科夫把这20000个字母分成了元音和辅音:他发现了1104对元音-元音,3827对辅音-辅音,15069对元音-辅音和辅音-元音。从统计上来说,这表明如果普希金文本中的任何一个字母是元音,那么下一个字母很可能是辅音,反之亦然。

马尔科夫利用这一分析证明了普希金的《尤金·奥涅金》不仅是字母的随机分布,还具有一些可以建模的潜在统计特征。根据这项研究,“对《叶甫盖尼论李依瑾》中关于链中样本连接的文本进行统计调查的一个例子”在马尔科夫去世之前没有被广泛引用,直到2006年才被翻译成英文。

然而,它关于概率和语言的一些核心概念已经传遍了全世界,而对这些思想的重述终于在克劳德·香农1948年发表的有影响力的论文《传播的数学理论》中被发现。

马尔可夫命题:

https://www . Cambridge . org/core/journals/science-in-context/article/一个关于链中样本连接的统计调查示例-尤金-奥涅金/ea1e 005 fa 0 BC 4522399 a4e 9 da 0304862

香农论文:http://www.math.harvard.edu/~·CTM/主页/文本/其他/香农/熵/熵

香农的论文概述了一种精确测量信息信息量的方法,从而为定义数字时代的信息论奠定了基础。香农被马尔可夫的观点深深吸引:在给定的文本中,某个字母或单词的可能性是可以估计的。与马尔可夫一样,香农通过一些文本实验证明了这一点,不仅建立了语言的统计模型,还试图利用这个模型根据这些统计规则生成文本。

在最初的控制实验中,他首先从包含27个符号的字母表中随机选择字母来生成句子,并获得以下输出:

XFOML rxkhjfjuj ZLPWCFWKCYJ FFJEYVKCQSGHYD QPAAMKBZAACIBZLHJQD

香农说这句话是没有意义的噪音,因为我们在交流的时候,不会选择概率相同的字母。正如马尔科夫所证明的,辅音比元音更容易出现。但在更高的粒度级别上,E比S更常见,S比q更常见,为了解决这个问题,Shannon修改了他的原始字母表,使得这个模型在对英语的概率建模时更加准确——他从字母表中提取E的概率比q高11%,当他再次从重新校准的语料库中随机选择字母时,生成的句子开始有点接近英语:

OCRO·HLI·EEI·阿尔亨htpa OOBTTVA NAH BRL。

在随后的一系列实验中,香农证明了当你把统计模型做得更复杂时,你得到的结果会更容易理解。香农通过马尔可夫理论揭示了英语的统计框架,并表明通过对框架建模,这些模型可以生成真实的语言。

给定文本的统计模型越复杂,语言生成就越准确——或者如香农所说,“与普通英语文本的相似性”就越大。在最后的实验中,香农从语料库中提取了单词而不是字母,得到了以下结果:

头部和正面攻击一位英国作家,这一点的特征因此是另一种方法的信件,时间的谁曾告诉一个意想不到的问题。

对于香农和马尔可夫来说,“语言的统计特征可以被建模”的想法为他们重新思考他们正在研究的更广泛的问题提供了一种新的方式。

对于马尔可夫来说,它将随机性的研究扩展到了独立事件之外,为概率论的新时代铺平了道路。对香农来说,这帮助他发现了一种精确的测量方法和编码信息中的信息单位,彻底改变了电子信息和数字通信行业。他们在语言建模和生成方面的统计方法也开创了自然语言处理的新时代,并延续至今。

“同步机器智能奖”第三届年度评选活动正在进行。本次评选共设6个奖项,聚焦人工智能公司的产品、应用案例和产业落地,以真实客观的产业表现评选出最值得关注的企业,为行业带来实际参考价值。

报名日期:2019年10月23日~ 2019年12月15日

审查期限:2019年12月16日~ 2019年12月31日

获奖公告:2020年1月