1.2 自然语言处理的发展历史

自然语言处理的研究最早可以追溯到20世纪50年代左右的机器翻译,1946年第一台电子数字积分计算机(Electronic Numerical Integrator and Computer,ENIAC)的成功运行让人们看到了传统翻译技术变革的可能。1948年,信息论奠基人克劳德·埃尔伍德·香农(Claude Elwood Shannon)发表了一篇划时代的论文A Mathematical Theory of Communication(《通信的数学理论》),他将热力学中“熵”的概念引入信息论,用于衡量一段信息所包含的信息量的多少。1950年,图灵(Turning)提出了著名的“图灵测试”,这一般被认为是人工智能研究和自然语言处理思想的开端。为了研究如何让计算机实现自动翻译,1952年,麻省理工学院召开了第一次机器翻译大会。两年后,在国际商业机器(International Business Machines,IBM)公司的协助下,美国乔治敦大学研究人员用IBM 701计算机进行了世界上第一次机器翻译试验,将几个简单的俄语句子成功翻译为英语,至此,拉开了人类使用计算机处理自然语言的序幕。

为了推动机器翻译的研究与应用,1954年,美国瓦伦·韦弗(Warren Weaver)出版了Machine Translation(《机器翻译》),这是业界第一本关于机器自动翻译的期刊。研究人员开始建立自然语言相关规则库,试图用不断新增的规则来解决翻译自然语言的问题。令人遗憾的是,自然语言具有任意性与复杂性的问题远远不是更新和维护规则库所能解决的。

随着研究的深入,研究人员引入和借鉴其他领域的思想,用来对自然语言建模。1956年,美国逻辑学家斯蒂芬·科尔·克莱尼(Stephen Cole Kleene)提出了正则表达式的概念,通过制定规则来匹配和替换符合条件的文本。1957年,美国语言学家阿夫拉姆·诺姆·乔姆斯基(Avram Noam Chomsky)在其语言学著作Syntactic Structures(《句法结构》)中提出,上下文可以无关语法,利用代数和集合论将形式语言定义为符号的序列,任何语言的任意一条语句均可被视为有限自动机产生的符号序列。

这些代表性研究人员的工作推动了自然语言处理技术两大阵营的诞生,即基于规则的符号主义学派与基于概率方法的连接主义学派。

进入20世纪60年代,研究人员发展了解析算法,利用不同解析策略实现对自然语言结构的解析,将输入语句转换为结构单元,再对结构单元进行操作。也有其他研究人员利用随机方法中的概率来表示自然语言的模糊性,进而对自然语言进行建模表示。而到了20世纪70年代,随着机器翻译研究项目进度放缓,未能达到预期表现,对自然语言处理研究的资金支持也大为缩减,人工智能和自然语言处理的研究进入低谷期。

随着计算机技术的发展和硬件成本的降低,自然语言处理的相关研究在20世纪80年代开始复苏,这一时期最为关键的技术之一是利用统计学习方法来处理自然语言处理任务,这提升了语音识别的准确率,使机器翻译取得重大进展。

从20世纪90年代开始,随着技术的发展和个人计算机的普及,信息检索与信息抽取领域对自然语言处理技术的需求显著增加。这一时期,统计与概率驱动的方法逐步成为主流,句法解析、词性标注、机器翻译等都利用统计学习思想取得了较大突破。

进入21世纪后,深度学习,尤其是神经网络方向的兴起,使得自然语言处理迎来了一个全新时代。研究人员利用深度神经网络对自然语言进行建模,这一思路直接催生了后续在自然语言处理领域大放异彩的词嵌入、序列到序列模型等。

如今,自然语言处理领域快速发展,形成了百花齐放的局面,让这项技术在搜索系统、问答系统、机器翻译、阅读理解、文本生成、对话机器人等越来越多的应用领域中取得较好表现。