欢迎光临商务印书馆,返回首页
图书搜索:

计算语言学基础

分享到:

定价:¥15.00

  • 出版时间:2001年08月
  • 页数:280页
  • ISBN:7-100-03284-9
  • 主题词:计算语言学基础
  • 人气:78

显示全部出版说明

<FONT size=3><STRONG>      “语言与计算机”丛书出版说明

</STRONG></FONT>

  商务印书馆在1997年提出了出版“语言与计算机”丛书的设想。这套丛书共包括《中文文本自动分词和标注》、《计算语言学基础》、《机器翻译》和《语料库语言学》等。作者承担了《中文文本自动分词和标注》的编纂任务。1998年5月中旬在京召开了丛书样稿讨论会。关于“语言与计算机”丛书的定位问题,经过讨论,大家认为本套丛书应是有一定学术性、一定专业水平的读物,是大专院校语言文字应用、计算机应用等专业师生、语言文字和计算机工作者及大专以上文化程度读者的参考书。清华大学黄昌宁教授针对编辑这套丛书的意图,作了进一步的深化和明确的论述,他指出:这套丛书实际上是一座桥梁,它把语言学和计算机科学紧密地联系在一起,一方面向语言学工作者介绍语言学知识在计算机领域中的应用,计算机研究和处理语言现象、语言信息的方法及成果;一方面把计算机处理各种语言信息过程中遇到的语言学方面的问题、难题告诉语言学工作者,把更多的语言学工作者吸引到这一领域来,使之为解决计算机处理中的语言学问题提供更多的、更有针对性的帮助,从而促进计算语言学的发展。

  作者从事语言信息处理的教学与研究已有近二十年的历史,先后多次得到国家863智能机主题组和国家自然科学基金、国家社会科学基金、国家语委等资助,并长期得到中国中文信息学会理事、中国工程院资深院士陈力为教授,以及国内外计算语言学界同行的支持与帮助,取得了一些较满意的研究成果。借此机会,归纳并吸收了国内外最近的研究成果,整理成了这份资料。在体系和取材上,遵循理论上系统、科学,技术上先进、可行,论点正确,论据翔实、可靠等基本原则。在写作风格上,力求做到通俗易懂。考虑到读者的接受能力,对复杂的计算模型和计算技术问题,伴有语言例证,尽量简化处理。初稿完成于1999年初,由于教材上的需要,先行少量装订成册,一方面供我们研究生、本科生教学上使用,便于征求他(她)们的意见,另一方面可以请国内有关专家提出审阅意见。1999年末,参照中文信息处理一年来的最新进展和Internet上wordnet和hownet等在线词典的最新资料,并参考各方面的建议,重新进行整理,并在某几个章节上做了较大的修改和补充。

  本书编写过程中正值著名语言学家许嘉璐教授主持的国家“九五”社科基金重大课题《信息处理用现代汉语词汇研究》启动,作者有幸承担了《歧义切分和专名识别软件》子课题,得到一次研究和学习的机会。在此同时,我们承担了国家社科基金“九五”规划重点课题《中文信息处理用词性、词的切分》,历时三年,已经圆满结题并取得了可喜成果。这些研究为本书的编写作了关键性的支持。另外冯志伟教授、王惠临研究员审阅了本书初稿,并提出许多宝贵意见。责任编辑刘玲女士在书稿内容及其出版方面都做了精细的工作。山西大学郑家恒教授、周晓强、谭红叶、李鑫、李竟、雒自清等师生都为本书的编写工作提供了许多帮助,我谨在此一并表示深深地感谢。

  由于作者水平有限,遗漏和错误难免,殷切希望读者批评指正。


                   山西大学计算机科学系 刘开瑛

                            2000年元月

显示全部序言

  商务印书馆约我写一本介绍计算语言学基础知识的书,以满足信息时代语言学工作者更新知识的需要,开阔语言学研究的视野。商务印书馆是驰名中外的出版社,他们以敏锐的学术洞察力,看到了计算语言学这个学科在信息时代的重要作用,在众多的选题中对于计算语言学情有独钟,令我感动不已,我认为这是一件很有意义的工作,就欣然应允了,在忙碌的工作之余尽量挤出时间来写作,历时两年,终于写成了放在编者和读者面前的这本书,我希望大家喜欢它。

  计算语言学是一个横跨语言学、数学和计算机科学的交叉学科。语言学和数学都是有着相当长历史的古老学科。语言学历来被看作是典型的人文科学,数学则被许多人看作是最重要的自然科学。在学校教育中,语文和数学被认为是两门最基础的学科,成为任何一个受教育者的必修课。它们似乎成了学校教育的两个极点:一个极点是作为文科代表者的语文,另一个极点是作为理科代表者的数学。很少有人想到,这两门表面上如此不同的学科之间竟然会存在着深刻的学术联系。计算机科学是研究计算机的新兴学科,带有相当强的工程性质和浓烈的技术色彩,属于高科技的范畴,表面上看来,作为典型的人文科学的语言学与属于高科技的计算机科学也不会存在什么瓜葛。因此,在一般人的心目中,这门横跨语言学、数学和计算机科学的计算语言学似乎是不可思议的,甚至是有悖于常识的, 就是连“计算语言学”这个名称也几乎是荒谬绝伦的。

  然而,一些具有远见卓识的学者却早就洞察了语言学、数学和计算机科学之间的紧密联系。1847年,俄国数学家布里亚柯夫斯基(B.<SPAN lang=EN-US style="FONT-SIZE: 10.5pt; FONT-FAMILY: 'Times New Roman'; mso-fareast-font-family: 宋体; mso-font-kerning: 1.0pt; mso-ansi-language: EN-US; mso-fareast-language: ZH-CN; mso-bidi-language: AR-SA"><FONT size=3><FONT size=2>Я</FONT>.</FONT><SPAN style="FONT-SIZE: 10.5pt; FONT-FAMILY: Batang; mso-font-kerning: 1.0pt; mso-ansi-language: EN-US; mso-fareast-language: ZH-CN; mso-bidi-language: AR-SA; mso-bidi-font-family: 'Times New Roman'"><FONT size=3>Б<SPAN lang=EN-US style="FONT-SIZE: 10.5pt; FONT-FAMILY: Batang; mso-fareast-font-family: 宋体; mso-font-kerning: 1.0pt; mso-ansi-language: EN-US; mso-fareast-language: ZH-CN; mso-bidi-language: AR-SA; mso-bidi-font-family: 'Times New Roman'">y</SPAN><SPAN style="FONT-SIZE: 10.5pt; FONT-FAMILY: Batang; mso-font-kerning: 1.0pt; mso-ansi-language: RU; mso-fareast-language: ZH-CN; mso-bidi-language: AR-SA; mso-bidi-font-family: 'Times New Roman'">л</SPAN><SPAN style="FONT-SIZE: 10.5pt; FONT-FAMILY: Batang; mso-font-kerning: 1.0pt; mso-ansi-language: RU; mso-fareast-language: ZH-CN; mso-bidi-language: AR-SA; mso-bidi-font-family: 'Times New Roman'">я</SPAN><SPAN lang=RU style="FONT-SIZE: 10.5pt; FONT-FAMILY: 'Times New Roman'; mso-fareast-font-family: 宋体; mso-font-kerning: 1.0pt; mso-ansi-language: RU; mso-fareast-language: ZH-CN; mso-bidi-language: AR-SA">ков</SPAN><SPAN lang=EN-US style="FONT-SIZE: 10.5pt; FONT-FAMILY: Batang; mso-font-kerning: 1.0pt; mso-ansi-language: EN-US; mso-fareast-language: ZH-CN; mso-bidi-language: AR-SA; mso-bidi-font-family: 'Times New Roman'">c</SPAN><SPAN lang=RU style="FONT-SIZE: 10.5pt; FONT-FAMILY: 'Times New Roman'; mso-fareast-font-family: 宋体; mso-font-kerning: 1.0pt; mso-ansi-language: RU; mso-fareast-language: ZH-CN; mso-bidi-language: AR-SA">к</SPAN><SPAN style="FONT-SIZE: 10.5pt; FONT-FAMILY: Batang; mso-font-kerning: 1.0pt; mso-ansi-language: RU; mso-fareast-language: ZH-CN; mso-bidi-language: AR-SA; mso-bidi-font-family: 'Times New Roman'">и<SPAN style="FONT-SIZE: 10.5pt; FONT-FAMILY: Batang; mso-font-kerning: 1.0pt; mso-ansi-language: RU; mso-fareast-language: ZH-CN; mso-bidi-language: AR-SA; mso-bidi-font-family: 'Times New Roman'">й</SPAN></SPAN></SPAN></FONT></SPAN>)提出了用概率方法来进行语法、词源及语言历史比较研究的思想。1894年,瑞士语言学家索绪尔(De Saussure)指出,“在基本性质方面,语言中的量和量之间的关系可以用数学公式有规律地表达出来”,后来,他在其名著《普通语言学教程》(1916年)中又指出,语言学好比一个几何系统,“它可以归结为一些待证的定理”。1904年,波兰语言学家博杜恩•德•库尔特内(Baudouin de Courte—nay)认为,语言学家不仅应该掌握初等数学,而且还有必要掌握高等数学。他表示坚信,语言学将日益接近精密科学,语言学将根据数学的模式,一方面“更多地扩展量的概念”,一方面“将发展新的演绎思想的方法”。1933年,美国语言学家布龙菲尔德(L.Bloomfield)提出了一个著名的论点:“数学只不过是语言所能到达的最高境界”。法国数学家阿达玛(J.Hadamard)说得更好:“语言学是数学和人文科学之间的桥梁”,他一语道破了语言学和数学之间的联系,并清楚地看出了语言学是人文科学中最容易与数学建立联系的学科。

  著名俄国数学家马尔可夫(A.A.M<SPAN lang=EN-US style="FONT-SIZE: 10.5pt; FONT-FAMILY: 'Times New Roman'; mso-fareast-font-family: 宋体; mso-font-kerning: 1.0pt; mso-ansi-language: EN-US; mso-fareast-language: ZH-CN; mso-bidi-language: AR-SA">арков</SPAN>)更是躬行实践,他在1913年把普希金的叙事长诗《欧根•奥涅金》中的连续字母加以分类,研究俄语字母序列内部的关系,提出了马尔可夫随机过程论,后来成为了一个独立的数学分支,对现代数学的发展产生了深远的影响。语言结构中蕴藏着的数学规律,成为了马尔可夫创造性思想的取之不尽的源泉。

  1946年第一台电子计算机ENIAC在美国研制成功。就在电子计算机问世的同一年,英国工程师布斯(A.D.Booth)和美国洛克菲勒基金会副总裁韦弗(W.Weaver)在讨论电子计算机的应用范围时,就提出了利用计算机进行语言自动翻译的想法。韦弗在1947年3月4日给控制论学者维纳(N.Wiener)的信中说:“我怀疑是否真的建造不出一部能够作翻译的计算机?即使只能翻译科学性的文章(在语义上问题较少),或是翻译出来的结果不怎么优雅(但能够理解),对我而言都值得一试。”可见,电子计算机一出现,计算机科学家的慧眼就投到了自然语言的自动处理方面。

  这样看来,语言学、数学和计算机科学之间确实有着深刻的内在联系,那么,作为一门横跨语言学、数学和计算机科学的计算语言学的存在便应该是合情合理的了。我是一个普通的人,当然不可能有上述学者那样的远见卓识。我是在一个偶然的机会与计算语言学结下了不解之缘的。这里,我愿意说一说我与计算语言学的这种缘分。

  我于1957年高中毕业后,考入北京大学地球化学专业本科就读,当时我非常崇拜俄罗斯地球化学家费尔斯曼(Fels-man),一心想研究化学元素在地球上的分布规律。就当我在北京大学认真学习地球化学的前后,国外兴起了数理语言学,建立起了完善的理论和方法,并且在许多大学中开设了数理语言学的课程。数理语言学作为一个独立的学科出现在现代语言学的百花园中。在50年代虽然还没有出现“计算语言学”这个名称,但是,数理语言学与后来出现的计算语言学有着密切的联系。北京大学高举五四“民主”和“科学”的大旗,学术空气非常自由,北京大学的图书馆藏书丰富,学生可以阅读到各种最新的科学杂志,了解到国内外最新的学术发展动向。当时我才19岁,求知的愿望非常强烈,对于新事物极为敏感,我成为了北京大学图书馆的常客,整天泡在图书馆的书海之中。一个偶然的机会,我在北京大学图书馆馆藏的1956年出版的美国《信息论》(IRE Transaction,Information Theory)杂志上,读到了美国语言学家乔姆斯基(N.Chomsky)的论文《语言描写的三个模型》(Three models for the description of language),被乔姆斯基在语言研究中的新思想深深地吸引了。乔姆斯基在他的文章中,提出了形式语言和形式文法的新概念,他把自然语言和计算机程序设计语言置于相同的平面上,用统一的数学方法进行解释和定义,提出了语言描写的三个模型。用数学方法描写的这三个模型是这样的抽象,它们既可以用于描写自然语言,又可以描写计算机程序设计语言。我预感到这种语言的数学描写方法,将会把自然语言和程序设计语言紧密地结合起来,在信息的处理和研究中发挥出巨大的威力。于是,我下决心来研究数学方法在语言中的应用这个问题,于1959年从理科转到中文系语言学专业从事语言学的学习。

  转入语言学专业之后,我一面学好传统语言学的各门课程,一面利用课余时间,继续研究数理语言学的问题,我尽量充分地利用北京大学图书馆丰富的藏书和最新的杂志,跟踪着国际上数理语言学发展的足迹。1964年我考上了语言学理论的研究生,经导师同意,我的研究生毕业论文的题目定为《数学方法在语言学中的应用》,在我国语言学研究中,首次系统地、全面地来研究数理语言学这个新兴学科。

  北京大学中文系的著名语言学家王力先生和朱德熙先生都支持我的数理语言学研究,王力先生对我说:“语言学不是很简单的学问,我们应该像赵元任先生那样,首先做一个数学家、物理学家,然后再做一个合格的语言学家。”朱德熙先生对我说:“数学和语言学的研究都需要有逻辑抽象的能力,在这一方面,数学和语言学有共同性。”北京大学的这些第一流的学者,总是站在科学的最前沿来看待学术的发展,他们的鼓励给了我以巨大的力量。

  可是,不久便发生了“文化大革命”,王力先生和朱德熙先生都被打成反动学术权威,我的数理语言学研究也随之失去了支持,我被分配到云南边疆的一所中学里教物理课。在中学任教期间,我除了认认真真地教好学生,努力搞好本职工作外,还利用一切业余时间,密切地关注着国外学术发展的动向。数理语言学仍然像磁石一样强烈地吸引着我,在云南边疆那样闭塞的环境中,在信息不足、资料缺乏的困难条件下,我阅读了当时所能搜集到的各种关于数理语言学的资料,为了阅读散见于各种外文书刊中的数理语言学文献,我学会了英、法、德、俄、日等五种外国语,紧跟着世界上数理语言学发展的步伐。1973年,我在云南省图书馆看到了美国语言自动处理咨询委员会(Automatic Language Processing Advisory Committee)于1966年11月发表的《语言与机器》(Language and Machine)这个关于机器翻译的调查咨询报告,该报告一方面对于机器翻译采取了消极悲观的态度,一方面强调了继续从计算角度研究自然语言规律的重要性,提出了“计算语言学”(computational linguistics)这个名称。这是我第一次接触到计算语言学这个名称,从此以后,计算语言学便成为了我终身为之奋斗的事业。

  粉碎“四人帮”之后,迎来了科学的春天,我有了归队的可能。但是,这次我归的队不是文科的队,而是理科的队。为了提高自己的数学和计算机科学的知识水平,我于1978年通过理科考试,考上了中国科学技术大学研究生院信息科学系的研究生,弃文学理,又开始了理科的学习,从云南边疆回到了北京。1979年,《计算机科学》杂志创刊,我在《计算机科学》创刊号上发表了《形式语言理论》的长篇论文,用严格的数学表达方式向计算机科学界说明语言学中的形式化方法如何推动了当代计算机科学的发展,并且指出,在语言学研究中发展起来的形式语言理论事实上已经成为了当代计算机科学不可缺少的一块重要的理论基石,计算机科学绝不可忽视形式语言理论。这样,我便从语言学的领域跨入了计算机科学的领域,开始从计算机科学的角度来研究语言学问题。

  不久,我被中国科学技术大学研究生院选送到法国格勒诺布尔理科医科大学应用数学研究所(IMAG)自动翻译中心(GETA)学习,师从当时国际计算语言学委员会主席、法国著名数学家沃古瓦(B.Vauquois)教授专门研究机器翻译和计算语言学问题。1981年回国后,我在中国科学技术信息研究所计算中心从事机器翻译的研究工作,仍然是从计算机科学的角度来研究语言学问题。直到1985年11月,由于语言文字工作的需要,我又一次弃理从文,调入国家语言文字工作委员会语言文字应用研究所工作。这是在我第一次弃理学文26年之后的又一次改行,最后还是回到了语言学的队伍。这时我已经是47岁的人了,斗转星移,人事沧桑,其中的甘苦有谁知道呢?

  现在我已经是白发苍苍的61岁的老人了,从1959年到现在,我从事计算语言学研究已整整40年。在这本书里,我愿将自己在多年的研究中学习到的有关计算语言学的一些最基础的知识,以深入浅出的方式向读者介绍。

  大规模真实文本的处理以及语料库语言学也是当前计算语言学的研究热点,由于这些内容已经在另一本书中讲了,本书就不再过多涉及。

  本书在写作时尽量考虑到文科读者的需要,所有比较困难的问题都尽量举例加以说明,使读者能了解计算机处理自然语言的具体过程。如果在阅读本书时碰到困难的问题,希望读者细心地琢磨,反复地体会,亲自通过所举的实例把计算机处理自然语言的过程走一遍,这些困难的问题都是可以迎刃而解的。

  责任编辑刘玲女士在本书的体例和出版方面提出了很好的建议,并做了大量细致的工作,我在此表示衷心的感谢。

  欢迎海内外读者对本书提出宝贵的意见。


                               冯志伟

                          2000年10月1日于北京

显示全部内容简介

  本书从语言学的角度,回顾了计算语言学的产生和发展的历史,从词汇的计算机处理、自动句法分析、自动语义分析等方面,系统地讲述计算语言学的基础知识,特别是介绍了计算语言学的基本理论和方法。这是一本计算语言学的基础性入门读物,作者尽量考虑到计算语言学跨学科的特点。叙述力求深入浅出,文字力求简明扼要,可供语言学工作者、计算机工作者、计算语言学工作者以及对语言信息处理有兴趣的广大读者阅读。

显示全部目 录

第1章 计算语言学的兴起和发展

 第一节 计算语言学的性质

 第二节 计算语言学的萌芽期

 第三节 计算语言学的发展期

 第四节 计算语言学的繁荣期

 第五节 我国计算语言学的发展

 第六节 计算语言学与传统语言学的区别


第2章 词汇的计算机处理

 第一节 词汇统计与词表的制定

 第二节 词语分布的统计分析

 第三节 机器词典

 第四节 现代汉语文本的自动切词与标注

 第五节 词网(Word Net)和词汇知识系统的建造


第3章 自动句法分析

 第一节 自顶向下分析法

 第二节 自底向上分析法

 第三节 富田算法

 第四节 左角分析法

 第五节 CYK算法


第4章 自动语义分析

 第一节 义素分析法

 第二节 单词的语义特征分类

 第三节 语义关系与格语法


第5章 汉语计算语言学的特殊问题

 第一节 信息时代汉字的标准化和共通化

 第二节 汉语自动分析中的关键问题