计算语言学

专业学科

计算语言学(Computational Linguistics)指的是这样一门学科,它通过建立形式化的数学模型,来分析、处理自然语言,并在计算机上用程序来实现分析和处理的过程,从而达到以机器来模拟人的部分乃至全部语言能力的目的。

简介
我们所说的语言分为自然语言与人工语言两大类。自然语言是人类在自身发展的过程中形成的语言,是人与人之间传递信息的媒介。人工语言指的是人们为了某种目的而自行设计的语言。计算机语言(Computer Language)就是人工语言的一种,指用于在人与计算机之间传递信息的语言。
人与计算机之间交流信息要使用计算机语言。电脑每做的一次动作,一个步骤,实际上都是执行已经用计算机语言编好的程序。程序是计算机要执行的指令的集合,而程序全部都是用我们所掌握的语言来编写的。人们要控制计算机,利用计算机来解决问题,就一定要通过计算机语言向计算机发出命令。我们把编写程序的过程叫做程序设计,而计算机语言相应地称为程序设计语言。
计算机语言都可以用来控制计算机来解决一些实际问题。这些问题可以是数值计算问题,其操作对象就是一些由符号构成的符号串;也可以是非数值计算问题如声音、图像处理问题,其操作对象就是声音和图像等。我们应知道各种计算机语言都不是万能的,每种计算机语言都有自己的特点、优势及运行环境,有自己的应用和操作对象。
产生背景
电子计算机问世不久,人们便考虑到它的非数值运算问题,并选中机器翻译作为第一个非数值运算的课题。这个选择可以说开辟了计算机非数值应用无比广阔的领域,许多语言学理论和方法以及许多技术成果都是在它的基础上或启发下产生和解决的。例如,文字的输入输出设备、大存储装置、言语识别和文字识别等课题均在机器翻译研究初期便已提出。但是由于机器翻译是一种比较高级的人工智能,至今尚未能真正或广泛付诸应用,而计算语言学的其他方面却得到了很大发展。计算机情报检索在60年代末期便已实现,通过卫星已可进行洲际检索。利用计算机进行言语统计已成常事,在统计分析的基础上编成了一大批正序、逆序词表和频率词典,建立了各种语料库,促进了计算风格学的诞生。同时还编制了大量索引和逐词索引。大字符集的信息处理问题已得到一定解决,这为中文和其他东方语文的信息处理提供了方便条件。计算机辅助教学日趋成熟与普遍。作为人工智能一个重要分支的自然语言理解也已奠定了基础,与此相联系的文字自动识别、言语识别言语合成等项语言工程也在蓬勃开展。计算机在实验语音学、方言研究、语法分析和词典编纂等方面也得到了越来越广泛的应用。
计算语言学之所以有这样长足的发展,是由于社会的需要。当今世界处于新技术革命时代,一个以电子计算机为基本工具的现代化语言文字信息处理系统正在世界范围内形成,这标志着高度发展的信息化社会的到来。计算语言学正是为担当这一历史使命而诞生和发展的。
基本内容
计算语言学发展到今天,按其工作性质和复杂程度,可以归结为以下3个方面:
①自动编排:这是计算机最擅长的工作,也是计算语言学中最成熟的部分。对各种语言素材进行统计、分类、排序,编辑各种词表、索引和词典,建立语料库、术语数据库等等,已经得到广泛运用。由于这些技术已经相当成熟,因而已有现成的软件包提供服务。
②自动分析:这是一种较复杂的语言自动处理。这种自动分析系统是根据事先存入计算机内的特定语言信息进行工作,目的在于得到预先规定的结论,例如让计算机查词典或进行语法测试,均属此类。若结论有误,就证明词典或语法不够完备,需要对原先的数据或规则加以修订或补充。这类系统一般尚处于试验研究阶段。
③自动研究:这是一种更复杂的语言自动处理。这种自动研究系统是根据计算机内存储的一般语言信息进行工作,借助统计、比较、类推等手段,得出自己推断的结论。人工智能研究中的某些自然语言理解系统正在朝这方面努力,但目前还没有比较成熟的研究成果。
分类
计算机语言的种类非常的多,总的来说可以分成机器语言、汇编语言、高级语言三大类。
成果
计算语言学可以说是计算机和语言学相结合的产物。这种结合已经得到丰硕的成果,除了上面说到的那些应用课题以外,还表现在对语言学理论和方法的影响上。语言的定义扩展了:语言已不仅是人类重要的交际工具,而且也是人机之间的交际工具。为了满足计算机加工的要求,计算语言学最大的特点就是要求语言的形式化,因为只有形式化,才能算法化、自动化。根据这项要求,制定出一系列面向语言信息处理的自动分析方法,其中包括预示分析法从属分析法中介成分体系优选语义学扩充转移网络概念从属论等等。这些自动分析方法,已在机器翻译自然语言理解的系统中得到应用,并证明有效。语言的形式化是分层进行的。语法的形式化相对来说比较简单,人们已做了不少工作;语义的形式化则是一个复杂的问题,人们进行的工作还不多。而语义形式化问题解决得好坏,将大大影响语言自动加工的成效。因此,继续发掘行之有效的形式结构分析方法和语义分析方法,研究它们之间的关系,以及探讨它们在不同系统中各自使用的限度,这是计算语言学中的重点研究课题。
第五代计算机要求人们赋予它听觉(识别口语)和更强的视觉(自动识别文字),赋予它说话能力(合成言语)和听写能力(语音打字),同时还要求人们赋予它理解自然语言并把某种(或多种)自然语言翻译成另一种(或多种)自然语言的能力。这样,计算语言学工作者又需要提供各种物理参数、语言概率性等方面的数据和各种应用软件,以便同有关的专家、工程师一道共同解决为计算机增添“翅膀”这个重大课题,使之真正成为“万能的智能机器”。
完成上述任务,必须靠整个语言学界的努力和合作。尽管面向机器的语言学有其独特性,在许多方面都要另起炉灶,但是实践证明:传统语言学的基础雄厚与否对解决一些新任务有很大关系,例如传统的英汉对比语言学研究得好,就会给英汉机器翻译提供很多方便。从这个意义上讲,计算语言学只有很好地吸取传统语言学的成果并加以改造,才能得到迅速发展。
热点
值得一提的是,机器翻译是人工智能的重要分支和最先应用领域。不过就已有的机译成就来看,机译系统的译文质量离终极目标仍相差甚远;而机译质量是机译系统成败的关键。中国数学家、语言学家周海中教授曾在论文《机器翻译五十年》中指出:要提高机译的质量,首先要解决的是语言本身问题而不是程序设计问题;单靠若干程序来做机译系统,肯定无法提高机译质量。另外在人类尚未明了大脑是如何进行语言的模糊识别逻辑判断的情况下,机译要想达到“信、达、雅”的程度是不可能的。
应用
计算语言学和自然语言信息处理研究的核心问题是语言的自动理解(Language Understanding)和自动生成(Language Generation)。前者从句子表层的词语符号串识别句子的句法结构,判断成分之间的语义关系,最终弄清句子表达的意思;后者从要表达的意思出发选择词语,根据词语间的语义关系构造各个成分之间的语义结构和句法结构,最终造出符合语法和逻辑的句子。
计算语言学的研究也像其他学科一样,有科学研究与技术研究两个层次。科学研究的目的是发现语言的内在规律、探索语言理解和生成的计算方法、建设语言信息处理的基础资源;而技术研究则借助应用目标来驱动,根据社会的实际需要,设计和开发实用的语言信息处理系统。
自然语言信息处理的应用目标是使人与计算机之间用自然语言进行交流。具体说,是建立各种处理自然语言的计算机应用软件系统,譬如:机器翻译自然语言理解、语音自动识别与合成、文字自动识别、计算机辅助教学、信息检索、文本自动分类、自动文摘,还有文本中的信息提取、互联网上的智能搜索,以及各种电子词典和术语数据库。
随着互联网的广泛普及,语言信息处理的社会需求越来越大,人们迫切需要用自动化的手段处理海量的语言信息。然而,由于学科理论发展的局限和汉语本身的复杂性,目前我国计算语言学理论和方法的研究还不能为开发汉语信息处理应用系统提供足够的支持。多年来国内计算语言学和自然语言处理学科发展的特点之一是,应用型研究和实用系统开发的目标比较明确,投入相对较多,也取得了一些成果;而基础理论和方法的研究则相对薄弱。1998年-2002年期间的研究情况和发展态势依然如此。在本文上述的各种应用目标中,研究力量比较集中的项目有:文本信息检索、文献自动分类、自动文摘、语音自动识别与合成、机器翻译,还有文本信息提取和过滤。另外,语言资源的建设和基于语料库的语言分析方法也受到了格外关注,取得了比较快的进展。
全国各地天气预报查询

上海市

  • 市辖区
  • 云南省

  • 临沧市
  • 云南省

  • 丽江市
  • 云南省

  • 保山市
  • 云南省

  • 大理白族自治州
  • 云南省

  • 德宏傣族景颇族自治州
  • 云南省

  • 怒江傈僳族自治州
  • 云南省

  • 文山壮族苗族自治州
  • 云南省

  • 昆明市
  • 云南省

  • 昭通市
  • 云南省

  • 普洱市
  • 云南省

  • 曲靖市
  • 云南省

  • 楚雄彝族自治州
  • 云南省

  • 玉溪市
  • 云南省

  • 红河哈尼族彝族自治州
  • 云南省

  • 西双版纳傣族自治州
  • 云南省

  • 迪庆藏族自治州
  • 内蒙古自治区

  • 乌兰察布市
  • 内蒙古自治区

  • 乌海市
  • 内蒙古自治区

  • 兴安盟
  • 内蒙古自治区

  • 包头市
  • 内蒙古自治区

  • 呼伦贝尔市
  • 内蒙古自治区

  • 呼和浩特市
  • 内蒙古自治区

  • 巴彦淖尔市
  • 内蒙古自治区

  • 赤峰市
  • 内蒙古自治区

  • 通辽市
  • 内蒙古自治区

  • 鄂尔多斯市
  • 内蒙古自治区

  • 锡林郭勒盟
  • 内蒙古自治区

  • 阿拉善盟
  • 北京市

  • 市辖区
  • 吉林省

  • 吉林市
  • 吉林省

  • 四平市
  • 吉林省

  • 延边朝鲜族自治州
  • 吉林省

  • 松原市
  • 吉林省

  • 白城市
  • 吉林省

  • 白山市
  • 吉林省

  • 辽源市
  • 吉林省

  • 通化市
  • 吉林省

  • 长春市
  • 四川省

  • 乐山市
  • 四川省

  • 内江市
  • 四川省

  • 凉山彝族自治州
  • 四川省

  • 南充市
  • 四川省

  • 宜宾市
  • 四川省

  • 巴中市
  • 四川省

  • 广元市
  • 四川省

  • 广安市
  • 四川省

  • 德阳市
  • 四川省

  • 成都市
  • 四川省

  • 攀枝花市
  • 四川省

  • 泸州市
  • 四川省

  • 甘孜藏族自治州
  • 四川省

  • 眉山市
  • 四川省

  • 绵阳市
  • 四川省

  • 自贡市
  • 四川省

  • 资阳市
  • 四川省

  • 达州市
  • 四川省

  • 遂宁市
  • 四川省

  • 阿坝藏族羌族自治州
  • 四川省

  • 雅安市
  • 天津市

  • 市辖区
  • 宁夏回族自治区

  • 中卫市
  • 宁夏回族自治区

  • 吴忠市
  • 宁夏回族自治区

  • 固原市
  • 宁夏回族自治区

  • 石嘴山市
  • 宁夏回族自治区

  • 银川市
  • 安徽省

  • 亳州市
  • 安徽省

  • 六安市
  • 安徽省

  • 合肥市
  • 安徽省

  • 安庆市
  • 安徽省

  • 宣城市
  • 安徽省

  • 宿州市
  • 安徽省

  • 池州市
  • 安徽省

  • 淮北市
  • 安徽省

  • 淮南市
  • 安徽省

  • 滁州市
  • 安徽省

  • 芜湖市
  • 安徽省

  • 蚌埠市
  • 安徽省

  • 铜陵市
  • 安徽省

  • 阜阳市
  • 安徽省

  • 马鞍山市
  • 安徽省

  • 黄山市
  • 山东省

  • 东营市
  • 山东省

  • 临沂市
  • 山东省

  • 威海市
  • 山东省

  • 德州市
  • 山东省

  • 日照市
  • 山东省

  • 枣庄市
  • 山东省

  • 泰安市
  • 山东省

  • 济南市
  • 山东省

  • 济宁市
  • 山东省

  • 淄博市
  • 山东省

  • 滨州市
  • 山东省

  • 潍坊市
  • 山东省

  • 烟台市
  • 山东省

  • 聊城市
  • 山东省

  • 菏泽市
  • 山东省

  • 青岛市
  • 山西省

  • 临汾市
  • 山西省

  • 吕梁市
  • 山西省

  • 大同市
  • 山西省

  • 太原市
  • 山西省

  • 忻州市
  • 山西省

  • 晋中市
  • 山西省

  • 晋城市
  • 山西省

  • 朔州市
  • 山西省

  • 运城市
  • 山西省

  • 长治市
  • 山西省

  • 阳泉市
  • 广东省

  • 东莞市
  • 广东省

  • 中山市
  • 广东省

  • 云浮市
  • 广东省

  • 佛山市
  • 广东省

  • 广州市
  • 广东省

  • 惠州市
  • 广东省

  • 揭阳市
  • 广东省

  • 梅州市
  • 广东省

  • 汕头市
  • 广东省

  • 汕尾市
  • 广东省

  • 江门市
  • 广东省

  • 河源市
  • 广东省

  • 深圳市
  • 广东省

  • 清远市
  • 广东省

  • 湛江市
  • 广东省

  • 潮州市
  • 广东省

  • 珠海市
  • 广东省

  • 肇庆市
  • 广东省

  • 茂名市
  • 广东省

  • 阳江市
  • 广东省

  • 韶关市
  • 广西壮族自治区

  • 北海市
  • 广西壮族自治区

  • 南宁市
  • 广西壮族自治区

  • 崇左市
  • 广西壮族自治区

  • 来宾市
  • 广西壮族自治区

  • 柳州市
  • 广西壮族自治区

  • 桂林市
  • 广西壮族自治区

  • 梧州市
  • 广西壮族自治区

  • 河池市
  • 广西壮族自治区

  • 玉林市
  • 广西壮族自治区

  • 百色市
  • 广西壮族自治区

  • 贵港市
  • 广西壮族自治区

  • 贺州市
  • 广西壮族自治区

  • 钦州市
  • 广西壮族自治区

  • 防城港市
  • 新疆维吾尔自治区

  • 乌鲁木齐市
  • 新疆维吾尔自治区

  • 伊犁哈萨克自治州
  • 新疆维吾尔自治区

  • 克孜勒苏柯尔克孜自治州
  • 新疆维吾尔自治区

  • 克拉玛依市
  • 新疆维吾尔自治区

  • 博尔塔拉蒙古自治州
  • 新疆维吾尔自治区

  • 吐鲁番市
  • 新疆维吾尔自治区

  • 和田地区
  • 新疆维吾尔自治区

  • 哈密市
  • 新疆维吾尔自治区

  • 喀什地区
  • 新疆维吾尔自治区

  • 塔城地区
  • 新疆维吾尔自治区

  • 巴音郭楞蒙古自治州
  • 新疆维吾尔自治区

  • 昌吉回族自治州
  • 新疆维吾尔自治区

  • 自治区直辖县级行政区划
  • 新疆维吾尔自治区

  • 阿克苏地区
  • 新疆维吾尔自治区

  • 阿勒泰地区
  • 江苏省

  • 南京市
  • 江苏省

  • 南通市
  • 江苏省

  • 宿迁市
  • 江苏省

  • 常州市
  • 江苏省

  • 徐州市
  • 江苏省

  • 扬州市
  • 江苏省

  • 无锡市
  • 江苏省

  • 泰州市
  • 江苏省

  • 淮安市
  • 江苏省

  • 盐城市
  • 江苏省

  • 苏州市
  • 江苏省

  • 连云港市
  • 江苏省

  • 镇江市
  • 江西省

  • 上饶市
  • 江西省

  • 九江市
  • 江西省

  • 南昌市
  • 江西省

  • 吉安市
  • 江西省

  • 宜春市
  • 江西省

  • 抚州市
  • 江西省

  • 新余市
  • 江西省

  • 景德镇市
  • 江西省

  • 萍乡市
  • 江西省

  • 赣州市
  • 江西省

  • 鹰潭市
  • 河北省

  • 保定市
  • 河北省

  • 唐山市
  • 河北省

  • 廊坊市
  • 河北省

  • 张家口市
  • 河北省

  • 承德市
  • 河北省

  • 沧州市
  • 河北省

  • 石家庄市
  • 河北省

  • 秦皇岛市
  • 河北省

  • 衡水市
  • 河北省

  • 邢台市
  • 河北省

  • 邯郸市
  • 河南省

  • 三门峡市
  • 河南省

  • 信阳市
  • 河南省

  • 南阳市
  • 河南省

  • 周口市
  • 河南省

  • 商丘市
  • 河南省

  • 安阳市
  • 河南省

  • 平顶山市
  • 河南省

  • 开封市
  • 河南省

  • 新乡市
  • 河南省

  • 洛阳市
  • 河南省

  • 漯河市
  • 河南省

  • 濮阳市
  • 河南省

  • 焦作市
  • 河南省

  • 省直辖县级行政区划
  • 河南省

  • 许昌市
  • 河南省

  • 郑州市
  • 河南省

  • 驻马店市
  • 河南省

  • 鹤壁市
  • 浙江省

  • 丽水市
  • 浙江省

  • 台州市
  • 浙江省

  • 嘉兴市
  • 浙江省

  • 宁波市
  • 浙江省

  • 杭州市
  • 浙江省

  • 温州市
  • 浙江省

  • 湖州市
  • 浙江省

  • 绍兴市
  • 浙江省

  • 舟山市
  • 浙江省

  • 衢州市
  • 浙江省

  • 金华市
  • 海南省

  • 三亚市
  • 海南省

  • 三沙市
  • 海南省

  • 儋州市
  • 海南省

  • 海口市
  • 海南省

  • 省直辖县级行政区划
  • 湖北省

  • 十堰市
  • 湖北省

  • 咸宁市
  • 湖北省

  • 孝感市
  • 湖北省

  • 宜昌市
  • 湖北省

  • 恩施土家族苗族自治州
  • 湖北省

  • 武汉市
  • 湖北省

  • 省直辖县级行政区划
  • 湖北省

  • 荆州市
  • 湖北省

  • 荆门市
  • 湖北省

  • 襄阳市
  • 湖北省

  • 鄂州市
  • 湖北省

  • 随州市
  • 湖北省

  • 黄冈市
  • 湖北省

  • 黄石市
  • 湖南省

  • 娄底市
  • 湖南省

  • 岳阳市
  • 湖南省

  • 常德市
  • 湖南省

  • 张家界市
  • 湖南省

  • 怀化市
  • 湖南省

  • 株洲市
  • 湖南省

  • 永州市
  • 湖南省

  • 湘潭市
  • 湖南省

  • 湘西土家族苗族自治州
  • 湖南省

  • 益阳市
  • 湖南省

  • 衡阳市
  • 湖南省

  • 邵阳市
  • 湖南省

  • 郴州市
  • 湖南省

  • 长沙市
  • 甘肃省

  • 临夏回族自治州
  • 甘肃省

  • 兰州市
  • 甘肃省

  • 嘉峪关市
  • 甘肃省

  • 天水市
  • 甘肃省

  • 定西市
  • 甘肃省

  • 平凉市
  • 甘肃省

  • 庆阳市
  • 甘肃省

  • 张掖市
  • 甘肃省

  • 武威市
  • 甘肃省

  • 甘南藏族自治州
  • 甘肃省

  • 白银市
  • 甘肃省

  • 酒泉市
  • 甘肃省

  • 金昌市
  • 甘肃省

  • 陇南市
  • 福建省

  • 三明市
  • 福建省

  • 南平市
  • 福建省

  • 厦门市
  • 福建省

  • 宁德市
  • 福建省

  • 泉州市
  • 福建省

  • 漳州市
  • 福建省

  • 福州市
  • 福建省

  • 莆田市
  • 福建省

  • 龙岩市
  • 西藏自治区

  • 山南市
  • 西藏自治区

  • 拉萨市
  • 西藏自治区

  • 日喀则市
  • 西藏自治区

  • 昌都市
  • 西藏自治区

  • 林芝市
  • 西藏自治区

  • 那曲市
  • 西藏自治区

  • 阿里地区
  • 贵州省

  • 六盘水市
  • 贵州省

  • 安顺市
  • 贵州省

  • 毕节市
  • 贵州省

  • 贵阳市
  • 贵州省

  • 遵义市
  • 贵州省

  • 铜仁市
  • 贵州省

  • 黔东南苗族侗族自治州
  • 贵州省

  • 黔南布依族苗族自治州
  • 贵州省

  • 黔西南布依族苗族自治州
  • 辽宁省

  • 丹东市
  • 辽宁省

  • 大连市
  • 辽宁省

  • 抚顺市
  • 辽宁省

  • 朝阳市
  • 辽宁省

  • 本溪市
  • 辽宁省

  • 沈阳市
  • 辽宁省

  • 盘锦市
  • 辽宁省

  • 营口市
  • 辽宁省

  • 葫芦岛市
  • 辽宁省

  • 辽阳市
  • 辽宁省

  • 铁岭市
  • 辽宁省

  • 锦州市
  • 辽宁省

  • 阜新市
  • 辽宁省

  • 鞍山市
  • 重庆市

  • 重庆市

  • 市辖区
  • 陕西省

  • 咸阳市
  • 陕西省

  • 商洛市
  • 陕西省

  • 安康市
  • 陕西省

  • 宝鸡市
  • 陕西省

  • 延安市
  • 陕西省

  • 榆林市
  • 陕西省

  • 汉中市
  • 陕西省

  • 渭南市
  • 陕西省

  • 西安市
  • 陕西省

  • 铜川市
  • 青海省

  • 果洛藏族自治州
  • 青海省

  • 海东市
  • 青海省

  • 海北藏族自治州
  • 青海省

  • 海南藏族自治州
  • 青海省

  • 海西蒙古族藏族自治州
  • 青海省

  • 玉树藏族自治州
  • 青海省

  • 西宁市
  • 青海省

  • 黄南藏族自治州
  • 黑龙江省

  • 七台河市
  • 黑龙江省

  • 伊春市
  • 黑龙江省

  • 佳木斯市
  • 黑龙江省

  • 双鸭山市
  • 黑龙江省

  • 哈尔滨市
  • 黑龙江省

  • 大兴安岭地区
  • 黑龙江省

  • 大庆市
  • 黑龙江省

  • 牡丹江市
  • 黑龙江省

  • 绥化市
  • 黑龙江省

  • 鸡西市
  • 黑龙江省

  • 鹤岗市
  • 黑龙江省

  • 黑河市
  • 黑龙江省

  • 齐齐哈尔市