NLP(一):自然语言处理的哲学讨论

2024年8月20日修改
作者:紫气东来
自然语言处理概述
自然语言处理(Natural Language Processing, NLP) 的历史几乎和整个AI 的历史一样长。阿兰·图灵在经典论文《计算智能与机器》中提出的“图灵测验”思想,为日后“行为主义”进路的NLP奠定了理论基调;在 AI 学科的创立大会(1956年的达特茅斯会议)上,NLP则被与会专家们明确列为AI 学科发展的重点领域之一。
按照美国计算机科学家马纳瑞斯(Bill Manaris) 的定义:
自然语言处理可以定义为研究在人与人交际中 以及在人与计算机交际中的语言问题的一门学科。自然语言处理要研制表示语言能力(linguistic competence)和语言应用(linguistic performance)的模型,建立计算框架来实现这样的语言模型,提出相应的方法来不断地完善这样的语言模型,根据这样的语言模型设计各种实用系统,并探讨这些实用系统的评测技术。
目前,NLP 已发展出多个分支,包括:
机器翻译(machine translation, MT) :实现一种语言到另一种 语言的自动翻译 ;
自动文摘(automatic summarizing或automatic abstracting) :将 原文档的主要内容和含义自动归纳、提炼出来,形成摘要或缩写;
信息检索(information retrieval) :信息检索也称情报检索, 就是利用计算机系统从海量文档中找到符合用户需要的相关文档 ;
文档分类(document categorization/classification) : 也称文本分类(text categorization/classification)或信息分类 (information categorization/classification),其目的就是利用计算机系统 对大量的文档按照一定的分类标准(例如,根据主题或内容划分等)实 现自动归类 ;
问答系统(question-answering system) :通过计算机系统对用 户提出的问题的理解,利用自动推理等手段,在有关知识资源中自动求 解答案并做出相应的回答 ;
信息过滤(information filtering) :通过计算机系统自动识别 和过滤那些满足特定条件的文档信息 ;
信息抽取(information extraction) :指从文本中抽取出特定的 事件(event)或事实信息,有时候又称事件抽取(event extraction) ;
文本挖掘(text mining) :有时又称数据挖掘(data mining),是指从文本(多指网络文本)中获取高质量信息的过程 ;
舆情分析(public opinion analysis) :舆情是指在一定的社会 空间内,围绕中介性社会事件的发生、发展和变化,民众对社会管理者 产生和持有的社会政治态度 ;
隐喻计算(metaphorical computation) :“隐喻”就是用乙事物 或其某些特征来描述甲事物的语言现象 ;
文字编辑和自动校对(automatic proofreading) :对文字拼 写、用词,甚至语法、文档格式等进行自动检查、校对和编排;
作文自动评分 :对作文质量和写作水平进行自动评价和打分;
光读字符识别(optical character recognition, OCR) :通过计 算机系统对印刷体或手写体等文字进行自动识别,将其转换成计算机可 以处理的电子文本,简称字符识别或文字识别 ;
语音识别(speech recognition) :将输入计算机的语音信号 识别转换成书面语表示。语音识别也称自动语音识别(automatic speech recognition, ASR) ;
文语转换(text-to-speech conversion) :将书面文本自动转换 成对应的语音表征,又称语音合成(speech synthesis) ;