NLP（一）：自然语言处理的哲学讨论

2024年8月20日修改

作者：紫气东来

原文：https://zhuanlan.zhihu.com/p/457857...

自然语言处理概述

自然语言处理(Natural Language Processing, NLP) 的历史几乎和整个AI 的历史一样长。阿兰·图灵在经典论文《计算智能与机器》中提出的“图灵测验”思想，为日后“行为主义”进路的NLP奠定了理论基调；在 AI 学科的创立大会（1956年的达特茅斯会议）上，NLP则被与会专家们明确列为AI 学科发展的重点领域之一。

按照美国计算机科学家马纳瑞斯(Bill Manaris) 的定义：

自然语言处理可以定义为研究在人与人交际中以及在人与计算机交际中的语言问题的一门学科。自然语言处理要研制表示语言能力(linguistic competence)和语言应用(linguistic performance)的模型，建立计算框架来实现这样的语言模型，提出相应的方法来不断地完善这样的语言模型，根据这样的语言模型设计各种实用系统，并探讨这些实用系统的评测技术。

目前，NLP 已发展出多个分支，包括：

•

机器翻译(machine translation, MT) :实现一种语言到另一种语言的自动翻译；

•

自动文摘(automatic summarizing或automatic abstracting) :将原文档的主要内容和含义自动归纳、提炼出来，形成摘要或缩写；

•

信息检索(information retrieval) :信息检索也称情报检索，就是利用计算机系统从海量文档中找到符合用户需要的相关文档；

•

文档分类(document categorization/classification) : 也称文本分类(text categorization/classification)或信息分类 (information categorization/classification)，其目的就是利用计算机系统对大量的文档按照一定的分类标准(例如，根据主题或内容划分等)实现自动归类；

•

问答系统(question-answering system) :通过计算机系统对用户提出的问题的理解，利用自动推理等手段，在有关知识资源中自动求解答案并做出相应的回答；

•

信息过滤(information filtering) :通过计算机系统自动识别和过滤那些满足特定条件的文档信息；

•

信息抽取(information extraction) :指从文本中抽取出特定的事件(event)或事实信息，有时候又称事件抽取(event extraction) ；

•

文本挖掘(text mining) :有时又称数据挖掘(data mining)，是指从文本(多指网络文本)中获取高质量信息的过程；

•

舆情分析(public opinion analysis) :舆情是指在一定的社会空间内，围绕中介性社会事件的发生、发展和变化，民众对社会管理者产生和持有的社会政治态度；

•

隐喻计算(metaphorical computation) :“隐喻”就是用乙事物或其某些特征来描述甲事物的语言现象；

•

文字编辑和自动校对(automatic proofreading) :对文字拼写、用词，甚至语法、文档格式等进行自动检查、校对和编排；

•

作文自动评分 :对作文质量和写作水平进行自动评价和打分；

•

光读字符识别(optical character recognition, OCR) :通过计算机系统对印刷体或手写体等文字进行自动识别，将其转换成计算机可以处理的电子文本，简称字符识别或文字识别；

•

语音识别(speech recognition) :将输入计算机的语音信号识别转换成书面语表示。语音识别也称自动语音识别(automatic speech recognition, ASR) ；

•

文语转换(text-to-speech conversion) :将书面文本自动转换成对应的语音表征，又称语音合成(speech synthesis) ；

NLP（一）：自然语言处理的哲学讨论​

NLP（一）：自然语言处理的哲学讨论