CS224N笔记1--引入

什么是自然语言处理

  • 自然语言处理(NLP)是计算机科学,人工智能和语言学的交叉学科

  • 目标:让计算机能够处理/理解自然语言,来完成对我们有用的任务,比如:
    完成指定的操作(买东西,打电话);机器翻译;问答系统(Siri,Google Assistant,Facebook M,Cortana)

  • 完全理解并能表述语言的意思的很困难的

  • 自然语言理解是一个AI-Complete问题

NLP层级


自然语言的来源,可以是从声音中获取或者从图像中通过OCR技术获取,或者就是直接的文本。

首先经过形态学分析,再经过句法分析,然后进行语义的理解,最后是篇章处理。

NLP的应用

NLP的应用广泛,从简单到复杂,可以有下面这些:

  • 拼写检查,关键词搜索,同义词查找
  • 从网页中提取有用信息,比如商品的名称,时间,地点,价格等
  • 分类问题:判断书本的难度等级,文章中的观点是积极还是消极
  • 机器翻译
  • 口头对话系统
  • 复杂的问答系统

工业界已经应用的NLP场景

  • 搜索(文本/口语)
  • 在线广告匹配
  • 自动/辅助翻译
  • 针对市场/交易的舆情分析
  • 口语识别,同声传译
  • 对话机器人(售后解答,控制设备,下订单)

人类语言的独特之处

人类的语言系统是精心构造的来表达作者的意思。

是一个独立的/符号的/明确信号的系统。

正是因为是明确的符号,所以可以转换成其他各种形式,比如声音,手势,手写字(图片)。

通过不同的编码,符号会变得很不同。

什么是深度学习

  • 深度学习机器学习的一个子领域

  • 大多数的机器学习算法依赖人工设计的特征和输入特征。

  • 机器学习是通过优化权重到最佳来做出最后的预测。

深度学习与传统机器学习的对比

  • 在实践中机器学习,需要花费大部分的实践针对特定的任务设计特征,这就需要对这个领域有很深的积累,而对于算法就是优化特征上的权重。

  • 深度学习可以自动学习好的特征,并且可以学习到深层次的特征,可以把原始数据输入网络。

为什么选择深度学习

  • 人工设计的特征通常会过拟合,而且设计和验证特征需要花费很长时间
  • 学习到特征可以非常简单的进行调整,快速的学习
  • 深度学习提供了一个很灵活,通用的学习框架来学习语言,图像,声音的信息。
  • 深度学习可以进行无监督(原始文本)和监督学习(有标注好的标签,比如积极/消极)
  • 近年来,深度学习获得了卓越的成绩,主要有几个原因:
  1. 训练数据量增加
  2. 多核CPU/GPU的发展
  3. 新的模型,算法:更好的中间表述,端到端的网络,更好的优化算法
  • 在语音和图像领域的突破,接下来就是NLP