NLP | baozi's page

自然语言

通常是指一种自然地随文化演化的语言。自然语言是人类交流和思维的主要工具，是人类智慧的结晶

自然语言处理

是计算机科学领域与人工智能领域中一个重要的方向。它研究能实现人与计算机之间用自然语言进行有效通信的各种理论和方法

自然语言处理的层次

输入层
文档层
句法分析
语义分析与篇章分析
其他高级任务

自然语言处理的流派

基于规则
基于统计
深度学习

机器学习

机器学习指的是计算机通过某项任务的经验数据提高了在这项任务上的能力

机器学习是让机器学会算法的算法

语料库

语料库是指经科学取样和加工的大规模电子文本库

语料库的分类

中文分词语料库

由人工正确切分后的句子集合

词性标注语料库

切分并为每个词语制定一个磁性的语料

命名实体识别语料库

人工标注了文本内部制作者关心的实体名词以及实体类别

句法分析语料库

文本分类语料库

语料库建设

构建一份语料库的过程

语言模型（Language Model）

语言模型是用来计算一个句子的概率的概率模型

语言模型的作用

决定哪一个词序列的可能性更大
已知若干个词，预测下一个词

语言库模型的应用

语音识别
机器翻译
上下文敏感的拼写检查

大语言模型

定义

是一种人工智能模型，旨在理解和生成人类语言。它们在大量的文本数据上进行训练，可以执行广泛的任务，包括文本总结、翻译、情感分析等。

序列标注问题

序列标注指的是给定一个序列x= x1 x2 x3 x4… 找出序列中每个元素对应的标签y = y1 y2 y3 y4 ….的问题

y所有可能的取值集合称为标注集

常见的序列标注方法

隐马尔可夫模型、条件随机场、深度学习模型

聚类

什么是聚类

指的是将给定对象的集合划分为不同子集的过程

应用

数据预处理

排重

大众化推荐

人工抽查

N-gram语言模型

更大的n：对下一个词出现的约束信息更多，更大的辨别力

更小的n：在训练语料库中出现的次数更多，更可靠的统计结果，更高的可靠性

Transformer

定义

Transformer是一种用于自然语言处理（NLP）和其他序列到序列（sequence-to-sequence）任务的深度学习模型架构。

Transformer模型是一种基于自注意力机制的神经网络模型

Transformer模型主要由两个部分组成：编码器和解码器

序列到序列任务

序列到序列是指将一个序列转换为另一个序列到任务