首页 > 数据科学 NLP自然语言处理相关一些知识点汇集<一> 2024-08-16 15:53:31

自然语言处理( Natural Language Processing, NLP)是计算机科学领域与人工智能领域中的一个重要方向。它研究能实现人与计算机之间用自然语言进行有效通信的各种理论和方法。自然语言处理是一门融语言学、计算机科学、数学于一体的科学。因此, 这一领域的研究将涉及自然语言, 即人们日常使用的语言, 所以它与语言学的研究有着密切的联系, 但又有重要的区别。自然语言处理并不是一般地研究自然语言, 而在于研制能有效地实现自然语言通信的计算机系统, 特别是其中的软件系统。因而它是计算机科学的一部分。

自然语言处理主要应用于机器翻译、舆情监测、自动摘要、观点提取、文本分类、问题回答、文本语义对比、语音识别、中文OCR等方面。

1. 一些概念

1.1 基本术语

分词: segment
词性标注: part-of-speech tagging
词性, 也称为词类, 式词汇的语法属性, 是连接词汇到句法的桥梁。现代汉语的词可以分为两类12种词性(一说是14种)。
命名实体识别: NER, Named Entity Recognition
又称"专名识别", 它的主要任务是对于一篇待处理文本, 识别出其中出现的人名、地名、组织机构名、日期、时间、百分数、货币这7类命名实体。
语义块: 可用于知识库的实体关系抽取
句法分析: syntax parsing
指代消解: anaphora resolution
情感识别: emotion recognition
纠错: correction(N-Gram, 字典树, 有限状态机)
问答系统: QA system

1.2 汉语词性对照表[北大标准/中科院标准]

词性编码	词性名称	注解
Ag	形语素	形容词性语素。形容词代码为 a, 语素代码g前面置以A。
a	形容词	取英语形容词 adjective的第1个字母。
ad	副形词	直接作状语的形容词。形容词代码 a和副词代码d并在一起。
an	名形词	具有名词功能的形容词。形容词代码 a和名词代码n并在一起。
b	区别词	取汉字"别"的声母。
c	连词	取英语连词 conjunction的第1个字母。
dg	副语素	副词性语素。副词代码为 d, 语素代码g前面置以D。
d	副词	取 adverb的第2个字母, 因其第1个字母已用于形容词。
e	叹词	取英语叹词 exclamation的第1个字母。
f	方位词	取汉字"方"
g	语素	绝大多数语素都能作为合成词的"词根", 取汉字"根"的声母。
h	前接成分	取英语 head的第1个字母。
i	成语	取英语成语 idiom的第1个字母。
j	简称略语	取汉字"简"的声母。
k	后接成分
l	习用语	习用语尚未成为成语, 有点"临时性", 取"临"的声母。
m	数词	取英语 numeral的第3个字母, n, u已有他用。
Ng	名语素	名词性语素。名词代码为 n, 语素代码g前面置以N。
n	名词	取英语名词 noun的第1个字母。
nr	人名	名词代码 n和"人(ren)“的声母并在一起。
ns	地名	名词代码 n和处所词代码s并在一起。
nt	机构团体	“团"的声母为 t, 名词代码n和t并在一起。
nz	其他专名	“专"的声母的第 1个字母为z, 名词代码n和z并在一起。
nx	专名字母	英文单词均被标为nx。
o	拟声词	取英语拟声词 onomatopoeia的第1个字母。
p	介词	取英语介词 prepositional的第1个字母。
q	量词	取英语 quantity的第1个字母。
qg	量词
r	代词	取英语代词 pronoun的第2个字母,因p已用于介词。
s	处所词	取英语 space的第1个字母。
tg	时语素	时间词性语素。时间词代码为 t,在语素的代码g前面置以T。
t	时间词	取英语 time的第1个字母。
u	助词	取英语助词 auxiliary
vg	动语素	动词性语素。动词代码为 v。在语素的代码g前面置以V。
v	动词	取英语动词 verb的第一个字母。
vd	副动词	直接作状语的动词。动词和副词的代码并在一起。
vn	名动词	指具有名词功能的动词。动词和名词的代码并在一起。
w	标点符号
x	非语素字	非语素字只是一个符号, 字母 x通常用于代表未知数、符号。
y	语气词	取汉字"语"的声母。
z	状态词	取汉字"状"的声母的前一个字母。
un	未知词	不可识别词及用户自定义词组。取英文Unkonwn首两个字母。(非北大标准, CSW分词中定义)

1.3 宾州树库(PENN Treebank)

1.3.1 汉语词性标注规范

词性标记	英文名称	中文名称	例子
AD	adverbs	副词	“还”
AS	Aspect marker	体标记	了, 着, 过
BA	in ba-const	把/将	把, 将
CC	Coordinating conjunction	并列连词	“和”, “与”, “或”, “或者”
CD	Cardinal numbers	数词	“一百”
CS	Subordinating conj	从属连词	若, 如果, 如
DEC	for relative-clause etc	标句词, 关系从句"的”	我买"的"书
DEG	Associative	所有格/联结作用"的”	我"的"书
DER	in V-de construction,and V-de-R	V得, 表示结果补语的"得”	跑"得"气喘吁吁
DEV	before VP	表示方式状语的"地"	高兴/VA 地/DEV 说/VV
DT	Determiner	限定词	这
ETC	Tag for words in coordination phrase	“等”, “等等”	科技文教等/ETC 领域
FW	Foreign words	外语词	ISO
IJ	interjection	感叹词	啊
JJ	Noun-modifier other than nouns	其他名词修饰语	共同/JJ 的/DEG 目的/NN 她/PN 是/VC 女/JJ 的/DEG
LB	in long bei-construction	长"被"	“被"他打了
LC	Localizer	方位词	桌子"上”
M	Measure word	量词	一"间"房子
MSP	Some particles	其他结构助词	他/PN 所/MSP 需要/VV 的/DEC。所, 而, 以
NN	Common nouns	其他名词, 普通名词	桌子
NR	Proper nouns	专有名词	北京
NT	Temporal nouns	时间名词	一月, 汉朝
OD	Ordinal numbers	序数词	第一
ON	Onomatopoeia	拟声词	“哗啦啦”
P	Prepositions	介词	“在”
PN	pronouns	代词	“你”, “我”, “他”
PU	Punctuations	标点	, 。
SB	in short bei-construction	短"被"	他"被"/SB 训了/AS 一顿/M
SP	Sentence-final particle	句末助词	他好吧/SP
VA	Predicative adjective	谓语形容词	花很红/VA 红彤彤雪白丰富
VC	Copula	系动词	“是”, “为”, “非”
VE	as the main verb	“有"作为主要动词	“有”, “无”
VV	Other verbs	其他动词, 普通动词	走, 可能, 喜欢

1.3.2 汉语短语类别表

标注	英文说明	中文说明
ADJP	Adjective phrase	形容词短语, 由JJ投射
ADVP	Adverbial phrase headed by AD	由副词开头的副词短语、状语
CLP	Classifier phrase	量词短语
CP	Clause headed by C(complementizer)	由补语引导的补语从句, 关系从句
DNP	Phrase formed by “XP+DEG”	XP+DEG结构构成的短语
DP	Determiner phrease	限定词短语
DVP	Phrase formed BY “XP+DEB”	XP+DEV结构构成的短语
FRAG	fragment	片段
IP	InflectionPhrase	Simple clause headed by I(INFL或其他曲折成份)
LCP	Phrase formed by “XP+LC”	处所词为中心语的短语
LST	List marker	用于解释说明性的列表标记短语
NP	Noun phrase	名词短语
PP	Preposition phrase	介词短语
PRN	Parenthetical	插入语
QP	Quantifier phrase	数词短语, 由数量词构成的短语结构
UCP	Unidentical coordination phrase	非一致性并列短语
VP	Verb phrase	动词短语

1.3.3 空范畴标记

标记	英文解释	中文解释
OP	operator	在relative constructions相关结构中的操作符
pro	dropped argument	丢掉的论元
PRO	used in control structures	在受控结构中使用
RNR	right node raising	右部节点提升的空范畴
T	trace of A’-movement	A’移动的虚迹, 话题化
*	trace of A-movement	A移动的虚迹
?	other unknown empty categories	其他未知的空范畴

1.4 LTP

1.4.1 依存句法关系

关系类型	Tag	Description	Example
主谓关系	SBV	subject-verb	我送她一束花 (我 <- 送)
动宾关系	VOB	直接宾语, verb-object	我送她一束花 (送 -> 花)
间宾关系	IOB	间接宾语, indirect-object	我送她一束花 (送 -> 她)
前置宾语	FOB	前置宾语, fronting-object	他什么书都读 (书 <- 读)
兼语	DBL	double	他请我吃饭 (请 -> 我)
定中关系	ATT	attribute	红苹果 (红 <- 苹果)
状中结构	ADV	adverbial	非常美丽 (非常 <- 美丽)
动补结构	CMP	complement	做完了作业 (做 -> 完)
并列关系	COO	coordinate	大山和大海 (大山 -> 大海)
介宾关系	POB	preposition-object	在贸易区内 (在 -> 内)
左附加关系	LAD	left adjunct	大山和大海 (和 <- 大海)
右附加关系	RAD	right adjunct	孩子们 (孩子 -> 们)
独立结构	IS	independent structure	两个单句在结构上彼此独立
核心关系	HED	head	指整个句子的核心

1.5 信息熵概念与公式

1.6 主要概率图模型

朴素贝叶斯模型(NB)
隐马尔科夫模型(HMM)
最大熵模型(ME)
条件随机场(CRF, Conditional Random Fields)
可以把条件随机场看成一个无向图模型或马尔科夫随机场, 它是一种用来标记和切分序列化数据的统计模型。

主要概率图模型中的关系:

判别式模型和产生式模型的区别与联系:

隐喻识别系统结构图:

Word2Vec 神经网络架构:

2. 应用

2.1 应用领域

机器翻译
情感分析
智能问答
文摘生成
文本分类
舆论分析
知识图谱: 知识点相互连接而成的语义网络

高频词提取其实就是自然语言处理中的TF(Term Frequency)策略.

2.2

nltk
word2vec
Jieba
ChunkLinkCTB
CRF++(crfpp)
CRFsuite
semi-CRF 算法: 组织机构识别
层叠式隐马尔科夫模型: Cascaded HMM, Cascaded Hidden Markov Model
Aho-Corasick 算法: 一个基于确定有限状态自动机快速模式匹配算法
转换生成语法
依存句法理论:
- 句法依存
- 语义依存
配价理论
PCFG(即 Probabilistic CFG, 也称为Stochastic CFG)算法: 基于概率图模型
LSTM 算法
Viterbi 算法
NShort 算法
DBPedit
CorMet 模型
梯度下降法: 一般作为最优化问题的一种求解方法, 是求解无约束多元函数极值的最早的数值方法。
循环神经网络, Recurrent Neural Networks RNNs
Caffe(C++)
Torch(Lua)
Tensorflow(C++, Python)
Gensim: 用于从原始的非结构化的文本中, 无监督地学习到文本隐层的主题向量表达。它支持包括TF-IDF、LSA、LDA和word2vec在内的多种主题模型算法, 支持流式训练, 并提供了诸如相似度计算, 信息检索等一些常用任务的API接口。

2.3 中文分词

规则分词: 正向最大匹配法, 逆向最大匹配法, 已经双向最大匹配法
统计分词: HMM, CRF, 或者深度学习
混合分词

2.4 长句切分

长句切分为单句最有效的算法是支持向量机(SVM)分类器。支持向量机是一种基于统计学习理论的常用机器学习算法之一, 具有较好的推广能力和非线性处理能力, 尤其在处理高维数据时, 有效地解决了“维数灾难”问题, 在人脸检测、网页分类、手写体数字识别、图像检索等领域应用广泛。

Libsvm

2.4.1 分类器所使用的特征

特征	描述	特征	描述
Jen	片段长度是否大于4	shi	是否含有“是”
vg	是否含有一般动词	you	是否含有“有”
vx	是否含有系动词	zhe	是否含有“着、了、过”
vt	是否含有及物动词	vg_n	是否含有动宾搭配
VI	是否含有不及物动词	p_nd	是否有介词和方位词的组合
nd	末尾是否为方位名词	tagl	第一个词的词性
de	是否含有“的”	tag_l	最后一个词的词性
lei	是否含有“得”	punct	片段末尾的标点

2.4.2 片段之间的依存关系类型

关系类型	描述	关系类型	描述
IC	独立分句	vv	连动结构
SBV	主谓结构	ADV	状中结构
VOB	动宾结构	CNJ	关联结构

2.5 关键词提取

2.5.1 相关算法

TF-IDF 算法(Term Frequency-Inverse Document Frequency, 词频-逆文档频次算法)
一种基于统计的计算方法, 常用于评估在一个文档集中一个词对某份文档的重要程度。
TextRank 算法: 最早用于文档的自动摘要, 基于句子纬度的分析, 利用TextRank对每个句子镜像打分, 挑选出分数最高的n个句子作为文档的关键词, 以达到自动摘要的效果。TextRank算法的基本思想来源于Google的PageRank 算法。
主题模型算法(包括LSA、LSI、LDA等)
LSA 主要是采用SVD(奇异值分解)的方法进行暴力破解, 而LDA则是通过贝叶斯学派的方法对分布信息进行拟合。
- LSA: Latent Semantic Analysis, 潜在语义分析
- LSI: Latent Semantic Index, 潜在语义索引
- LDA: Latent Dirichlet Allocation, 隐含狄利克雷分布

2.6 句法分析

统计句法分析模型本质是一套面向候选树的评价方法, 其会给正确的句法树赋予一个较高的分值, 而给不合理的句法树赋予一个较低的分值, 这样就可以借用候选句法树的分值进行消歧。

2.6.1 PCFG

PCFG(Probabilistic Context Free Grammar), 是基于概率的短语结构分析方法, 也可以认为是规则方法与统计方法的结合。

基于单纯PCFG的句法分析方法
基于词汇化的PCFG的句法分析方法
基于子类划分PCFG的句法分析方法

2.6.2 基于最大间隔马尔科夫网络的句法分析

fₓ(x) = arg maxᵧ∈G(x)<w, ∮(x,y)>

2.6.3 基于CRF的句法分析

CRF, 条件数据场。CRF模型最大化的是句法树的条件概率值而不是联合概率值, 并且对概率进行归一化。

2.6.4 基于移进-归约的句法分析模型

Shift-Reduce Algorithm, 移进-归约方法是一种自下而上的方法。其从输入串开始, 逐步进行"归约”, 直至归约到文法的开始符号。

2.6.5 句法分析评测

PARSEVAL 评测体系, 主要指标有准确率、召回率、交叉括号数。

3. 语料OR语义库

3.1 中文分词语料库

PFR 语料库: 1998年人民日报标注语料库
MSR 语料库: 微软亚洲研究院中文分词语料库
宾州大学 CTB

3.2 语义知识库

WordNet: 普林斯顿大学认知科学实验室George A. Miller 等开发的英语词汇知识库
HowNet(知网): 一个典型的语义场论的知识库体系

3.3 语义角色标注

FrameNet
PropBank
NomBank

3.4 语法树库

PTB, Penn TreeBank: 英文宾州树库
CTB, Chinese TreeBank: 中文宾州树库
TCT, Tsinghua Chinese TreeBank: 清华树库
Sinica TreeBank: 台湾中研院树库

4. Framework

4.1

Haptik
- Knowledge base
- AI recommendations
- Smart variants
Microsoft
- Knowledge Exploration Service
- Language Understanding Intelligent Service (LUIS)
- Azure Translator APIs
Google
- Dialogflow
- Translate API
- Cloud Natural Language API
IBM
- Watson Conversation Service
- Watson Tone Analyzer
Amazon
- Comprehend
- Lex

4.2 Open-source alternatives

4.2.1 NLTK

开源协议: Apache License 2.0

4.2.2 RASA

4.2.3 PyNLPl

4.2.4 Stanford CoreNLP

4.2.5 Baidu paddlenlp

LAC
LAC全称Lexical Analysis of Chinese, 是百度自然语言处理部研发的一款联合的词法分析工具, 实现中文分词、词性标注、专名识别等功能。

4.2.6 spaCy

开源协议: MIT License
https://github.com/explosion/spaCy

Iawen's Blog

风无形，水无势，互联网没有昼夜。趁这些许的闲暇时光，随手采摘或记录着这知识海洋的点点滴滴......

笔记导航

最新笔记

目录