4.2 命名实体识别
4.1.1 词性标注简介
4.1.2 词性标注规范
4.1.3 基于条件随机场的词性标注
-
特征函数
- 它接受四个参数
- 句子s
- i,用来表示句子s中的第i个单词
- li,表示要评分的标注序列给第i个单词标注的词性
- li-1,表示要评分的标注序列给第i-1个单词标注的词性
- 它的输出值是0或者1
- 0 表示不符合这个特征
- 1 表示要评分的标注序列符合这个特征
- 它接受四个参数
-
从特征函数到概率
- 定义好一组特征函数后,我们要给每个特征函数fj赋予一个权重λj。
- 现在,只要有一个句子s,有一个标注序列l,我们就可以利用前面定义的特征函数集来对l评分。
- 下式中有两个求和,外面的求和用来求每一个特征函数fj评分值的和,里面的求和用来求句子中每个位置的单词的的特征值的和。
- 得分公式如下
- 对这个分数进行指数化和标准化,我们就可以得到标注序列l的概率值p(l|s),如下所示:
-
总结
- 为了建一个条件随机场,我们首先要定义一个特征函数集,每个特征函数都以整个句子s,当前位置i,位置i和i-1的标签为输入
- 然后为每一个特征函数赋予一个权重
- 然后针对每一个标注序列l,对所有的特征函数加权求和
- 必要的话,可以把求和的值转化为一个概率值