UP | HOME

文本分词质量、文本特征评价以及降维处理

词T的质量 = 所有包含词T的文本的词频平方的和 - (所有包含词T的文本的词频和的平方 / 所有文本集合的数量)
(词频f) 分词1 分词2 分词3 分词4 分词5
文档1 0 2 1 2 1
文档2 2 3 1 4 1
文档3 3 4 1 0 3
文档4 2 2 3 4 5
文档5 2 2 0 4 5

分词1的质量q(t1)表示为:

q(t1) =  A – B / C

A = (2 * 2 + 3 * 3 + 2 * 2 + 2 * 2) = 4 + 9 + 4 + 4 = 21
B = (2 + 3 + 2 + 2) * (2 + 3 + 2 + 2) = 81
C = 4

q(t1) = 21 – 81 / 4 = 0.75

Date: 2019-06-15 Sat 23:50

Author: shixiongfei

Created: 2020-09-05 Sat 14:39

Emacs 27.1 (Org mode 9.3)