文本分词质量、文本特征评价以及降维处理
词T的质量 = 所有包含词T的文本的词频平方的和 - (所有包含词T的文本的词频和的平方 / 所有文本集合的数量)
(词频f) | 分词1 | 分词2 | 分词3 | 分词4 | 分词5 |
---|---|---|---|---|---|
文档1 | 0 | 2 | 1 | 2 | 1 |
文档2 | 2 | 3 | 1 | 4 | 1 |
文档3 | 3 | 4 | 1 | 0 | 3 |
文档4 | 2 | 2 | 3 | 4 | 5 |
文档5 | 2 | 2 | 0 | 4 | 5 |
分词1的质量q(t1)表示为:
q(t1) = A – B / C A = (2 * 2 + 3 * 3 + 2 * 2 + 2 * 2) = 4 + 9 + 4 + 4 = 21 B = (2 + 3 + 2 + 2) * (2 + 3 + 2 + 2) = 81 C = 4 q(t1) = 21 – 81 / 4 = 0.75