1 | 词T的质量 = 所有包含词T的文本的词频平方的和 - (所有包含词T的文本的词频和的平方 / 所有文本集合的数量) |
(词频f) | 分词1 | 分词2 | 分词3 | 分词4 | 分词5 |
---|---|---|---|---|---|
文档1 | 0 | 2 | 1 | 2 | 1 |
文档2 | 2 | 3 | 1 | 4 | 1 |
文档3 | 3 | 4 | 1 | 0 | 3 |
文档4 | 2 | 2 | 3 | 4 | 5 |
文档5 | 2 | 2 | 0 | 4 | 5 |
分词1的质量q(t1)表示为:
1 | q(t1) = A – B / C |
1 | 词T的质量 = 所有包含词T的文本的词频平方的和 - (所有包含词T的文本的词频和的平方 / 所有文本集合的数量) |
(词频f) | 分词1 | 分词2 | 分词3 | 分词4 | 分词5 |
---|---|---|---|---|---|
文档1 | 0 | 2 | 1 | 2 | 1 |
文档2 | 2 | 3 | 1 | 4 | 1 |
文档3 | 3 | 4 | 1 | 0 | 3 |
文档4 | 2 | 2 | 3 | 4 | 5 |
文档5 | 2 | 2 | 0 | 4 | 5 |
分词1的质量q(t1)表示为:
1 | q(t1) = A – B / C |