假如新闻X和新闻Y对应向量分别是x1, x2, ..., xny1, y2, ..., yn

那么它们夹角的余弦等于

$cosQ = \frac{x_{1} \times y_{1} + x_{2} \times y_{2} + … + x_{n} \times y_{n}} {\sqrt{(x_{1}) ^ 2 + (x_{2}) ^ 2 + (x_{n}) ^ 2} \times \sqrt{(y_{1}) ^ 2 + (y_{2}) ^ 2 + (y_{n}) ^ 2}}$

文本相似度计算的处理流程是

  1. 对所有文章进行分词
  2. 分词的同时计算各个词的TF
  3. 所有文章分词完毕后计算IDF
  4. 生成每篇文章对应的n维向量(n是切分出来的词数,向量的项就是各个词的TF-IDF值)
  5. 对文章的向量两篇代入余弦定理公式计算,得出的cos值就是它们之间的相似度了,值越大就表示越相似。
  • TF/IDF——计算“词”的重要性
  • TF——代表一个词在一篇文章中出现的次数,次数越多,这个词就越重要。
  • IDF——代表一个词在整个库中出现的次数,次数越多,这个词就越不重要。(如“的”)