Calculé los valores de tf/idf de dos documentos. Los siguientes son los valores de las FDI/TF:Similitud de coseno
1.txt
0.0
0.5
2.txt
0.0
0.5
Los documentos son como:
1.txt = > dog cat
2.txt = > cat elephant
¿Cómo puedo usar estos valores para calcular la similitud del coseno?
Sé que debo calcular el producto escalar, luego encontrar la distancia y dividir el producto por él. ¿Cómo puedo calcular esto usando mis valores?
Una pregunta más: ¿Es importante que ambos documentos tengan el mismo número de palabras?
No es éste el más apropiado para http://mathoverflow.net /? –
es una tarea de recuperación de información, no algo que a una persona pura en matemáticas le importaría –
Por favor, deje de recomendar mathoverflow.net - es para preguntas matemáticas serias. –