Estoy intentando seguir el Wikipedia Article on latent semantic indexing en Python usando el siguiente código:análisis semántico latente en discrepancia Python
documentTermMatrix = array([[ 0., 1., 0., 1., 1., 0., 1.],
[ 0., 1., 1., 0., 0., 0., 0.],
[ 0., 0., 0., 0., 0., 1., 1.],
[ 0., 0., 0., 1., 0., 0., 0.],
[ 0., 1., 1., 0., 0., 0., 0.],
[ 1., 0., 0., 1., 0., 0., 0.],
[ 0., 0., 0., 0., 1., 1., 0.],
[ 0., 0., 1., 1., 0., 0., 0.],
[ 1., 0., 0., 1., 0., 0., 0.]])
u,s,vt = linalg.svd(documentTermMatrix, full_matrices=False)
sigma = diag(s)
## remove extra dimensions...
numberOfDimensions = 4
for i in range(4, len(sigma) -1):
sigma[i][i] = 0
queryVector = array([[ 0.], # same as first column in documentTermMatrix
[ 0.],
[ 0.],
[ 0.],
[ 0.],
[ 1.],
[ 0.],
[ 0.],
[ 1.]])
como las matemáticas que dice que debe trabajar:
dtMatrixToQueryAgainst = dot(u, dot(s,vt))
queryVector = dot(inv(s), dot(transpose(u), queryVector))
similarityToFirst = cosineDistance(queryVector, dtMatrixToQueryAgainst[:,0]
# gives 'matrices are not aligned' error. should be 1 because they're the same
Lo que hace el trabajo, con las matemáticas que se ve incorrecto: (de here)
dtMatrixToQueryAgainst = dot(s, vt)
queryVector = dot(transpose(u), queryVector)
similarityToFirst = cosineDistance(queryVector, dtMatrixToQueryAgainsst[:,0])
# gives 1, which is correct
¿Por qué rou te trabajo, y el primero no, cuando todo lo que puedo encontrar sobre las matemáticas de LSA muestra el primero como correcto? Siento que estoy perdiendo algo obvio ...
¿Qué implica '## eliminar dimensiones adicionales ...'? – Avaris
editado para mostrar la reducción de rango – Jmjmh
en 'u, s, vt = linalg.svd (a, full_matrices = False)', ¿de dónde viene 'a' desde ??? – Oerd