Estoy buscando implementar un indizador simple hacia adelante en PHP. Sí, entiendo que PHP no es la mejor herramienta para la tarea, pero quiero hacerlo de todos modos. El razonamiento detrás de esto es simple: quiero uno, y en PHP.¿Cómo se puede implementar un índice hacia adelante en PHP?
Hagamos algunas suposiciones básicas:
La totalidad Interweb consiste en unos cinco mil HTML y/o documentos de texto plano. Cada documento reside dentro de un dominio particular (UID). No existen otros formatos patentados/arcanos en nuestro imaginario cavemanque Interweb.
El resultado de nuestro algoritmo de indexación hacia adelante basado en PHP debe ser impresionante a lo largo de las líneas de:
UID1 -> index.html -> Helen, ella, era, campeón, con, pecas
UID1 -> foo.html -> pollo, los agricultores, vaya, hogar, comer, ovejas
UID2 -> blah.html -> siguiente, la semana, el, badgerwatch
UID2 -> gah.txt -> uno, uno, y, uno, es, no, numberwang
Idealmente, me gustaría ver soluciones que tengan en cuenta, incluso en su forma más elemental, los conceptos de tokenización/desambiguación de límites de palabras/etiquetado de parte de la voz. Por supuesto, se dan cuenta de esto es una ilusión, y por lo tanto se humilla cualquier intento digno en el análisis de dichos documentos imaginarios por:
- La extracción del material contenido real del texto dentro del documento como una lista de palabras en el orden en que se presentan.
- Todo el tiempo, haciendo caso omiso de cualquier basura como
<script>
y<html>
etiquetas para calcular una lista de UID (que podría ser, por ejemplo, un dominio) seguido por el nombre del documento (el recurso dentro del dominio) y, finalmente, la lista de palabras para ese documento. Me doy cuenta de que las etiquetas HTML juegan un papel importante en la colocación semántica del texto dentro de un documento, pero en esta etapa I no me importa. - Tenga en cuenta una solución que puede construir la lista de palabras MIENTRAS lee el documento es más frío que el que necesita leer en el documento completo primero.
En esta etapa, no me preocupan los dónde o cómo de almacenamiento. Incluso un conjunto rudimentario de declaraciones 'impresas' será suficiente.
Gracias de antemano, espero que esto sea lo suficientemente claro.
+1 para impresionantes textos de muestra – Artelius
¿Es esta su tarea? Parece que solo quieres un simple analizador de archivos ... – Louis
@Lou ¿Tarea? Vamos – karim79