Este problema se divide en algunos subproblemas desde el punto de vista de aprendizaje automático.
En primer lugar, querrá saber en qué propiedades de las historias de noticias desea agrupar. Una técnica común es usar 'word bags': solo una lista de las palabras que aparecen en el cuerpo de la historia o en el título. Puede hacer un procesamiento adicional, como eliminar el inglés común "stop words" que no proporciona ningún significado, como "el", "porque". Incluso puede hacer porter stemming para eliminar redundancias con palabras en plural y terminaciones de palabras como "-ion". Esta lista de palabras es el vector de características de cada documento y se usará para medir la similitud. Es posible que tenga que realizar un preprocesamiento para eliminar el marcado HTML.
En segundo lugar, debe definir una métrica de similitud: las historias similares tienen una puntuación alta en similitud. Siguiendo con el enfoque de la bolsa de palabras, dos historias son similares si tienen palabras similares en ellas (estoy siendo vago aquí, porque hay muchas cosas que puedes probar, y tendrás que ver cuál funciona mejor).
Finalmente, puede usar un algoritmo de clúster clásico, como k-means clustering, que agrupa las historias juntas, según la métrica de similitud.
En resumen: convierta una noticia en un vector de características -> defina una métrica de similitud basada en este vector de características -> agrupamiento no supervisado.
Echa un vistazo Google scholar, probablemente haya algunos artículos sobre este tema específico en la literatura reciente. Muchas de estas cosas que acabo de comentar se implementan en los módulos de procesamiento de lenguaje natural y aprendizaje automático para la mayoría de los idiomas principales.
¡Gran respuesta! Esto es exactamente lo que estaba buscando. Pregunta de seguimiento rápido. Si estuviera buscando un desarrollador con estos conjuntos de habilidades, ¿qué tipo de cosas debería pedir? Ni siquiera sé cómo se llama este campo de estudio. – Randy
Busque un estudiante de informática que haya tomado una clase o haya tenido experiencia con el "procesamiento del lenguaje natural" o el "aprendizaje automático". Tu pregunta fue muy fácil de responder en un contexto de aprendizaje automático, así que solo pregúntales cómo implementarían algo que agrupe las noticias. Además, los proyectos como este no siempre funcionan porque hay toneladas de cosas que pueden exprimirse en ML y PNL, pero cuando funciona, es bastante asombroso. –