Perl o python son las opciones obvias, depende de lo que más te convenga realmente al final del día. Tampoco son tan difíciles, pero en general si encuentras que prefieres un lenguaje lingüístico fluido que sea realmente flexible, perl te iría mejor, donde como si prefirieras un lenguaje más rígido con una mentalidad más matemática (especialmente al creer que solo hay una forma de hacer algo bien) entonces probablemente te sientas más como en casa en Python. Otros lenguajes pueden hacer el trabajo bastante bien, pero esos dos son opciones obvias debido a la portabilidad y la fortaleza de los lenguajes para las tareas de creación de scripts CLI, especialmente la manipulación de texto, además de ser sólidos lenguajes webdev que conducen a una gran cantidad de módulos útiles disponibles para tareas orientadas a web (dando el beneficio de php mencionado, pero sin los aspectos negativos de php para el cliente). Si hay un gran número de módulos útiles disponibles para ti, entonces perl tiene cantidades masivas para este tipo de tarea que cualquier otro idioma (en CPAN), vale la pena verificar si hay código que puedas volver a usar antes de tomar el sumergirse en el idioma que utilizará. En ciertas áreas, uno es más rápido que el otro (python generalmente sobresale en matemáticas complejas, perl generalmente puede procesar texto más rápido, sin embargo depende de cómo lo hagas).
Existen otras opciones de idioma, un lenguaje compilado es menos portátil y, por lo general, más difícil de configurar en un servidor, sin embargo, se ejecuta más rápido. Los lenguajes de scripting generalmente están diseñados para manipular texto y archivos con mayor facilidad que los lenguajes compilados, aunque no siempre son ciertos. Me siento más cómodo con Perl, así que lo usaría, pero yo le digo que esa no es la base sobre la que debe tomar una decisión, descubra cuál tiene más recursos que puede usar y cuál le gusta más a la sensación (lea algunos codifique qué estilo tiene más sentido para usted) y luego decida.
Oh y, por supuesto, tengo un libro sobre programación de inteligencia colectiva dirigido a principiantes sobre el tema, nunca lo leí pero se supone que es bastante bueno, hojeándolo en una tienda y considero que se trata principalmente de web -Los algoritmos del navegador ... Utiliza Python para ejemplos.
los sitios web no pueden protegerse contra los rastreadores, pero los rastreadores están obligados a obedecer el Protocolo de exclusión de robots, y los clientes tienen el honor de cumplir con los términos de servicio de cualquier sitio web. –
Estoy de acuerdo contigo. – alamar
La mayoría de las cosas en la web muestran Java para la programación de rastreadores. ¿Es Java demasiado complicado? o cuál es el problema con eso? – Alex