¿Qué bibliotecas de crawlers web PHP están disponibles?

Estoy buscando algunos scripts de rastreadores web robustos y bien documentados de PHP. Tal vez un puerto PHP del proyecto Java - http://wiki.apache.org/nutch/NutchTutorial ¿Qué bibliotecas de crawlers web PHP están disponibles?

Estoy buscando versiones gratuitas y no gratuitas.

Fuente

2011-01-30 Jason

Ningún rastreador va a hacer el raspado de datos, eso es algo que tendrá que escribir usted mismo. Y también asegúrese de que lo que está levantando no tenga derechos de autor. –

Posible duplicado de [Mejores métodos para analizar HTML] (http://stackoverflow.com/questions/3577641/best-methods-to-parse-html/3577662#3577662) – Gordon

Duplicados adicionales posibles en http://stackoverflow.com/search? q = web + crawler + php – Gordon

Solo dale una oportunidad a Snoopy.

Extracto: "Snoopy es una clase PHP que simula un navegador web. Automatiza la tarea de recuperar el contenido de la página web y publicar formularios, por ejemplo".

Fuente

2011-01-30 12:06:05 Mimikry

Lo siento, sé que es una publicación anterior, pero la gente sigue leyendo esta respuesta y he votado negativamente porque Snoopy usa Regex para analizar HTML y [no es genial] (http://stackoverflow.com/questions/6751105/why-its-not-possible-to-use-regex-to-parse-html-xml-a-formal-explanation-in- la)... – fernandosavio

Puede usar PHP Simple HTML DOM Parser. Es realmente simple y útil.

Fuente

2011-01-30 10:48:08 Eray

Alternativas sugeridas de terceros a [SimpleHtmlDom] (http://simplehtmldom.sourceforge.net/) que realmente usan [DOM] (http://php.net/manual/en/book.dom.php) en lugar de String Parsing: [phpQuery] (http://code.google.com/p/phpquery/), [Zend_Dom] (http://framework.zend.com/manual/en/zend.dom.html) , [QueryPath] (http://querypath.org/) y [FluentDom] (http://www.fluentdom.org). – Gordon

He estado usando Simple HTML DOM durante aproximadamente 3 años antes de descubrir phpQuery. Es mucho más rápido, no funciona de manera recursiva (en realidad puedes volcarlo) y tiene un soporte completo para los selectores y métodos jQuery.

Fuente

2011-01-30 10:52:17 Kemo

@Gordon No, son selectores jQuery. Desde jQuery.com: "Tomando prestado de CSS 1-3, y luego agregando el suyo propio, jQuery ofrece un poderoso conjunto de herramientas para unir un conjunto de elementos en un documento". – Kemo

Hmm, está bien.Se extienden en selectores de CSS. Supongo que esa es una distinción válida entonces. Lo siento. Casi nunca veo que la gente use nada que no esté en el conjunto de selectores de CSS cuando hablan de los selectores * jQuery *. Lo hacen sonar como jQuery los inventó. – Gordon

@Gordon sí, yo h8 la parte "como nosotros los inventamos" :) Más información en sizzlejs.com – Kemo

-2

Nadie mencionó a wget como un buen punto de partida.

 
wget -r --level=10 -nd http://www.mydomain.com/

Más @http://www.erichynds.com/ubuntulinux/automatically-crawl-a-website-looking-for-errors/

Fuente

2013-02-11 23:41:53 dsomnus

si usted está pensando en un componente base fuerte que darle una oportunidad a http://symfony.com/doc/2.0/components/dom_crawler.html

es sorprendente, teniendo unas características como selector CSS.

Fuente

2013-03-29 20:01:00

https://github.com/fabpot/Goutte es también una buena biblioteca compatible con el estándar psr-0.

Fuente

2013-04-15 09:42:42

No es un tutorial greate here que combina guzzlehttp y symfony/dom-crawler

En caso de que el enlace se pierde aquí es el código que puede hacer uso.

use Guzzle\Http\Client; 
use Symfony\Component\DomCrawler\Crawler; 
use RuntimeException; 

// create http client instance 
$client = new GuzzleHttp\ClientClient('http://download.cloud.com/releases'); 

// create a request 
$response = $client->request('/3.0.6/api_3.0.6/TOC_Domain_Admin.html'); 

// get status code 
$status = $response->getStatusCode(); 

// this is the response body from the requested page (usually html) 
//$result = $response->getBody(); 

// crate crawler instance from body HTML code 
$crawler = new Crawler($response->getBody(true)); 

// apply css selector filter 
$filter = $crawler->filter('div.apismallbullet_box'); 
$result = array(); 

if (iterator_count($filter) > 1) { 

    // iterate over filter results 
    foreach ($filter as $i => $content) { 

     // create crawler instance for result 
     $cralwer = new Crawler($content); 
     // extract the values needed 
     $result[$i] = array(
      'topic' => $crawler->filter('h5')->text(); 
      'className' => trim(str_replace(' ', '', $result[$i]['topic'])) . 'Client' 
     ); 
    } 
} else { 
    throw new RuntimeException('Got empty result processing the dataset!'); 
}

Fuente

2017-01-03 05:30:00

¿Qué bibliotecas de crawlers web PHP están disponibles?

Respuesta

Cuestiones relacionadas