Python 3 Obtener página HTTP

¿Cómo puedo obtener Python para obtener el contenido de una página HTTP? Hasta ahora, todo lo que tengo es la solicitud y he importado http.client.Python 3 Obtener página HTTP

Fuente

2010-01-07 BiscottiGummyBears

usando urllib.request es probablemente la forma más sencilla de hacerlo:

import urllib.request 
f = urllib.request.urlopen("http://stackoverflow.com") 
print(f.read())

Fuente

2010-01-07 21:48:08

Intenté eso y obtuve el objeto "AttributeError: 'module' no tiene ningún atributo 'urlopen'" – BiscottiGummyBears

En realidad, el módulo correcto para importar es urllib2. –

Lo siento, me di cuenta de que estaba usando Python 3. He actualizado mi ejemplo para que coincida. –

añadir este código que puede formatear los datos para la lectura humana:

text = f.read().decode('utf-8')

Fuente

2015-10-15 07:53:13 SKGoC

También puede utilizar la biblioteca de solicitudes. Encontré esto particularmente útil porque era más fácil recuperar y mostrar el encabezado HTTP.

import requests 

source = 'http://www.pythonlearn.com/code/intro-short.txt' 

r = requests.get(source) 

print('Display actual page\n') 
for line in r: 
    print (line.strip()) 

print('\nDisplay all headers\n') 
print(r.headers)

Fuente

2016-05-18 06:04:34 dimsum88

¿Es este Python 3? –

¿Esto funcionará para Python 3? –

Uso integrado en el módulo "http.client"

import http.client 

connection = http.client.HTTPSConnection("api.bitbucket.org", timeout=2) 
connection.request('GET', '/2.0/repositories') 
response = connection.getresponse() 
print('{} {} - a response on a GET request by using "http.client"'.format(response.status, response.reason)) 
content = response.read().decode('utf-8') 
print(content[:100], '...')

Resultado:

200 OK - a response on a GET request by using "http.client" {"pagelen": 10, "values": [{"scm": "hg", "website": "", "has_wiki": true, "name": "tweakmsg", "links ...

uso de la biblioteca de terceros "peticiones"

response = requests.get("https://api.bitbucket.org/2.0/repositories") 
print('{} {} - a response on a GET request by using "requests"'.format(response.status_code, response.reason)) 
content = response.content.decode('utf-8') 
print(content[:100], '...')

Resultado:

200 OK - a response on a GET request by using "http.client" {"pagelen": 10, "values": [{"scm": "hg", "website": "", "has_wiki": true, "name": "tweakmsg", "links ...

Uso integrado en el módulo "urllib.request"

response = urllib.request.urlopen("https://api.bitbucket.org/2.0/repositories") 
print('{} {} - a response on a GET request by using "urllib.request"'.format(response.status, response.reason)) 
content = response.read().decode('utf-8') 
print(content[:100], '...')

Resultado:

200 OK - a response on a GET request by using "http.client" {"pagelen": 10, "values": [{"scm": "hg", "website": "", "has_wiki": true, "name": "tweakmsg", "links ...

Notas:

Python 3.4
resultado de las respuestas más probable que se diferencian sólo el contenido

Fuente

2016-12-17 08:57:38

https://stackoverflow.com/a/41862742/8501970 mira esto en su lugar. Es sobre el mismo problema que tiene y este es muy simple y muy pocas líneas de códigos. Esto me ayudó cuando me di cuenta de que python3 no puede usar simplemente get_page.

Esta es una buena alternativa. (espero que esto ayude, ¡salud!)

Fuente

2017-10-21 20:23:21

Python 3 Obtener página HTTP

Respuesta

Cuestiones relacionadas