Lecciones del curso
Aprende a programar con Python3
Tips para este bootcamp
4m
Bienvenid@ a la terminal
Shell en tu máquina
Introducción a Git
14m
Creando un repositorio en Github
Clonando un repositorio de Github
Instalando Python
4m
Tu primer script
Cadenas y variables
Métodos y funciones con cadenas
Nuestra primera función
Condicionales
Ciclos
Listas
Tuplas
Diccionarios
Creando archivos
10m
Escribiendo archivos CSV
Leyendo archivos CSV
F-strings
Fechas y tiempos 01/03
Fechas y tiempos 02/03
Fechas y tiempos 03/03
Expresiones Regulares 01/03
Expresiones Regulares 02/03
Expresiones Regulares 03/03
Funciones lambda 01/02
Funciones lambda 02/02
Excepciones
21m
Ambientes Virtuales
12m
AsyncIO - 01
AsyncIO - 02
Scrapping - 01
Scrapping - 02
Bases de Datos - 01
Bases de Datos - 02
Pandas
NumPy
Scraping
¿Cómo podemos obtener la información de un sitio web? Usando Scraping, es la técnica de leer un sitio web y almacenar la información. Cuidado, esta técnica está sujeta a restricciones legales
Usaremos la biblioteca Beautiful Soup para estos ejemplos.
Instalando Beautiful Soup
pip install beautifulsoup4
Script de ejemplo
from bs4 import BeautifulSoup
from urllib.request import urlopen
sitio = urlopen('http://www.python.org/')
contenido = BeautifulSoup(sitio.read(), 'html.parser')
titles = []
widgets = contenido.find_all('div', class_='medium-widget')
for widget in widgets:
title_elem = widget.find('h2', class_='widget-title')
titles.append(title_elem.text)
news = contenido.find('div', class_='blog-widget').ul
for li in news.findAll('li'):
ancla = li.find('a')
print(f'Noticia: {ancla["href"]}\n')
print(ancla.text.strip())
HTML Basic beautifulsoup4 · PyPI
¡Eso es todo!
Happy Coding! ❤