Scraping Con Python
Scraping Con Python
Scraping
Es altamente recomendable que lo datos sean accesibles en todas las formas posibles. El scraping de datos es una tcnica til para procesar informacin y ponerla de forma accesible. Scraping bsicamente recoge datos de la web, que se encuentra distribuida en pginas con lenguajes de etiquetas como HTML, y copiar dicha informacin en un formato que se pueda usar como en una base de datos, archivos planos, csv, etc.
Libreras de Python
PyQuery: Es una librera JavaScript para python, que provee un acceso rpido a los elementos HTML de una pgina. PyQuery usa el mismo concepto de Python, permitiendo el uso de la sintaxis de JQuery para encontrar elementos especficos de una cadena de HTML.
escrito en python. Es simple de usar. Se compone de tems, que definen los datos a extraer, spiders que realizan el crawling y scraping de las pginas, estos por lo general contienen la lgica de negocio con la que trabajar, extractores de enlaces y selectores que son usados en la extraccin de datos: procesan los contenidos de la respuesta HTTP en un formato legible.
Consideraciones
En principio, lo publicado en la web puede ser accedido
libremente, pero por definicin, mediante el scraping se est adquiriendo los datos que no se puso a disposicin para su descarga directa - y puede haber una buena razn. Siempre es inteligente asegurarse de que lo que se est haciendo es legal y que no hay ataduras con el uso de los datos. El hecho de que los podamos conseguir, no significa que se los pueda utilizar libremente.
perfeccionar el scraping, no es recomendable el uso en entornos reales en los cuales se va a ensayar, el hecho de tener muchas peticiones al servidor puede alertar al propietario y generar sospechas o molestias, como resultado puede que se bloquee el acceso por medio de IP a nuestro equipo.
GRACIAS