馃憖 Scrappear un Blog. C贸mo saber cuales son los post m谩s comentados.

Se el primero en comentar
Seguro que en m谩s de una ocasi贸n te habr谩s preguntado eso de.......
Y este pavo, ¿cu谩ntos comentarios tendr谩 en sus art铆culos m谩s comentados?
Si bueno, tal vez no te lo hayas preguntado, pero deber铆as. 
y si no lo has hecho, tranquilo que yo lo he hecho por t铆 (y alguna m谩s de cuyo nombre no quiero acordarme) ¿ser谩 de un lugar de la mancha? 



A que viene todo esto, pues es muy simple, todo viene a ra铆z del 煤ltimo articulo de la incombustible Ana Mata, en el te habla de c贸mo Scrappear un blog y pone al desnudo a tres iconos del panorama blogger.

En las conclusiones de este art铆culo hay una especie de reto a que explique como scrappear los comentarios, y si Marina Brocca acept贸 mi reto y nos ense帽贸 c贸mo tener una App legal y segura, yo no voy a ser menos. ¿Qui茅n ser谩 el/la siguiente?

Ese nombre que aparece entre breve y escribir谩 que no se lee casi nada pone "GASTRE" jeje.

Bien, ahora s铆, despu茅s de las presentaciones vamos a lo que realmente importa:

C贸mo scrappear un blog para saber cuales son los art铆culos con m谩s comentarios.

Para realizar esta operaci贸n de scrapeo de una web utilizo una herramienta llamada import.io.
Antes de nada por si no lo sabes, que seguro que s铆, pero por si acaso, scrapear es una t茅cnica que se utiliza para extraer informaci贸n de blogs o webs.
Si quieres m谩s informaci贸n wikipedia explica muy bien que es Web Scraping, te lo podr铆a explicar yo, pero no has venido para esto, as铆 que post directo y al grano.

Una vez que entras en impor.io te va a aparecer una pantalla d贸nde ya puedes poner directamente una url de un blog o web para extraer todos los datos, as铆 que vamos a ello.


Pones la url que quieras scrappear, esperas unos segundos y te saldr谩 la informaci贸n que haya extra铆do. (en mi ejemplo he utilizado para ilustraros el blog de la persona que me ret贸).


Ahora si pulsas arriba a la izquierda "Add or manage URLs" te da la opci贸n de poner m谩s url, c贸mo lo que queremos es scrappear toda la web, y generalmente en la portada s贸lo suele haber "x" art铆culos, generalmente 10, hay que poner todas las url.
S铆 el susodicho en cuesti贸n utiliza wordpress, c贸mo el 95% de este sector (yo me libro jeje) pues ah铆 que seguir el siguiente patr贸n:

http://www.urldelblogascrappear.com/page/2
http://www.urldelblogascrappear.com/page/3
etc......
Un truco para saber cuantas p谩ginas tiene es ir abajo de todos los art铆culos, y generalmente salen unos botones para navegar por las entradas anteriores, y suele poner 1-2-3...27, vale, eso es que tiene 27 p谩ginas el blog, as铆 que nosotros pondremos hasta la 28 por si acaso y porque yo lo valgo!

C贸mo buenos Growth Hackers que somos, l贸gicamente no vamos a poner las l铆neas a mano y una a uno no? bueno si quieres hazlo, pero yo no lo voy a hacer.
Entonces que truco usamos? pues yo te doy dos opciones. la primera es abrir tu excell, que yo abrir茅 mi hoja de calculo de LibreOffice (es que me puede el c贸digo libre) y utilizamos ese truco tan viejuno como yo que aprendimos en la escuela, ponemos la primera url, la segunda, la tercera, pinchamos y arrastramos hasta llegar a la que queramos, luego seleccionamos todas las columnas, copiamos y lo pegamos en import.io (creo que me entiendes no? seguro que s铆, sino me lo preguntas en los comentarios).
La segunda opci贸n y es la que yo utilizo es la siguiente:
Una vez que tenemos el resultado de la pantalla de arriba, le das al boton de arriba a la derecha que pone Dashboard, y te llevar谩 a una nueva pantalla.
Ah铆 pulsa el bot贸n que pone Show URL Generator y pon la url de la pagina 2, le das a ok, y luego en la url pulsas con el rat贸n dos veces sobre el n煤mero "2" y te saldr谩 la siguiente variable:
http://www.urldelblogascrappear.com/page/{Parameter-1}
Ahora en la parte de abajo, d贸nde pone parameter-1 escogemos hasta que p谩gina queremos ir.


Luego le damos a Add to list y ya tenemos todas las url preparadas, pulsamos arriba del todo a Run URLs y a esperar, en funci贸n de las p谩ginas que tenga que extraer tardar谩 m谩s o menos, pero lo hace bastante r谩pido.

Mientras est谩 extrayendo datos nos va marcando el resultado, y al acabar nos lleva a una nueva pantalla Run history d贸nde nos muestra todos nuestros escrapeos y nos da la opci贸n de Descargar, ver una vista previa y nos muestra un archivo de errores.


Ahora le das a download y escoge el csv para luego con nuestra hoja de calcula extraer lo que nos interesa.


El csv se nos guarda en el mac / pc o linux, lo que uses y luego lo abrimos.

Al abrirlo recuerda poner utf-8 y separar por tabulador, coma, punto y coma, etc....


Una vez abierto el csv y separado por columnas, vamos eliminando las que no nos interesen y dejamos s贸lo la informaci贸n que queremos.
En este caso nos estamos centrando en obtener cuales son los post con m谩s comentarios, as铆 que voy eliminando morralla y dejamos lo que queremos, y ordenamos la tabla por comentarios.


C贸mo puedes ver en este pantallazo, tenemos un peque帽o problema, ordena los comentarios por el primer d铆gito, es decir, 81,8,8,6,58??? eso esta mal y tenemos que corregirlo.
Hacemos lo siguiente, le damos a buscar y reemplazar y cambiamos "Comentarios" por " ".
Eso es comentarios por nada, as铆 donde pone comentarios desparece y s贸lo queda n煤mero.


Ahora ordenamos los n煤meros y como s贸lo son n煤meros los ordena perfecto y nos queda la siguiente bonita tabla!


C贸mo puedes ver, el art铆culo que m谩s comentarios tiene es el de los popups, superando la barrera de los 100 comentarios (bonito n煤mero).
Adem谩s de esta informaci贸n, te muestra que etiquetas utiliza, el t铆tulo, url de las im谩genes, el resumen, etc..... todo eso de cada art铆culo y si luego quieres pues puedes hacer una nube de etiquetas de esas tan chulas que pone Ana para que lo veas mejor.

Adem谩s, una vez que veas cuales son los post con m谩s comentarios, siempre puedes usar este otro truco para sacar datos de los comentarios de disqus de un art铆culo.

En definitiva, una herramienta genial e imprescindible para el GH17 (Growth Hacking ehhh, pero c贸mo el 17 est谩 de moda y esto va de "mirar" le va que ni pintado).

Esto es todo, espero que te haya gustado, y ya sabes, cualquier duda pregunta, estamos aqu铆 para ayudarnos.

Y ahora la ronda de preguntas...
¿Conocias esta t茅cnica? ¿Crees que vas a aplicarla? y lo m谩s importante, que aunque no tiene nada que ver con el tema tengo que preguntarlo, porque es una cosa que ni el mism铆simo Iker Jimenez.
¿Qui茅n co帽o es el social manager de apple? -Tuitealo

¿566.053 seguidores y ni un tweet? 馃憦馃憦馃憦 ahi lo dejo. Abrazos!



Te puede interesar

Comentarios: