• 👀 Scrappear un Blog. Cómo saber cuales son los post más comentados.

    Seguro que en más de una ocasión te habrás preguntado eso de.......
    Y este pavo, ¿cuántos comentarios tendrá en sus artículos más comentados?
    Si bueno, tal vez no te lo hayas preguntado, pero deberías. 
    y si no lo has hecho, tranquilo que yo lo he hecho por tí (y alguna más de cuyo nombre no quiero acordarme) ¿será de un lugar de la mancha? 



    A que viene todo esto, pues es muy simple, todo viene a raíz del último articulo de la incombustible Ana Mata, en el te habla de cómo Scrappear un blog y pone al desnudo a tres iconos del panorama blogger.

    En las conclusiones de este artículo hay una especie de reto a que explique como scrappear los comentarios, y si Marina Brocca aceptó mi reto y nos enseñó cómo tener una App legal y segura, yo no voy a ser menos. ¿Quién será el/la siguiente?

    Ese nombre que aparece entre breve y escribirá que no se lee casi nada pone "GASTRE" jeje.

    Bien, ahora sí, después de las presentaciones vamos a lo que realmente importa:

    Cómo scrappear un blog para saber cuales son los artículos con más comentarios.

    Para realizar esta operación de scrapeo de una web utilizo una herramienta llamada import.io.
    Antes de nada por si no lo sabes, que seguro que sí, pero por si acaso, scrapear es una técnica que se utiliza para extraer información de blogs o webs.
    Si quieres más información wikipedia explica muy bien que es Web Scraping, te lo podría explicar yo, pero no has venido para esto, así que post directo y al grano.

    Una vez que entras en impor.io te va a aparecer una pantalla dónde ya puedes poner directamente una url de un blog o web para extraer todos los datos, así que vamos a ello.


    Pones la url que quieras scrappear, esperas unos segundos y te saldrá la información que haya extraído. (en mi ejemplo he utilizado para ilustraros el blog de la persona que me retó).


    Ahora si pulsas arriba a la izquierda "Add or manage URLs" te da la opción de poner más url, cómo lo que queremos es scrappear toda la web, y generalmente en la portada sólo suele haber "x" artículos, generalmente 10, hay que poner todas las url.
    Sí el susodicho en cuestión utiliza wordpress, cómo el 95% de este sector (yo me libro jeje) pues ahí que seguir el siguiente patrón:

    http://www.urldelblogascrappear.com/page/2
    http://www.urldelblogascrappear.com/page/3
    etc......
    Un truco para saber cuantas páginas tiene es ir abajo de todos los artículos, y generalmente salen unos botones para navegar por las entradas anteriores, y suele poner 1-2-3...27, vale, eso es que tiene 27 páginas el blog, así que nosotros pondremos hasta la 28 por si acaso y porque yo lo valgo!

    Cómo buenos Growth Hackers que somos, lógicamente no vamos a poner las líneas a mano y una a uno no? bueno si quieres hazlo, pero yo no lo voy a hacer.
    Entonces que truco usamos? pues yo te doy dos opciones. la primera es abrir tu excell, que yo abriré mi hoja de calculo de LibreOffice (es que me puede el código libre) y utilizamos ese truco tan viejuno como yo que aprendimos en la escuela, ponemos la primera url, la segunda, la tercera, pinchamos y arrastramos hasta llegar a la que queramos, luego seleccionamos todas las columnas, copiamos y lo pegamos en import.io (creo que me entiendes no? seguro que sí, sino me lo preguntas en los comentarios).
    La segunda opción y es la que yo utilizo es la siguiente:
    Una vez que tenemos el resultado de la pantalla de arriba, le das al boton de arriba a la derecha que pone Dashboard, y te llevará a una nueva pantalla.
    Ahí pulsa el botón que pone Show URL Generator y pon la url de la pagina 2, le das a ok, y luego en la url pulsas con el ratón dos veces sobre el número "2" y te saldrá la siguiente variable:
    http://www.urldelblogascrappear.com/page/{Parameter-1}
    Ahora en la parte de abajo, dónde pone parameter-1 escogemos hasta que página queremos ir.


    Luego le damos a Add to list y ya tenemos todas las url preparadas, pulsamos arriba del todo a Run URLs y a esperar, en función de las páginas que tenga que extraer tardará más o menos, pero lo hace bastante rápido.

    Mientras está extrayendo datos nos va marcando el resultado, y al acabar nos lleva a una nueva pantalla Run history dónde nos muestra todos nuestros escrapeos y nos da la opción de Descargar, ver una vista previa y nos muestra un archivo de errores.


    Ahora le das a download y escoge el csv para luego con nuestra hoja de calcula extraer lo que nos interesa.


    El csv se nos guarda en el mac / pc o linux, lo que uses y luego lo abrimos.

    Al abrirlo recuerda poner utf-8 y separar por tabulador, coma, punto y coma, etc....


    Una vez abierto el csv y separado por columnas, vamos eliminando las que no nos interesen y dejamos sólo la información que queremos.
    En este caso nos estamos centrando en obtener cuales son los post con más comentarios, así que voy eliminando morralla y dejamos lo que queremos, y ordenamos la tabla por comentarios.


    Cómo puedes ver en este pantallazo, tenemos un pequeño problema, ordena los comentarios por el primer dígito, es decir, 81,8,8,6,58??? eso esta mal y tenemos que corregirlo.
    Hacemos lo siguiente, le damos a buscar y reemplazar y cambiamos "Comentarios" por " ".
    Eso es comentarios por nada, así donde pone comentarios desparece y sólo queda número.


    Ahora ordenamos los números y como sólo son números los ordena perfecto y nos queda la siguiente bonita tabla!


    Cómo puedes ver, el artículo que más comentarios tiene es el de los popups, superando la barrera de los 100 comentarios (bonito número).
    Además de esta información, te muestra que etiquetas utiliza, el título, url de las imágenes, el resumen, etc..... todo eso de cada artículo y si luego quieres pues puedes hacer una nube de etiquetas de esas tan chulas que pone Ana para que lo veas mejor.

    Además, una vez que veas cuales son los post con más comentarios, siempre puedes usar este otro truco para sacar datos de los comentarios de disqus de un artículo.

    En definitiva, una herramienta genial e imprescindible para el GH17 (Growth Hacking ehhh, pero cómo el 17 está de moda y esto va de "mirar" le va que ni pintado).

    Esto es todo, espero que te haya gustado, y ya sabes, cualquier duda pregunta, estamos aquí para ayudarnos.

    Y ahora la ronda de preguntas...
    ¿Conocias esta técnica? ¿Crees que vas a aplicarla? y lo más importante, que aunque no tiene nada que ver con el tema tengo que preguntarlo, porque es una cosa que ni el mismísimo Iker Jimenez.
    ¿Quién coño es el social manager de apple? -Tuitealo

    ¿566.053 seguidores y ni un tweet? 👏👏👏 ahi lo dejo. Abrazos!

    si te gusta comparte:

    No te suscribas o entrarás en la lista de los amig@s de gastre

  • Echa una ojeada a esto

    No hay comentarios:

    Publicar un comentario en la entrada