Dexi.io: Extraer datos de una webTardas 6 minutos en leerlo

Extraer datos de una web o de Internet es algo que puede parecer complicado y más cuando necesitamos manejar grandes cantidades de información.

Además, el crecimiento del contenido en la red es exponencial, por ello actuar rápido es una forma de avanzar en el entorno digital.

¿Y entonces que es Dexi.io y como puede ayudarme en te proceso?

Pues es una de esas herramientas que denominamos scrapers y que nos permite extraer casi todo el tipo de información que necesitamos de forma sistemática.

Las herramientas de este tipo no están muy extendidas ya que algunas requieren de un aprendizaje inicial, pero si superamos esa barrera mental, tendremos a nuestra disposición una forma muy valida para acceder a grandes cantidades de datos para todo tipo de usos.

Dexi en concreto es una herramienta que permite la extracción masiva de datos de forma automática y exactamente como lo haría un ser humano.

Personalmente me gusta esta herramienta porque básicamente no se le resisten ningún tipo de web. No solo interactúa con datos de la capa HTML es capaz de procesar Javascript o CSS, con lo que las posibilidades de encontrar lo que necesitamos son más altas.

Y para descubrir lo que nos ofrece lo mejor es que pasemos a ver de primera mano como podemos crear nuestro primer extractor de datos.

1. La Interfaz Inicial de Datos de Dexi.

Dexi es una herramienta bastante compleja con complementos y posibilidades de configuración, pero nos ceñiremos a lo que considero que cualquiera puede realizar sin dificultad y solventar la extracción en el 80% de los casos.

Metiéndonos en materia podremos registrarnos en la herramienta y disfrutar de una hora de trabajo gratis que nos permitirá descubrir su potencial.

Una vez tengamos claro lo que necesitamos podremos acceder a la opción pagada que necesitemos, ya que así Dexi te permite raspados ilimitados.

La limitación viene dada por el número de robots capaces de ejecutarse simultáneamente.

Con la suscripción entandar tenemos 1 robot, con la profesional 3 y con la corporativa hasta 6 robots trabajando de forma simultánea.

Dentro de la interfaz principal tenemos varios puntos destacados:

El Dashboard.

Este es el panel principal donde vemos las acciones realizadas o que se van a realizar. Por una parte tenemos las tareas programadas, las que se están ejecutando y las que hemos realizado recientemente para que podamos consultarlas. Un vistazo rápido nos permite ponernos al día.

Projects.

En esta sección es donde sucede todo dentro de Dexi y podemos monitorizar las acciones dentro de la herramienta. También es el lugar desde donde empezamos a crear nuestros robots y administrar la información extraída.

Podemos ver el tipo de robots que hemos configurado por una parte y ver el tipo de ejecuciones que hemos realizados con ellos justo debajo.

Tenemos un botón verde el la parte superior derecha que es el que nos permite la creación:

  • Así por una parte tenemos a los robots.
  • Tenemos también los diccionarios, que se usan para asignar una lista de valores a otra lista de valores y son utilizados por los Pipes para normalizar los datos.
  • Y tenemos los tipos de datos y conjuntos de datos, que se utilizan para definir la estructura de los datos. Por ejemplo si siempre quieres extraer los mismos datos de las personas aquí puedes definirlos para que cuando los cargues solo tengas que indicar de donde tiene que sacarlos el bot y así unificarlos.
  • También se puede utilizar para cargar datos externos sobre los que un robots va a realizar los trabajos como puede ser un conjunto de URLs específicas.

Addons.

Esta sección solo la tendremos disponible si contratamos un plan Profesional o superior.

Tenemos diferentes integraciones con herramientas tan interesantes como MonkeyLearn para depurar datos o Clearbit para cualificar prospectos con la información extraída. Personalmente no he probado ninguna, ya que no he necesitado nada más que la suscripción básica. 😅

Usage

Aquí podemos ver el uso que le estamos dando a nuestra cuenta. Desde los trabajadores que se están ejecutando en ese momento, hasta los que está en cola preparados para arrancar en el momento que los tengamos programados o puedan hacerlo.

Proxies

Como herramienta que va a realizar peticiones a una web es necesario utilizar proxies, para que el servidor de la web a raspar no nos impida el acceso si lo “estresamos” demasiado.

Dexi trae de por si proxies para que podamos trabajar sin limitación, pero también podremos importar una lista de proxies particulares y después filtrar cuales vamos a utilizar.

API

Aquí encontrarás todo lo que necesitas para integrar tu sistema con tu cuenta de Dexi.io. Como herramienta de automatización una API es clave para integrarla con nuestro sistema u otros que utilicemos.

Help & Suport

Es irónico que esté hablando de como utilizar Dexi, porque realmente tienen un apartado de ayuda y asistencia impresionante montado sobre Intercom. Aquí encontrarás todo el conocimiento avanzado que necesites y un pequeño tutorial de varios vídeos con los que poder configurar tu primer robot.

Built my Robot

Por un módico precio de 100 dólares los chicos de Dexi te crearán un robot para extraer los datos que necesites y de la web que quieras. Una forma para no complicarte demasiado si lo que quieres es avanzar rápido y no te importa pagar.

2. Los Robots.

Dentro del apartado de proyectos es donde tendremos acceso a la creación de los robots extractores que necesitemos en cada caso. Pulsando en la pestaña superior derecha de New > Create a new robot tendremos acceso a la elección de uno de los 4 robots de los que dispone Dexi.

Cada uno con sus peculiaridades y usos recomendados:

El Extractor.

Los robots de extracción son los más avanzados y que utilizaremos para lo básico. Permiten realizar todas las acciones que un humano puede realizar en una web, desde rellenar formularios, hacer clic sobre un botón, hasta extraer capturas de pantalla o datos mediante expresiones regulares.

Son los que nos permitirán sacar datos del 90% de las webs de forma eficiente y rápida.

El Crawler.

Los crawlers son robots menos avanzados que los extractores pero quizás más rápidos según que usos.

Su uso es sencillo: Solo tendrás que soltarlos en una página de inicio y empezarán a navegar por cada enlace que encuentren el la web de forma automática y realizando las órdenes que les indiquemos y con las limitaciones indicadas.

Puedes controlar estos robots configurando una serie de “procesos de página” que determinan qué acciones debe realizar el crawler para cada página que visita.

Utilízalo para extraer grandes cantidades de datos fácilmente accesibles e identificables dentro de la capa HTML como por ejemplo las URLs o el contenido del Title.

Las Pipes.

Un robot de tuberías es un súper robot que conecta otros robots y datos. Los robots de tuberías pueden controlar otros robots y también pueden obtener información externa mediante APIs, bases de datos y similares. Los Pipes no extraen datos de los sitios web en sí mismos, sino que combinan otros robots, API y conjuntos de datos para formar un único flujo para la extracción y el procesamiento de datos.

El AutoBot

Aparte de luchar contra los Decepticons, son una forma de organizar muchos robots extractores que deberían extraer el mismo tipo de datos, dado el mismo tipo de entrada.

APUNTE 📌

Un ejemplo sería:

Extraer detalles de productos de una amplia gama de sitios utilizando las direcciones URL del producto en los sitios individuales.

Mediante un Crawler sacamos todas las URLs que necesitamos y después asignamos un trabajo específico para cada formato del contenido de las diferentes URLs mediante extractores. El Autobot, sin entrar en detalles asignará una salida común a todos los datos para unificarlos.

3. El editor de trabajo del Extractor. Creando nuestro primer Robot

En el editor de trabajo es donde por así decirlo se crea la magia cuando queremos configurar un extractor de datos. Como he dicho los extractores son los bots con los que resolveremos la mayoría de problemas a la hora de extracción, y que además tiene un editor de trabajo visual donde podremos configurarlos.

Aquí un pequeño resumen de los apartados que considero más importantes:

PASOS

Esta es la pantalla en la que vemos los pasos que vamos a realizar en la URL en la que estamos posicionados. Aquí es donde visualmente vemos el flow de trabajo que hemos creado para.

APUNTE 📌

Dentro de esta sección los pasos más destacados son:

  1. Page Iteration
  2. Loop Trought Elements
  3. Extract

Con estos tres y utilizando la lógica resolveremos casi todas las extracciones que necesitemos realizar.

ELEMENTOS

Aquí podemos ir viendo los diferentes elementos de la capa HTML así como el contenido y los atributos.

Es muy útil cuando queremos visualizar donde están los datos que necesitamos extraer.

ENTRADAS

Aquí es por donde podemos cargar todo tipo de datos predefinidos o previamente creados para que el rastreador disponga de ellos.

APUNTE 📌

Personalmente a través de este lugar es donde por ejemplo introduzco un volumen de URLs similares de las que extraer siempre el mismo contenido.

Con un Crawler se pueden sacar todas las URLs de un determinado lugar y después inyectarlas aquí para que el extractor pueda realizar trabajos más intensos o complejos.

SALIDAS

Aquí es donde se crean los campos para reflejar los datos que vamos a extraer. Podemos crearlos en el momento de la extracción o importarlos desde una hoja de datos creada previamente.

RESULTADOS

Aquí es donde podremos ver los resultados que nos van dando el raspador. Antes de lanzarlo es interesante que veamos esta sección en los diferentes pasos para ver el formato de los datos y así poder depurarlos al máximo antes de lanzar.

 

CONCLUSIÓN FINAL

Dexi es una herramienta en constante evolución que permite la extracción de datos de forma masiva y con poco esfuerzo y conocimiento. Al principio puede ser un poco complicado su uso, pero una vez que te metes en la dinámica de su funcionamiento te ahorrará horas de trabajo si no eres un programador.

Deja un comentario

Este sitio usa Akismet para reducir el spam. Aprende cómo se procesan los datos de tus comentarios.