Web Scraping con PDI (Pentaho Data Integration)

En este video haremos Web Scraping utilizando Pentaho Data Integration (PDI). Nos conectaremos a un web site y obtendremos el título y la descripción de sus cinco primeros artículos.

Crearemos una Transformation y haremos lo siguiente:

  • obtendremos un documento HTML (HTTP Client)
  • dividiremos filas en columnas (Split Fields)
  • normalizaremos el data set (Row Normaliser)
  • filtraremos las filas deseadas (Filter rows)
  • obtendremos el título y la descripción utilizando expresiones regulares y javascript (Modified Java Script Value | Replace in string)
  • seleccionaremos las columnas deseadas (Select values)

 
Downloads

 
Espero les sea útil
Saludos