Screen Scraping con Java
El concepto de screen scrapping es el de obtener la información de una web y manipularla como si fuese un usuario, pero de forma automática por una máquina. En este artículo vamos a ver cómo podemos hacer screen scrapping con Java. Lo primero que deberemos de conocer es que nos vamos a apoyar en la librería Jaunt para poder hacer el screen scrapping con Java. Jaunt lo primero define una clase UserAgent que es la que simula el agente de usuario o navegador. Así que lo primero será crear dicha clase.
UserAgent userAgent = new UserAgent();Lo siguiente será indicarle la página que quiere cargar. Así que vamos a cargar a nuestra página hermana Manual Web. Para ello nos apoyamos en el método .visit().
userAgent.visit("http://manualweb.net");Es importante saber que una vez cargada la página tendremos toda la información relativa a ella en el objeto.
userAgent.docSi queremos volcar el resultado de hacer el screen scraping con Java deberemos de utilizar el método .innerHTML() y así podremos presentarlo por pantalla.
System.out.println(userAgent.doc.innerHTML());Es importante saber que durante la ejecución de los métodos de Jaunt se puede producir la excepción ResponseException, así que deberemos integrarlo todo dentro de un bloque try-catch.
try { UserAgent userAgent = new UserAgent(); userAgent.visit("http://manualweb.net"); System.out.println(userAgent.doc.innerHTML());} catch (ResponseException re) { re.printStackTrace();}Y ya habremos conseguido realizar nuestro screen scraping con Java.
Descarga el código de Screen Scraping con Java
Mediante técnicas de screen scraping con Java podremos recuperar el contenido de una página web de forma automática, simulando ser un usuario.