Apache Droids
Apariencia
Apache Droids es un proyecto de la Apache Software Foundation, actualmente en estado de incubación, que se dedica a la creación de un framework para la definición de web crawlers. Estos robots para la búsqueda de información en línea se construyen por medio de elementos genéricos tales como:
- Colas
- Protocolos
- Analizadores sintácticos empleando Apache Tika.
- Handlers
Características
[editar]- Adaptabilidad. Completo control por medio de archivos de propiedades.[1]
- Multihilo. Un robot controla a varios "trabajadores" (hilos) que realizan la labor real.
- Respeto de robots.txt. Por defecto, Droids respeta las directrices de robot.txt.
- Limitación de recursos. Es posible configurar el número de hilos concurrentes que un robot pueda distribuir entre sus "trabajadores", así como el tiempo de retardo entre las peticiones.
- Dinámica basada en Spring Framework. Las propiedades mencionadas son inyectadas a la configuración Spring.
- Dinámica extendible. La configuración Spring emplea el configurador de Apache Cocoon y su registro dinámico, facilitando así la extensión de los robots.
Referencias
[editar]- ↑ Lista de características planificadas (en inglés)
Véase también
[editar]- Apache Nutch, software de búsquedas en web
- Páginas sobre Web Robots
- Sobre la programación de WebCrawler
- Programación de una araña web en Java
- Un ejemplo del el uso de Google Guice para la inyección de dependencias en el caso de Apache Droids