Diferencia entre revisiones de «Apache Droids»
Apariencia
Contenido eliminado Contenido añadido
Rescatando referencia {linkrescued} y marcando 0 como caído. #IABot (v1.5.1) |
m Mantenimiento de Control de autoridades |
||
(No se muestra una edición intermedia de otro usuario) | |||
Línea 22: | Línea 22: | ||
*[http://www.andreas-hess.info/programming/webcrawler/index.html Sobre la programación de WebCrawler] |
*[http://www.andreas-hess.info/programming/webcrawler/index.html Sobre la programación de WebCrawler] |
||
*[http://www.andreas-hess.info/programming/webcrawler/index.html Programación de una [[araña web]] en Java ] |
*[http://www.andreas-hess.info/programming/webcrawler/index.html Programación de una [[araña web]] en Java ] |
||
*[ |
*[https://web.archive.org/web/20150510074100/https://java.net/projects/apachedroidscrawler Un ejemplo del el uso de [[Google Guice]] para la [[inyección de dependencias]] en el caso de Apache Droids] |
||
{{Control de autoridades}} |
|||
[[Categoría:Apache Software Foundation]] |
[[Categoría:Apache Software Foundation]] |
||
[[Categoría:Motores de búsqueda de Internet]] |
[[Categoría:Motores de búsqueda de Internet]] |
Revisión actual - 21:14 6 ago 2019
Apache Droids es un proyecto de la Apache Software Foundation, actualmente en estado de incubación, que se dedica a la creación de un framework para la definición de web crawlers. Estos robots para la búsqueda de información en línea se construyen por medio de elementos genéricos tales como:
- Colas
- Protocolos
- Analizadores sintácticos empleando Apache Tika.
- Handlers
Características
[editar]- Adaptabilidad. Completo control por medio de archivos de propiedades.[1]
- Multihilo. Un robot controla a varios "trabajadores" (hilos) que realizan la labor real.
- Respeto de robots.txt. Por defecto, Droids respeta las directrices de robot.txt.
- Limitación de recursos. Es posible configurar el número de hilos concurrentes que un robot pueda distribuir entre sus "trabajadores", así como el tiempo de retardo entre las peticiones.
- Dinámica basada en Spring Framework. Las propiedades mencionadas son inyectadas a la configuración Spring.
- Dinámica extendible. La configuración Spring emplea el configurador de Apache Cocoon y su registro dinámico, facilitando así la extensión de los robots.
Referencias
[editar]- ↑ Lista de características planificadas (en inglés)
Véase también
[editar]- Apache Nutch, software de búsquedas en web
- Páginas sobre Web Robots
- Sobre la programación de WebCrawler
- Programación de una araña web en Java
- Un ejemplo del el uso de Google Guice para la inyección de dependencias en el caso de Apache Droids