Web Crawler vs Html Parser

¿Cuál es la diferencia entre web crawler y parser?

En java hay algunos nombres para buscar bibliotecas. Por ejemplo, nombran a nutch como rastreador y jsoup como analizador.

¿Están haciendo el mismo propósito?

¿Son completamente similares para el trabajo?

Gracias

Respuesta 1

La jsoupbiblioteca es una biblioteca de Java para trabajar con HTML del mundo real. Es capaz de buscar y trabajar con HTML. Sin embargo, es no un Web-orugas en general, ya que sólo es capaz de ir a buscar la página uno a la vez (sin necesidad de escribir un programa personalizado (= rastreador) utilizando jsoupa buscar, extraer y descargará las direcciones URL).

Un rastreador web utiliza un analizador HTML para extraer las URL de un sitio web obtenido previamente y agrega esta URL recién descubierta a su frontera .

En esta respuesta se puede encontrar un diagrama de secuencia general de un rastreador web: ¿Qué secuencia de pasos sigue crawler4j para obtener datos?

Para resumirlo:

Un analizador HTML es un componente necesario de un rastreador web para analizar y extraer URL de una entrada HTML dada. Sin embargo, un analizador HTML por sí solo no es un rastreador web, ya que carece de algunas características necesarias, como el mantenimiento de URL visitadas anteriormente, cortesía, etc.

Respuesta: 2

Hemos creado una aplicación con: 2 nodos + 1 aplicación web Notary 2 (una para cada nodo) La versión Corda es 3.2 La CordApp tiene: el primer flujo, que recibe en la entrada una lista de objetos, solía ...

Cambié de Eclipse a IntelliJ desde ayer. Encontré un equivalente entre los IDEs para todo menos una cosa básica: una intención de crear una clase que no existe en el classpath en el ...

Acabo de comenzar a aprender Java, pero tengo problemas casi en cada paso ... Al menos quiero hacer que este tutorial de inicio súper simple funcione (desde la página oficial de Maven) :) He hecho cada paso como ...

Digamos que tengo algo como esto: Public class Container implementa elementos serializables {private List <Object>; [... algunos otros campos ...]} implementos públicos de clase A ...