Actualice Nutch para obtener el padre de cada URL obtenida

Mientras ejecuto el rastreador Apache Nutch 1.4, quiero almacenar información adicional. Quiero almacenar el padre de cada URL.

Por ejemplo, quiero rastrear una página a.html que tiene 2 enlaces de anclaje a b.html y c.html Entonces, cuando rastreo a.html, debería obtener algo como esto:

a.html null
b.html a.html
c.html a.html

Quiero almacenar algo como esto. He leído cómo funciona nutch y también he ejecutado nutch en eclipse. También leí fetcher.java e inicié sesión donde obtuvo contenido. Pero no tuve éxito al saber dónde Nutch obtiene las URL secundarias de una página determinada. Creo que este paso tiene lugar después del paso de análisis.

Respuesta 1

Mis amigos desarrollaron este juego usando Java y me pidieron que hiciera la multicapa. Es un tirador de desplazamiento lateral como los asteroides. Sé que tendría que lidiar con sockets y la identificación prefiere usar tcp ...

Tomcat se inicia con éxito en Eclipse, sin embargo, cualquier acción relacionada con el Servlet da el error a continuación. Sospecho que el problema es que TomCat está buscando clases en la carpeta WEB-INF, aunque tengo ...

Tengo un GenericDAO que delega sus operaciones a una clase pública DataSource clase BaseDAOImpl <T> implementa BaseDAO <T> {DataSource ds; actualización T pública (entidad T) {...

quería practicar el desarrollo de programas de bases de datos en java, así que configuré el classpath en E: \ software \ instalado \ java \ jre \ lib declarando un nuevo classpath de variable ambiental y le di el valor como E: \ software \ ...