Reindexar usando lucene / eliminar término del índice

Espero que me puedan ayudar, aquí está mi problema:

editar: ahora que lo he vuelto a pensar, si hay una manera de eliminar un término del índice, funcionaría de todos modos. ¿Hay una manera de hacer eso? si es así, no hay necesidad de leer el resto de la pregunta. ¡Gracias!

Esto es lo que pretendo hacer: 1 - Tengo que indexar algunos archivos mientras elimino las palabras de parada estándar. 2 - Después, debo contar la frecuencia del documento de cada término, y eliminar aquellos términos que tienen df <2

Como lo estoy haciendo:

1 - Indexo los archivos usando indexwriter, mientras elimino las palabras de parada estándar. 2 - Cuento el df de cada término y lo agrego a la lista de palabras vacías. 3 - Y luego, indexo nuevamente los textos usando indexwriter, pero con la nueva lista de palabras clave

Lo que realmente está pasando:

La primera vez que lo indexo sale según lo planeado. El problema es cuando intento indexar por segunda vez. El resultado se vuelve bastante impredecible:

1) si ejecuto el programa una vez, aunque las palabras vacías contengan palabras nuevas, solo se eliminarán las palabras estándar.

2) si ejecuto el programa por segunda vez, se eliminan los términos con df <2.

Imprimo los términos en el índice dos veces, uno después de indexar por primera vez y uno después de indexar por segunda vez.

Cuando ejecuto por segunda vez, los términos con df <2 aparecen eliminados en la primera impresión (observe que agrego los términos con df <2 cuando indexo por segunda vez, no debería) aparecen eliminados en la primera impresión.

Tal vez la forma en que lo expliqué fue un poco confusa, te pido que me digas si algo no se puede entender.

Espero que puedan ayudarme. ¡Muchas gracias!

Respuesta 1

Tengo un jarro, estoy ejecutando esto en el script de shell, pero quiero que cada vez que cierre mi terminal funcione. Intenté encontrarlo pero no obtuve ninguna respuesta. Por favor, ayúdenme a resolver el problema. Gracias por adelantado.

Tenemos una aplicación web. En algunos puntos hay un editor WSIWYG / RichText basado en JavaScript. Filtra algo de JavaScript pero usa texto HTML para formatear su contenido. Lamentablemente no se filtra ...

El siguiente código debería ser bastante evidente. Lo que he inventado hasta ahora para calcular Y con la variable xy algunas constantes: public static void main (String [] args) {int x = 50; String str = "...

Tenemos un sitio de intranet que atiende a 50,000 usuarios como máximo (generalmente solo un par de personas están en línea al mismo tiempo). Utilizamos Eclipse, SAP Connector, J2EE 1.4, JSP, Struts 1.x, Tomcat 4.1 y ...