Cálculo de similitud de documentos con el esquema Okapi

He encontrado que la medida de similitud de Okapi se puede utilizar para calcular la similitud de documentos desde aquí http://www2002.org/CDROM/refereed/643/node6.html y de este documento http://singhal.info/ieee2001.pdf

Quiero calcular la similitud entre documentos de una colección de documentos utilizando el esquema de similitud de Okapi con Lucene

Por ejemplo, tengo 10 documentos (doc. # A, # B, #C, #D, etc.) en mi colección de documentos. Elegiré un documento como documento de consulta. Di el documento #A. Luego, para cada término = 1..n, del documento de consulta calcularé el

idfOfQueryTerm = log (totalNumIndexedDocs - docFreq + 0.5)/(docFreq + 0.5)

entonces tomaré el sum of (idfOfQueryTerm) from 1 to n; idfOfQueryDoc= sum of (idfOfQueryTerm) Luego, por cada 10 documentos (incluido el documento de consulta), calculo la frecuencia de término total del documento por esta ecuación, en función de los términos de consulta del documento de consulta que se seleccionó primero.

tfOfDocument={2.2 * termFrq }/ { 1.2 * ( 0.25 + 0.75 * docLength / this.avgDocLength ) + termFrq }

Así que terminaré con 10 tfOfDocumentvalores, uno para cada documento y un idfOfQueryDocvalor.

Entonces puedo calcular la similitud entre el documento de consulta y otros documentos usando estos dos métodos.

1) Similitud entre el documento de consulta y el documento # B = idfOfQueryDoc* tfOfDocument #B

2) Similitud entre consulta doc y doc # B = idfOfQueryDoc* tfOfDocument #B* tfOfDocument#queryDoc

Quiero saber si mi comprensión de la medida de similitud de Okapi es correcta.

¿Qué método de los dos anteriores será óptimo para calcular la similitud del documento?

Respuesta 1

Tengo un problema con el programa de transformación 2D. Tengo el código fuente import java.awt. *; import java.awt.geom.Line2D; import javax.swing.JFrame; import javax.swing.JLabel; import javax.swing.JPanel; ...

Soy nuevo en android. Estoy trabajando en una aplicación, donde tendré que cargar muchos grupos de sonido para diferentes actividades. Mi pregunta es si podemos cargar todos los grupos de sonido en una sola actividad y pasar esa identificación a ...

Estoy tratando de insertar en una tabla que tiene 3 columnas. La clave principal de esta tabla son las claves foráneas para muchas tablas tiene muchas relaciones de uno a muchos y de muchos a muchos. Mientras intento insertar ...

Estoy usando Jasper Reports e iReport para generar los informes de mi aplicación. Necesito mostrar imágenes en mi informe dependiendo de una consulta en mi base de datos. Las imágenes son planos y tienen otros campos dentro ...