Java: extraer información html de una cadena

Todas las guías por ahí me dicen cómo eliminar las etiquetas HTML del texto para extraer el texto entre ellas. Lo que busco es la extracción de los datos que están dentro de las etiquetas HTML.

p.ej

Si tengo una cadena:

 "<FONT SIZE="5">Hello World</FONT>"

Quiero obtener la información del tamaño de fuente para actualizar otras variables. ¿Cómo hago para esto?

Respuesta 1

He usado jsoup varias veces para este propósito. Es un analizador HTML indulgente. Tenga cuidado al tratar de analizarlo como XML "estándar", ya que el análisis XML es estricto por naturaleza y fallará si la página no cumple con las especificaciones de marcado XML (que pocas páginas HTML hacen).

Respuesta: 2

Para ello, utiliza una de las bibliotecas Java disponibles para el análisis HTML, como TagSoup .

Respuesta: 3

Puede usar una biblioteca como jerichoHTML que le permite buscar etiquetas HTML, así como sus atributos, o puede crear algunos DOM por su cuenta.

Respuesta: 4

Estoy creando un efecto de desenfoque de movimiento deficiente para mi motor de juego, y tengo un conjunto de imágenes de cinco índices que llamé MotionBlur []. Cada vez que mi objeto gráfico termina de dibujar en la pantalla, necesito almacenar ...

Estoy escribiendo pruebas unitarias y encuentro un problema con el generador: Aquí está la clase que se va a probar: public class ToBeTest () {public void enact (SomeInput input) {Session s = Session.builder () ....

Estoy tratando de realizar la autenticación implícita utilizando la biblioteca HttpClient, pero sigo obteniendo: HTTP / 1.1 401 no autorizado. Cuando intento la solicitud de Firefox funciona bien y recibo una respuesta ...

Tengo estas dos dependencias en mi archivo POM <dependency> <groupId> org.springframework.cloud </groupId> <artifactId> spring-cloud-gcp-starter-trace </artifactId> & ...