Supprimer les balises d'un fichier html

Contenu du snippet

Ce programme lit le contenu d'une url et le transforme en texte. Du moins, il supprime toutes les balises html.
Il utilise la librairie htmlparser.

Source / Exemple :


import org.htmlparser.Parser;
import org.htmlparser.util.NodeIterator;
import org.htmlparser.util.ParserException;

public class TagStripper{

	public static void main(String[] args){

		final StringBuilder text = new StringBuilder();

		try {
			final Parser parser = new Parser ("http://www.javafr.com");
			NodeIterator i = parser.elements();
			while (i.hasMoreNodes()) 
				text.append(i.nextNode().toPlainTextString());
			System.out.println(text);
		} catch(ParserException e){
			e.printStackTrace();
		}

	}
}

A voir également

Vous n'êtes pas encore membre ?

inscrivez-vous, c'est gratuit et ça prend moins d'une minute !

Les membres obtiennent plus de réponses que les utilisateurs anonymes.

Le fait d'être membre vous permet d'avoir un suivi détaillé de vos demandes et codes sources.

Le fait d'être membre vous permet d'avoir des options supplémentaires.