Extraer el texto entre etiquetas HTML

23/08/2006 - 01:26 por tiber | Informe spam
Ayuda con esto:

Lo que necesito hacer es extraer el texto contenido entre etiquetas HTML, es
decir, de un archivo .html quiero quedarme con solo el texto para enviarlo
por email como txt puro.

Espero puedan ayudarme. :-)
tiber

Preguntas similare

Leer las respuestas

#1 NicolasF
23/08/2006 - 01:50 | Informe spam
Hola:

Lo que estas solicitando no es una tarea simple y debe ser especifico para
lo que quieras hacer. Lo que debes utilizar para realizar eso son las
expresiones regulares que permiten extraer el contenido dentro de las
etiquetas html. Aqui tienes un tutorial de como empezar con las expresiones
regulares

http://www.codeproject.com/useritem...dotnet.asp

Ademas busca en internet

c# html parser

Saludos
"tiber" wrote:

Ayuda con esto:

Lo que necesito hacer es extraer el texto contenido entre etiquetas HTML, es
decir, de un archivo .html quiero quedarme con solo el texto para enviarlo
por email como txt puro.

Espero puedan ayudarme. :-)
tiber
Respuesta Responder a este mensaje
#2 Nivel7
23/08/2006 - 09:40 | Informe spam
Podrias usar el control WebBrowser.
cargar tu archivo HTML y despues con alguna propiedad del WebBrouser obtener
en un string el texto contenido.
Respuesta Responder a este mensaje
#3 RAlvare
24/08/2006 - 00:51 | Informe spam
Yo esto lo he resuelto como te dice en otro hilo NicolasF, usando un control
WebBrowser, más o menos así:
private void Form1_Load(object sender, EventArgs e)

{

WebBrowser wb = new WebBrowser();

wb.Navigate("cadena con el nombre de fichero htm, html...");

wb.DocumentCompleted += new
WebBrowserDocumentCompletedEventHandler(wb_DocumentCompleted);

}

void wb_DocumentCompleted(object sender,
WebBrowserDocumentCompletedEventArgs e)

{

WebBrowser wb1 = new WebBrowser();

wb1 = (WebBrowser)sender;

String textoHtml = wb1.Document.Body.InnerText.ToString();

TrataTexto(textoHtml);

}

No lo he probado, pero yo diría que no necesitas controlar el evento
wb.DocumentCompleted cuando estes abriendo
un fichero en local. Sencillamente despues de wb.Navigate("nombre fichero");
un simple wb.Document.Body.InnerText.ToString(); te resuelve
el problema.

"NicolasF" escribió en el mensaje
news:
Hola:

Lo que estas solicitando no es una tarea simple y debe ser especifico para
lo que quieras hacer. Lo que debes utilizar para realizar eso son las
expresiones regulares que permiten extraer el contenido dentro de las
etiquetas html. Aqui tienes un tutorial de como empezar con las
expresiones
regulares

http://www.codeproject.com/useritem...dotnet.asp

Ademas busca en internet

c# html parser

Saludos
"tiber" wrote:

Ayuda con esto:

Lo que necesito hacer es extraer el texto contenido entre etiquetas HTML,
es
decir, de un archivo .html quiero quedarme con solo el texto para
enviarlo
por email como txt puro.

Espero puedan ayudarme. :-)
tiber
Respuesta Responder a este mensaje
#4 tiber
28/08/2006 - 18:29 | Informe spam
Ok mchs grcs lo intentare de las dos formas
tiber


"RAlvare" escribió:

Yo esto lo he resuelto como te dice en otro hilo NicolasF, usando un control
WebBrowser, más o menos así:
private void Form1_Load(object sender, EventArgs e)

{

WebBrowser wb = new WebBrowser();

wb.Navigate("cadena con el nombre de fichero htm, html...");

wb.DocumentCompleted += new
WebBrowserDocumentCompletedEventHandler(wb_DocumentCompleted);

}

void wb_DocumentCompleted(object sender,
WebBrowserDocumentCompletedEventArgs e)

{

WebBrowser wb1 = new WebBrowser();

wb1 = (WebBrowser)sender;

String textoHtml = wb1.Document.Body.InnerText.ToString();

TrataTexto(textoHtml);

}

No lo he probado, pero yo diría que no necesitas controlar el evento
wb.DocumentCompleted cuando estes abriendo
un fichero en local. Sencillamente despues de wb.Navigate("nombre fichero");
un simple wb.Document.Body.InnerText.ToString(); te resuelve
el problema.

"NicolasF" escribió en el mensaje
news:
> Hola:
>
> Lo que estas solicitando no es una tarea simple y debe ser especifico para
> lo que quieras hacer. Lo que debes utilizar para realizar eso son las
> expresiones regulares que permiten extraer el contenido dentro de las
> etiquetas html. Aqui tienes un tutorial de como empezar con las
> expresiones
> regulares
>
> http://www.codeproject.com/useritem...dotnet.asp
>
> Ademas busca en internet
>
> c# html parser
>
> Saludos
> "tiber" wrote:
>
>> Ayuda con esto:
>>
>> Lo que necesito hacer es extraer el texto contenido entre etiquetas HTML,
>> es
>> decir, de un archivo .html quiero quedarme con solo el texto para
>> enviarlo
>> por email como txt puro.
>>
>> Espero puedan ayudarme. :-)
>> tiber



email Siga el debate Respuesta Responder a este mensaje
Ads by Google
Help Hacer una preguntaRespuesta Tengo una respuesta
Search Busqueda sugerida