Extrar los enlaces de un sitio web completo

28/09/2008 - 18:30 por Jorge | Informe spam
Hola,

me gustaria saber como puedo extraer todos los enlaces que de un sitio web,
he visto algunos articulos en los que muestran como hacerlo de una sola
pagina, pero quisiera saber si hay alguna libreria o algo para hacerlo de
todo un sitio web en C#.

Gracias y un saludo.

Preguntas similare

Leer las respuestas

#1 Jorge
29/09/2008 - 23:12 | Informe spam
Hola,

Gracias por tu respuesta, pero conoces alguna implementacion ya hecha de lo
que me comentas?

Un saludo

"Alberto Poblacion" wrote:

"Jorge" wrote in message
news:
> me gustaria saber como puedo extraer todos los enlaces que de un sitio
> web,
> he visto algunos articulos en los que muestran como hacerlo de una sola
> pagina, pero quisiera saber si hay alguna libreria o algo para hacerlo de
> todo un sitio web en C#.

No hay una librería específica. Típicamente lo resolverás usando un
WebRequest para obtener el html de la página, luego buscar los enlaces
dentro de la página con RegEx, y por cada enlace, volver al paso anterior y
repetir la operación (comprobando previamente que el enlace apunte al mismo
sitio web). Tendrás que ir acumulando una lista de los enlaces ya visitados
para no repetir dos veces la misma página, y tener cuidado con los enlaces
que sean "dinámicos" para no tratar de seguir aquellos que generan páginas
con enlaces variables según los parámetros (por ejemplo, un catálogo de
productos que lista productos distintos según unas condiciones de búsqueda).


Respuesta Responder a este mensaje
#2 Alfredo Novoa
30/09/2008 - 00:07 | Informe spam
Hola Jorge

El Mon, 29 Sep 2008 14:12:02 -0700, Jorge escribió:

Gracias por tu respuesta, pero conoces alguna implementacion ya hecha de lo
que me comentas?



A eso se le llama "Web Spider". No tienes más que buscar con google.

Saludos
Respuesta Responder a este mensaje
#3 Jorge
30/09/2008 - 07:53 | Informe spam
Hola,

ya he buscado pero todo lo que encuentro es para extraer las url de una sola
pagina, lo que pregunto es si conoceis alguna implementacion en c# que haga
ese proceso recursivamente para obtener todas las urls del sitio completo.

Gracias

"Alfredo Novoa" wrote:


Hola Jorge

El Mon, 29 Sep 2008 14:12:02 -0700, Jorge escribió:

> Gracias por tu respuesta, pero conoces alguna implementacion ya hecha de lo
> que me comentas?

A eso se le llama "Web Spider". No tienes más que buscar con google.

Saludos

Respuesta Responder a este mensaje
#4 Jesús López
30/09/2008 - 10:46 | Informe spam
Pues yo he buscado así:

1) He puesto "Web Spider" en el google.
2) Me he ido al primer enlace que es el de la Wikipedia:

http://en.wikipedia.org/wiki/Web_crawler

Y ahí vienen un montón de enlaces a web spiders, entre ellos uno para .NET

http://www.noviway.com/Code/Web-Crawler.aspx

Que según dice es recursivo.



"Jorge" escribió en el mensaje
news:
Hola,

ya he buscado pero todo lo que encuentro es para extraer las url de una
sola
pagina, lo que pregunto es si conoceis alguna implementacion en c# que
haga
ese proceso recursivamente para obtener todas las urls del sitio completo.

Gracias

"Alfredo Novoa" wrote:


Hola Jorge

El Mon, 29 Sep 2008 14:12:02 -0700, Jorge escribió:

> Gracias por tu respuesta, pero conoces alguna implementacion ya hecha
> de lo
> que me comentas?

A eso se le llama "Web Spider". No tienes más que buscar con google.

Saludos

email Siga el debate Respuesta Responder a este mensaje
Ads by Google
Help Hacer una preguntaRespuesta Tengo una respuesta
Search Busqueda sugerida