Extrar los enlaces de un sitio web completo

28/09/2008 - 18:30 por Jorge | Informe spam
Hola,

me gustaria saber como puedo extraer todos los enlaces que de un sitio web,
he visto algunos articulos en los que muestran como hacerlo de una sola
pagina, pero quisiera saber si hay alguna libreria o algo para hacerlo de
todo un sitio web en C#.

Gracias y un saludo.
 

Leer las respuestas

#1 Jorge
29/09/2008 - 23:12 | Informe spam
Hola,

Gracias por tu respuesta, pero conoces alguna implementacion ya hecha de lo
que me comentas?

Un saludo

"Alberto Poblacion" wrote:

"Jorge" wrote in message
news:
> me gustaria saber como puedo extraer todos los enlaces que de un sitio
> web,
> he visto algunos articulos en los que muestran como hacerlo de una sola
> pagina, pero quisiera saber si hay alguna libreria o algo para hacerlo de
> todo un sitio web en C#.

No hay una librería específica. Típicamente lo resolverás usando un
WebRequest para obtener el html de la página, luego buscar los enlaces
dentro de la página con RegEx, y por cada enlace, volver al paso anterior y
repetir la operación (comprobando previamente que el enlace apunte al mismo
sitio web). Tendrás que ir acumulando una lista de los enlaces ya visitados
para no repetir dos veces la misma página, y tener cuidado con los enlaces
que sean "dinámicos" para no tratar de seguir aquellos que generan páginas
con enlaces variables según los parámetros (por ejemplo, un catálogo de
productos que lista productos distintos según unas condiciones de búsqueda).


Preguntas similares