Foro - Perl en Español

por **alyse** » 2008-03-01 06:29 @312

Bueno aquí esta mi pregunta.

Veremos si existe alguna alma caritativa que gaste de su valioso tiempo.
Antes que nada gracias, por leer y responder, de verdad gracias.

¿Cómo podría realizar un script en Perl que realice lo siguiente?
Que empiece navegando por una url determinada, por ejemplo la de este sitio.
Que "aspire" todos los hiperlinks existentes.
Los guarde en una variable, o (varias variables).
Los analice sintácticamente y deseche los repetidos.
Los guarde de alguna forma, por ejemplo, en un archivo de texto, y cuente cuántos enlaces externos tiene esa HOME PAGE.
Así, con los links de mayor "relevancia" (supongo que los que más se repiten) empiece el mismo proceso por ahí, y así, sucesivamente.

¿Es como un pequeño spider, no?

Ni me imagino cómo hacerlo, solo tengo el concepto abstracto.
Digamos que en ese especie de bucle repetitivo, jamás saldría hasta "aspirar toda la web", pero bueno ya vería la forma de salir de ahí... quizás apagando el ordenador... (ja ja ja).

Bromas aparte:
¿Se puede por ejemplo, "chupar" una HOME PAGE, guardarla en una variable, acceder al DOM, y elegir con cuáles meta tag me quedo?

Tengo una idea en base de todo este "melange", pero no me imagino cómo plasmarla.

De todos modos, si los EXPERTOS, no tienen ganas de poner código... al menos me dirían si se puede hacer y si sería muy difícil.

Para mi sería un excelente punto de partida para entender cómo funciona Perl y de manera práctica entenderlo y practicarlo.

Gracias a esta magnifica comunidad.

El tema de los spiders se ha tratado ya en algunos hilos, que podrás encontrar con el sistema de búsqueda, por la palabra 'spider'. Por ejemplo:
* Robot Spider
* Creando un mini spider
* Ejercicios Perl y Bash

En CPAN hay también algunos módulos específicos para esta tarea. Igual que antes, busca por la palabra 'spìder'.

Si quieres hacerlo de forma sencilla, puedes probar con el módulo WWW::Mechanize, por ejemplo. O incluso empezar a más bajo nivel, con el paquete LWP, que seguramente lo tendrás ya instalado.

Foro - Perl en Español

Cómo hacer un spider

Cómo hacer un spider

Publicidad

¿Quién está conectado?