• Publicidad

Cómo hacer un spider

¿Apenas comienzas con Perl? En este foro podrás encontrar y hacer preguntas básicas de Perl con respuestas aptas a tu nivel.

Cómo hacer un spider

Notapor alyse » 2008-03-01 06:29 @312

Bueno aquí esta mi pregunta.

Veremos si existe alguna alma caritativa que gaste de su valioso tiempo.
Antes que nada gracias, por leer y responder, de verdad gracias.

¿Cómo podría realizar un script en Perl que realice lo siguiente?
Que empiece navegando por una url determinada, por ejemplo la de este sitio.
Que "aspire" todos los hiperlinks existentes.
Los guarde en una variable, o (varias variables).
Los analice sintácticamente y deseche los repetidos.
Los guarde de alguna forma, por ejemplo, en un archivo de texto, y cuente cuántos enlaces externos tiene esa HOME PAGE.
Así, con los links de mayor "relevancia" (supongo que los que más se repiten) empiece el mismo proceso por ahí, y así, sucesivamente.

¿Es como un pequeño spider, no?

Ni me imagino cómo hacerlo, solo tengo el concepto abstracto.
Digamos que en ese especie de bucle repetitivo, jamás saldría hasta "aspirar toda la web", pero bueno ya vería la forma de salir de ahí... quizás apagando el ordenador... (ja ja ja).


Bromas aparte:
¿Se puede por ejemplo, "chupar" una HOME PAGE, guardarla en una variable, acceder al DOM, y elegir con cuáles meta tag me quedo?

Tengo una idea en base de todo este "melange", pero no me imagino cómo plasmarla.

De todos modos, si los EXPERTOS, no tienen ganas de poner código... al menos me dirían si se puede hacer y si sería muy difícil.

Para mi sería un excelente punto de partida para entender cómo funciona Perl y de manera práctica entenderlo y practicarlo.


Gracias a esta magnifica comunidad.
alyse
Perlero nuevo
Perlero nuevo
 
Mensajes: 2
Registrado: 2008-02-29 06:22 @307

Publicidad

Notapor explorer » 2008-03-01 08:18 @387

El tema de los spiders se ha tratado ya en algunos hilos, que podrás encontrar con el sistema de búsqueda, por la palabra 'spider'. Por ejemplo:
* Robot Spider
* Creando un mini spider
* Ejercicios Perl y Bash

En CPAN hay también algunos módulos específicos para esta tarea. Igual que antes, busca por la palabra 'spìder'.

Si quieres hacerlo de forma sencilla, puedes probar con el módulo WWW::Mechanize, por ejemplo. O incluso empezar a más bajo nivel, con el paquete LWP, que seguramente lo tendrás ya instalado.
JF^D Perl programming & Raku programming. Grupo en Telegram: https://t.me/Perl_ES
Avatar de Usuario
explorer
Administrador
Administrador
 
Mensajes: 14480
Registrado: 2005-07-24 18:12 @800
Ubicación: Valladolid, España


Volver a Básico

¿Quién está conectado?

Usuarios navegando por este Foro: No hay usuarios registrados visitando el Foro y 10 invitados

cron