Foro - Perl en Español

por **mikel_2** » 2012-05-02 09:57 @456

Siento que el título sea tan poco explicativo, pero la verdad es que no entiendo ni yo mismo cómo hacer lo que quiero :lol:

Estoy creando un script que descargue recursivamente las imágenes de todo un blog. Tengo más o menos todo montado y "funcionando" usando unicamente LWP::Simple. El problema viene al "extraer" los enlaces a esas imágenes. Lo primero que hago es descargar la página así:

Sintáxis: [ Descargar ] [ Ocultar ]

Using perl Syntax Highlighting

$html = get($page) or die "$!\n";
Coloreado en 0.001 segundos,  usando GeSHi 1.0.8.4

Ahora viene el problema y es que no entiendo cómo "extraer" los enlaces de todo ese código HTML que está dentro $html. Sé cómo "extraer" 1 solo:

Sintáxis: [ Descargar ] [ Ocultar ]

Using perl Syntax Highlighting

$html =~ m/(\d+.media.tumblr.com\/tumblr_[A-Za-z0-9_.-\/]+)/g;
Coloreado en 0.001 segundos,  usando GeSHi 1.0.8.4

¿Cómo he de hacer para sacar todos los enlaces? Pensé que '/g' me valdría para ello y los enlaces quedarían en $1, $2... y así, pero no :lol:

xD

Un saludo y gracias por pasar

, ya que con la segunda habría de saber cuántos enlaces tengo en la página, ¿no?

Tengo también varias preguntas, la más importante es: ¿qué diferencias hay entre mi expresión regular y la tuya? Me llama la atención sobretodo la diferencia que pueda haber entre m{...}g y m/.../g o los puntos dentro de los corchetes...

Un saludo y gracias por ser tan rápidos.

por **explorer** » 2012-05-02 16:01 @709

No, no necesitas saber por antelación el número de enlaces posibles. Las dos expresiones regulares hacen lo mismo.

El usar las llaves en lugar de los delimitadores normales '/.../' es para no tener que "escapar" los caracteres '/' que hubiese en el patrón (hay un carácter así delante de tumblr_.

Y el poner los puntos entre corchetes es porque queremos decir que esos puntos son literales (puntos), no son comodines (un punto en un patrón representa un carácter cualquiera).

Y repasa la respuesta anterior de danimera: hay métodos mucho más cómodos para recuperar la información de una página web.

Lo más moderno, hoy en día, es usar Mojolicious, como por ejemplo Mojo::DOM.

Foro - Perl en Español

Regex recursivo

Regex recursivo

Publicidad

Re: ¿Regex recursivo?

Re: Regex recursivo

Re: Regex recursivo

Re: Regex recursivo

¿Quién está conectado?