erv-Z escribiste:1º.- Cómo le hago para extraer todas las URL del código de fuente de una website.
No se puede. Solo se puede, con ese módulo, extraer los enlaces de un único documento HTML.
erv-Z escribiste:2º.- Cómo le hago para extraer sólo las que tenga extensión .jpg, .gif, .png u otra extensión que se me ocurra.
Este módulo no puede hacer eso. Solo devuelve los enlaces.
Es mejor usar
WWW::Mechanize para esas cosas. Tienes un ejemplo de extracción de imágenes en
WWW::Mechanize::Examples (busca por get-despair).
erv-Z escribiste:3º.- Y cómo le haría para extraer url, imágenes y todos juntos de una.
Eso es complicado, porque deberías realizar una búsqueda en profundidad por cada enlace, para seguirlo (por eso este problema se suele poner como ejercicio en todos los cursos de informática cuando se trata la recursividad). Una mejor opción es usar algo ya hecho, como usar el comando
wget (ya instalado en tu Linux), si quieres algo parecido hecho en Perl, por ejemplo
w3mir (pero hay alguno más).
Ten en cuenta que si las páginas web tienen contenido dinámico, es muy posible que no consigas bajarte todos los elementos.