Foro - Perl en Español

por **Julioc86** » 2006-04-15 19:13 @842

Hola necesito obtener de un documento html un arreglo de las etiquetas <a href="...">cualquier cosa</a> lo he intentando con expresiones regulares pero no ha funcionado, necesito obtener todas las direcciones que tiene la web, ¿alguien tiene una idea?

Código: Seleccionar todo: #!/usr/bin/perl -l use LWP::Simple; use HTML::LinkExtor; ## Leemos el documento HTML $doc = get("http://perlenespanol.com/foro/index.php"); ## Extraemos los enlaces que hay dentro $extractor = HTML::LinkExtor->new; $extractor->parse($doc); ## Pintado de sólo los enlaces con marca 'a' y con atributo 'href' foreach $enlace ( $extractor->links ) { ($tag,%links) = @{$enlace}; next unless $tag eq "a"; print $links{href} if defined $links{href}; }

HTML::LinkExtractor permite extraer más información (como el texto del enlace).

Con expresiones regulares, se puede intentar con algo sencillo:

Código: Seleccionar todo: #!/usr/bin/perl -l $doc = do{ local $/; open F,"index.html"; <F>}; while( $doc =~ /<\s*a.*?href="(.+?)"/sig) { print $1; }

Otro ejemplo en este mismo foro.

por **creating021** » 2006-04-16 10:51 @494

O puedes hacer algo como esto:

Código: Seleccionar todo: my $html = "<a href="http://perlenespanol.com"</a>"; my @todo = split / /, $html; foreach my $palabra (@todo){ if($palabra =~ /^href=(.*)$/){ $palabra =~ s/href="//g; $palabra =~ s/"//g; $palabra =~ s/\<(a|A)\/\>//g; print "Link => ", $palabra, "\n"; } }

O algo asi.

Perl user · por **Perl user** » 2006-04-16 19:04 @836

Las respuestas donde te pusieron una expresión regular directamente no es mala, pero es la peor solución, para hacer el parsing de una URL/URI con una expresión regular no es TAN sencillo y requiere de mas trabajo que el que te pusieron.

Recomiendo aparte del uso de HTML::LinkExtor como ya te mencionaron, el uso de WWW::Mechanize, el cual solo te costará invocar un sólo método, checa la documentación.

Best regards,

Foro - Perl en Español

Obtener de un documento HTML las etiquetas <a>

Obtener de un documento HTML las etiquetas <a>

Publicidad

Re: Obtener de un documento HTML las etiquetas <a>

¿Quién está conectado?