Foro - Perl en Español

por **natxo** » 2012-10-27 14:11 @633

Hola.

Para ver los programas de La Sexta en la TV estoy intentando crear una página con los enlaces sin Flash (directamente localizar el archivo mp4) para que mi Popcorn Hour los pueda reproducir.

He empezado por bajar una copia de la página http://www.lasexta.com/videos/programas.html para probar sin conexión. Para ello se puede usar el ejecutable lwp-mirror si tenemos instalada la librería LWP de CPAN:

Sintáxis: [ Descargar ] [ Ocultar ]

lwp-mirror http://www.lasexta.com/videos/programas.html programas.html

Así me guardo el archivo a disco. Desde el mismo directorio ejecuto el siguiente código:

Sintáxis: [ Descargar ] [ Ocultar ]

Using perl Syntax Highlighting

use strict;
use warnings;
 
# global variables
my $programas_url = 'programas.html';
 
die "$!\n" unless -e $programas_url ;
 
# create HTML::TreeBuilder object with $programas_url
use HTML::TreeBuilder;
my $tree = HTML::TreeBuilder->new_from_file( $programas_url ) ;
 
# we want to get the info between <ul> tags with class="page1", "page2", etc.
# Inside the <ul> tag we find the programs and their links. Save that in
# @ul_tags
my @ul_tags = $tree->look_down( _tag => 'ul', class => qr/page\d/, );
 
for my $ul ( @ul_tags ) {
    printf "found new page%s\n", $ul->as_HTML;
}
 
Coloreado en 0.002 segundos,  usando GeSHi 1.0.8.4

Cuando lo ejecuto saco la información que necesito, pero no en el formato que me interesa. Lo que necesito es sacar los enlaces de los programas.

Si saco un Dumper con Data::Dumper de la información que se guarda en $ul, tiene esta pinta:

http://pastebin.com/cpqEiCy7

La información que me interesa aparece a partir de la línea 1053 en el pastebin. Ahí hay una referencia con toda la información que necesito para el paso siguiente: el nombre del programa y la URL.

No me sale desreferenciar todo esto, me lío.

Gracias de antemano por vuestra ayuda.

Lo curioso es que las propias imágenes de los programas, contienen tanto el texto del programa, como los enlaces que nos interesan (caso curioso porque las marcas <img> no deberían tener atributos 'href', según el DTD de la primera línea), y además, esta circunstancia no se repite en el resto de la página (bueno, no he mirado con mucho detalle).

Entonces, la búsqueda de lo que queremos es sencilla:

Sintáxis: [ Descargar ] [ Ocultar ]

Using perl Syntax Highlighting

#!/usr/bin/perl
use strict;
use warnings;
 
use HTML::TreeBuilder;
 
my $treebuild = HTML::TreeBuilder->new();
 
$treebuild->parse_file('programas.html')      # leemos y analizamos el archivo
    or die "ERROR en el análisis: $!\n";      # o morimos en el intento
 
my @images_href                               # sacamos un listado de <img>
    = $treebuild                              # a partir de este árbol HTML
    ->look_down(                              # mirando por
        _tag => "img",                        # las marcas <img> (claro)
        href => qr(^/videos),                 # y que además tengan un atributo href que comience por '/videos'
    ); 
 
for my $img (@images_href) {                  # para cada $img encontrada, sacamos los atributos 'alt' y 'href'
    print $img->attr('alt'), " => ", $img->attr('href'), "\n";
}
Coloreado en 0.001 segundos,  usando GeSHi 1.0.8.4

y ya tenemos el listado.

Pero claro, a lo peor un día el webmaster se da cuenta del error, y quita ese atributo.

Mejor probar con XPath:

Sintáxis: [ Descargar ] [ Ocultar ]

Using perl Syntax Highlighting

#!/usr/bin/perl
use v5.10;
use strict;
use warnings;
 
use HTML::TreeBuilder::XPath;
 
my $tree = HTML::TreeBuilder::XPath->new;
 
$tree->parse_file('programas.html');
 
for my $a ($tree->findnodes('//ul[@class[.=~ /^page\d/]]/li/div/a')) {
    say $a->attr('title'), ' => ', $a->attr('href');
}
Coloreado en 0.001 segundos,  usando GeSHi 1.0.8.4

En la ruta vamos indicando exactamente el tipo de nodo que queremos localizar. Y de él sacamos los atributos 'title' y 'href'.

La localización usa una expresión regular para buscar por los nodos <ul> que tengan un 'class' que comience por 'page' y esté seguido por un dígito cualquiera.

Con Mojolicious puedes conseguir la bajada del archivo y la obtención de los resultados con casi el mismo número de líneas que las mostradas aquí.

por **natxo** » 2012-10-28 04:00 @208

Gracias. Veo que necesito aprender qué es XPath :-)

Foro - Perl en Español

Rascado html de página de La Sexta

Rascado html de página de La Sexta

Publicidad

Re: Rascado html de página de La Sexta

Re: Rascado html de página de La Sexta

¿Quién está conectado?