Foro - Perl en Español

por **enric73** » 2013-12-11 10:56 @497

Hola, compañeros.

Con el siguiente código interpreto la información de una web utilizando HTML::TableExtract. Se leen dos tablas. Por pantalla sale lo que he pegado después del código, y necesitaría guardar la información en un fichero csv en el formato que indico en la parte inferior de esta consulta. Muchas gracias por adelantado.

Sintáxis: [ Descargar ] [ Ocultar ]

Using perl Syntax Highlighting

#!/usr/local/bin/perl
use strict;
use warnings;
use utf8::all;
use v5.10;
use LWP::Simple;
use HTML::TableExtract;
use String::Util qw< trim >;
use Text::CSV;
 
my $page = "http://www.tuixent-lavansa.com/pagina/inicial";
my $html = get( $page );
 
my $te = HTML::TableExtract->new();
$te->parse($html);
my @tables = $te->tables;
my @rows = $tables[0]->rows;
shift @rows;
 
my @titles = map { trim( $_->[0] ) } @rows;
my @values = map { trim( $_->[1] ) } @rows;
my $csv = Text::CSV->new ( { binary => 1, eol => $/ } ) or die;
$csv->print( \*STDOUT, \@titles);
$csv->print( \*STDOUT, \@values);
 
my $te2 = HTML::TableExtract->new();
$te2->parse($html);
my @tables2 = $te2->tables;
my @rows2 = $tables2[1]->rows;
shift @rows2;
 
my @titles2 = map { trim( $_->[0] ) } @rows2;
my @values2 = map { trim( $_->[1] ) } @rows2;
 
 
my $csv = Text::CSV->new ( { binary => 1, eol => $/ } ) or die;
$csv->print( \*STDOUT, \@titles2 );
$csv->print( \*STDOUT, \@values2 );
 
Coloreado en 0.002 segundos,  usando GeSHi 1.0.8.4

Resultado por pantalla es:

Sintáxis: [ Descargar ] [ Ocultar ]

Using bash Syntax Highlighting

[enric@localhost parsejar]$ ./tuixentOK.pl 
"my" variable $csv masks earlier declaration in same scope at ./tuixentOK.pl line 36.
"ACCÉS","ESTACIÓ",LLOGUER,"RESTAURANT L'ARP"
OBERT,OBERTA,OBERT,OBERT
QUALITAT,"GRUIX MINÍM","GRUIX MÀXIM","KM MARCATS"
Pols,"15 cm","50 cm","20 Km"
Coloreado en 0.003 segundos,  usando GeSHi 1.0.8.4

Lo que necesito es guardar en un csv una parte de estos datos y en dos líneas, eliminado cm., km., añadiendo guiones en los campos (REMUNTADORS y PISTAS) donde la web no ofrece información y en el formato siguiente, la cabecera en la primera línea y en la segunda los datos.

ESTACIÓ,ESTAT, ACCÉS,NEU,GRUIX.MAX,GRUIX.MIN,REMUNTADORS, PISTES,KM
Tuixent, oberta,obert, Pols, 50,15,-,-,20

Saludos y gracias.
¿Alguien me puede ayudar en este tramo final?

Antes de eso debes aclarar un tema...

La página está codificada en ISO-8859-15. En el código no haces ningún tipo de transformación de caracteres. Pero tienes activado el módulo utf8::all, con lo que todas las salidas y entradas las tomará en UTF-8.

El caso es que es importante saber en qué codificación quieres que sea la salida, la del csv.

por **explorer** » 2013-12-11 22:13 @967

Esta es una posible solución. La salida se hace en utf8.

Sintáxis: [ Descargar ] [ Ocultar ]

Using perl Syntax Highlighting

#!/usr/bin/perl
use v5.10;
use autodie;
use utf8::all;
use strict;
use warnings;
use diagnostics;
 
## Obtener la página
use LWP::Simple;
my $html = get("http://www.tuixent-lavansa.com/pagina/inicial");        # la página llega en iso-8859-15 y se pasa a unicode
 
 
## Interpretación del contenido
use HTML::TableExtract;
my $te = HTML::TableExtract->new();
$te->parse($html);
my @tables = $te->tables;
 
 
## Primera tabla
my @rows = $tables[0]->rows;
shift @rows;                                                    # la primera línea no interesa
   
#my @titles = map { $_->[0] } @rows;
my @values = map { $_->[1] } @rows;
 
 
## Segunda tabla
@rows = $tables[1]->rows;
shift @rows;
 
#@titles = (@titles, map { $_->[0] } @rows);                    # agregamos a los que teníamos 
@values = (@values, map { $_->[1] } @rows);
 
 
## Arreglar valores
#@titles = map { arregla($_) } @titles;
@values = map { arregla($_) } @values;
 
 
## Agregar datos
my @titles = qw(ESTACIÓ ESTAT ACCÉS NEU GRUIX.MAX GRUIX.MIN REMUNTADORS PISTES KM);
 
splice @values,  0, 0, 'Tuixent';                               # nombre de la estación
@values[1,2] = @values[2,1];                                    # intercambiar estado y acceso
splice @values, 3, 2;                                           # quitar lloguer i restaurant
splice @values, -1, 0, '-',  '-';                               # remontadors i pistes
 
## Salida en formato CSV
use Text::CSV;
 my $csv = Text::CSV->new ({
    binary => 1,
    eol    => $/,
});
$csv->print( \*STDOUT, \@titles);                               # la salida es pasada a UTF-8
$csv->print( \*STDOUT, \@values);
 
### Subrutinas
sub arregla {
    my $txt = shift;
 
    if (defined $txt) {                                         # si tenemos un valor definido
                                                                # $txt sigue estando en unicode
        $txt =~ s/^\s+//;                                       # le quitamos los espacios (toda clase de espacios)
        $txt =~ s/\s+$//;
 
        $txt =~ s/\s+(c|k)m$//i;                                # quitamos unidades
        #say "[$txt]";
    }
    return $txt;
}
 
__END__
Coloreado en 0.003 segundos,  usando GeSHi 1.0.8.4

Sale:

Sintáxis: [ Descargar ] [ Ocultar ]

Using text Syntax Highlighting

"ESTACIÓ",ESTAT,"ACCÉS",NEU,GRUIX.MAX,GRUIX.MIN,REMUNTADORS,PISTES,KM

Tuixent,OBERTA,OBERT,Pols,15,50,-,-,20Coloreado en 0.000 segundos,  usando GeSHi 1.0.8.4

Algunas consideraciones:

solo necesitas crear e interpretar una sola vez la página que recibes. Una vez interpretada, solo tienes que acceder al array @tables para acceder a las distintas tablas
no es necesario procesar los títulos, porque ya sabemos cuáles son. O dicho de otra manera: necesitaríamos unas cuántas líneas para cambiar de nombre, insertar nuevos o borrar títulos nuevos. En lugar de eso, los asignamos en la línea 43 y ya solo queda arreglar la posición de los @values (esa también es la razón por la cual están comentadas casi todas las líneas que leen los @titles)
la clave está en la línea 34, donde unimos los @values de las dos tablas

por **enric73** » 2013-12-12 06:47 @324

Muchas gracias, explorer.

Un par de preguntas.

dentro de la subrutina arregla() he añadido una conversión de mayúsculas a minúsculas para dos palabras. ¿Hay alguna manera de transformar todas las mayúsculas a minúsculas para todas las palabras que puedan aparecer?
Sintáxis: [ Descargar ] [ Ocultar ]
Sintáxis: [ Descargar ] [ Mostrar ]
Using perl Syntax Highlighting
1. $txt =~ s/OBERTA/oberta/g;
2. $txt =~ s/OBERT/obert/g;
Coloreado en 0.001 segundos, usando GeSHi 1.0.8.4
si estuviera interesado en sumar dos elementos del array @values (por ejemplo, sumar GRUIX.MAX y GRUIX.MIN), ¿cómo lo harías? Es un simple ejemplo

Muchas gracias y saludos.

por **Aceitunas** » 2013-12-12 06:59 @333

De la web:

Sintáxis: [ Descargar ] [ Ocultar ]

Using perl Syntax Highlighting

my $string = "URIEL";
 
print lc($string); #Imprime uriel
Coloreado en 0.001 segundos,  usando GeSHi 1.0.8.4

No me digas que no sabes sumar dos elementos. :roll:

por **enric73** » 2013-12-12 07:16 @344

Gracias, Aceitunas.

Lo he introducido de esta manera:

Sintáxis: [ Descargar ] [ Ocultar ]

Using perl Syntax Highlighting

$txt = lc($txt);
Coloreado en 0.001 segundos,  usando GeSHi 1.0.8.4

Sintáxis: [ Descargar ] [ Ocultar ]

Using perl Syntax Highlighting

my $var = $values[4] + $values[5];
print   $var; 
Coloreado en 0.001 segundos,  usando GeSHi 1.0.8.4

Ya he aprendido a sumar

Era fácil

por **enric73** » 2013-12-12 19:10 @840

Hola, compañeros.

Siguiendo la línea de otro tema planteado esta semana, en este script se capturan diferentes columnas de una tabla de una web, el resultado está al final, donde tengo alguna duda.

Sintáxis: [ Descargar ] [ Ocultar ]

Using perl Syntax Highlighting

#!/usr/local/bin/perl
use v5.10;
use autodie;
use utf8::all;
use strict;
use warnings;
use diagnostics;
     
## Obtener la página
use LWP::Simple;
my $html = get("http://www.naturlandia.ad/activitats/estat");        # la página llega en iso-8859-15 y se pasa a unicode
 
## Nombre fichero salida    
my $output_file = 'rabassa.csv'; 
    
## Interpretación del contenido
use HTML::TableExtract;
my $te = HTML::TableExtract->new();
$te->parse($html);
my @tables = $te->tables;
     
     
## tabla
my @rows = $tables[0]->rows;
shift @rows;                                                    # la primera línea no interesa
       
 
my @values = map { $_->[1],$_->[2],$_->[3],$_->[5] } @rows;     #tomo las columnas de interés
@values = map { arregla($_) } @values;     
my @titles = qw(ESTACIO ESTAT ACCES NEU GRUIX.MAX GRUIX.MIN REMUNTADORS PISTES KM);    
 
splice @values, 3, 3;
splice @values, 4, 3;
splice @values, 5, 3;
splice @values, 7, 7;
splice @values,  0, 0, 'Rabassa'; 
splice @values, -1, 0, '-',  '-';
my $km = $values[3] + $values[4]+ $values[5] + $values[6];   #sumo km de pistas abiertas
splice @values, 3, 4;
splice @values, 6, 0, $km;
 
## Salida en formato CSV
open my $fh, ">:encoding(utf8)", $output_file or die $!;
use Text::CSV;
my $csv = Text::CSV->new ({
binary => 1,
eol    => $/,
});
$csv->print( \*STDOUT, \@titles);                               # la salida es pasada a UTF-8
$csv->print( \*STDOUT, \@values);
##$csv->print( $fh, \@titles);                               # la salida es pasada a UTF-8
##$csv->print( $fh, \@values);
 
close $fh; 
 
### Subrutinas
sub arregla {
my $txt = shift;
     
if (defined $txt) {                                         # si tenemos un valor definido
                                                                    # $txt sigue estando en unicode
$txt =~ s/^\s+//;                                       # le quitamos los espacios (toda clase de espacios)
$txt =~ s/\s+$//;
$txt = lc($txt);
Coloreado en 0.002 segundos,  usando GeSHi 1.0.8.4

Resultado al ejecutar:

Sintáxis: [ Descargar ] [ Ocultar ]

Using text Syntax Highlighting

[enric@localhost parsejar]$ ./rabassa.pl

ESTACIO,ESTAT,ACCES,NEU,GRUIX.MAX,GRUIX.MIN,REMUNTADORS,PISTES,KM

Rabassa,"mín: 30","mín: 60",dura,-,-,14.8,Coloreado en 0.000 segundos,  usando GeSHi 1.0.8.4

Dudas:

no he podido eliminar del 2 y 3 elemento la palabra "mín: " y que solamente quede el número, ¿Cómo puedo eliminarlo?
al final del array, aparece una coma, "14.8," ¿Cómo puedo eliminar esta coma final?

Gracias

por **explorer** » 2013-12-12 21:42 @946

Para quitar la palabra 'mín:', se podría intentar con una expresión regular y el operador de sustitución s///.

En cuanto a la coma... algo anda mal... tienes 9 columnas en la cabecera, pero en la línea de datos solo hay 8. Esa es la razón de que hay una coma más: falta un dato.

por **enric73** » 2013-12-13 04:10 @215

Hola explorer,

Gracias, lo de la coma ya está solucionado.

En cuanto a la expresión regular y el operador s///, he introducido en la subrutina arregla() el siguiente código para quedarme con las cifras pero, lógicamente, se carga todas las palabras que están en otros elementos

Sintáxis: [ Descargar ] [ Ocultar ]

Using perl Syntax Highlighting

$txt =~ s/[^0-9]//g; 
Coloreado en 0.001 segundos,  usando GeSHi 1.0.8.4

He intentado eliminar solamente 'mín:' de los elementos "mín: 30","mín: 60", pero no resulta:

Sintáxis: [ Descargar ] [ Ocultar ]

Using perl Syntax Highlighting

$txt =~ s/(mín:)//g;
$txt =~ s/mín://g;
Coloreado en 0.001 segundos,  usando GeSHi 1.0.8.4

¿La solución sería aplicar la primera expresión regular que elimina las letras aplicándolo en el segundo y tercer elemento, en vez de introducirla dentro de la subrutina?

Saludos y gracias.

por **explorer** » 2013-12-13 09:59 @458

El problema creo que está en la letra 'í': no sabemos en qué codificación te llegan los datos; y no sabemos en qué codificación tienes hecho el programa (como estás usando utf8::all sospechamos que editas tus programas en un ambiente utf-8).

Mira, a mí sí que me funciona:

Sintáxis: [ Descargar ] [ Ocultar ]

Using bash Syntax Highlighting

$ perl  -E '$x = "mín: 60"; $x =~ s/^mín: //; say "[$x]";'
[60]
Coloreado en 0.001 segundos,  usando GeSHi 1.0.8.4

estoy en una terminal con codificación utf-8. Incluso puedo indicarle a Perl que el código está en utf-8 y también funciona:

Sintáxis: [ Descargar ] [ Ocultar ]

Using bash Syntax Highlighting

$ perl  -E 'use utf8::all; $x = "mín: 60"; $x =~ s/^mín: //; say "[$x]";'
[60]
Coloreado en 0.001 segundos,  usando GeSHi 1.0.8.4

Foro - Perl en Español

Consulta sobre HTML::TableExtract

Consulta sobre HTML::TableExtract

Publicidad

Re: Consulta sobre HTML::TableExtract

Re: Consulta sobre HTML::TableExtract

Re: Consulta sobre HTML::TableExtract

Re: Consulta sobre HTML::TableExtract

Re: Consulta sobre HTML::TableExtract

Re: Consulta sobre HTML::TableExtract

Re: Consulta sobre HTML::TableExtract

Re: Consulta sobre HTML::TableExtract

Re: Consulta sobre HTML::TableExtract

¿Quién está conectado?