Foro - Perl en Español

por **LuisFra** » 2008-07-17 16:50 @743

Hola, soy nuevo en esto pero necesito sacar de un sitio web público ciertos datos de las páginas y ordenarlos en una hoja Excel, por ejemplo. El sitio es: http://www.protecnet.go.cr/InsumoSys/Principal.htm

En la consulta por plaguicidas y coadyuvantes obtengo toda la lista de unos 2876 registros de los cuales me interesa sacar los datos (por ejemplo éstos que corresponden al primer registro) y así que el programa me extraiga esos datos de todos los registros y los pueda exportar en una hoja Excel, p.ej.

Código: Seleccionar todo: Código: 3110 Nombre comercial: 2,4-D 40 SL Fecha de registro: 1/Oct/1991 Tomo Folio Asiento: VII 404 1977 Clases: Herbicida Ingredientes : concentración mínima - máxima. 2,4-D 0 - 40 Cultivos: Arroz. Caña de azúcar. Maiz. Pastos. Sorgo. Toxicidad: Moderadamente peligroso DL50 Técnico: 0 DL50 Formulado: 0 Tipo: Formulado Registro cancelado: NO Observaciones: Fabricantes aprobados: Formulaciones Quimicas S.A Costa Rica Datos de la Compañía Registrante: Código: 6

De antemano, gracias por la ayuda.

$browser= LWP::UserAgent->new;
$browser->timeout(10);
$browser->agent("Mozilla/5.0 (Windows; U; Windows NT 5.1; es-ES; rv:1.8.1.14) Gecko/20080404 Firefox/2.0.0.14");
$browser->default_header("Referer"=>$url);
@code=split("\n",($source=($browser->get($url))->content));Coloreado en 0.004 segundos,  usando GeSHi 1.0.8.4

Luego podrías hacer un foreach y con reg, empezar a sacar los valores que desees luego (y no sé, la verdad, si Excel soporta xml), podrías exportarlo a un xml, para luego importarlo desde Excel.

¡Saludos!

por **explorer** » 2008-07-29 21:55 @955

Este es un proyecto de web scrapping.

Requiere hacer algo de investigación para saber dónde y cómo debemos extraer la información.

Partimos de un enlace http://www.protecnet.go.cr/InsumoSys/Principal.htm, del cual vemos que consiste en un conjunto de marcos. El marco que nos interesa está en el enlace http://www.protecnet.go.cr/InsumoSys/Menu.asp, pues contiene el formulario que hace la petición de información.

Necesitamos averiguar todos los detalles del formulario y del resultado.

Instalamos el módulo WWW::Mechanize. Además del propio módulo, se instalará el programa mech_dump, que nos dirá el formato del formulario.

Lo ejecutamos y vemos

Código: Seleccionar todo: explorer@casa:~/Documents/Desarrollo> mech-dump http://www.protecnet.go.cr/InsumoSys/Menu.asp POST http://www.protecnet.go.cr/InsumoSys/ConsultarListaInsumos.asp [frmMenu] selConsulta=Plaguicidas (option) [*Plaguicidas/Plaguicidas y coadyuvantes|Fertilizantes|Eq txtCodigo= (text) selCultivos=0 (option) [*0/Cualquiera|264/(Reg.Crec.) Caña de azúcar|38/Aceituna selPlagComercial=Cualquiera (option) [*Cualquiera|2,4-D 40 SL|2,4-D 60 SL|2,4-D 72 SL|2,4-D 97 selClasePlag=Cualquiera (option) [*Cualquiera|2/Acaricida|45/Acaricida Invertebrado|9/Acei selActivos=0 (option) [*0/Cualquiera|345/1-Naftil Acido Acetico|180/2,4-D|657/2 selAgentes=0 (option) [*0/Cualquiera|123/Acacia cornigera|217/Acacia farneciana selToxicidad=0 (option) [*0/Cualquiera|1/Altamente peligroso|2/Extremadamente pel selFertComercial=Cualquiera (option) [*Cualquiera|FCC Acido Borico 99.8%/FCC Acido Borico 99. selComponentes=0 (option) [*0/Cualquiera|322/1 - Triacontanol|239/AATC|304/Aceite d selEqpMarcas=Cualquiera (option) [*Cualquiera|Aerospatiale|AGRO-LHAURA|Agro-top|Agroboss|A selTiposEqp=0 (option) [*0/Cualquiera|44/Abonadora|46/Abonadora de traccion hum| btnConsultar=Consultar (submit)

(las líneas son mucho más largas, así que las he abreviado)

Ahora ya sabemos cómo hacer la consulta. Escribimos la siguiente prueba:

Sintáxis: [ Descargar ] [ Ocultar ]

Using perl Syntax Highlighting

#!/usr/bin/perl
use strict;
use warnings;
use diagnostics;

use WWW::Mechanize;

my$mech= WWW::Mechanize->new();

# Página de dónde partimos
$mech->get('http://www.protecnet.go.cr/InsumoSys/Menu.asp');

# Solicitamos lista de Plaguicidas
$mech->submit_form(

    form_name =>'frmMenu',

    fields    =>{

        selConsulta      =>'Plaguicidas',

        txtCodigo        =>'',

        selCultivos      =>0,

        selPlagComercial =>'Cualquiera',

        selClasePlag     =>'Cualquiera',

        selActivos       =>0,

        selAgentes       =>0,

        selToxicidad     =>0,

        selFertComercial =>'Cualquiera',

        selComponentes   =>0,

        selEqpMarcas     =>'Cualquiera',

        selTiposEqp      =>0,
},

    button =>'btnConsultar',
);

# Recorremos todos los enlaces
foreachmy$enlace($mech->links()){
print$enlace->text(),"->",$enlace->url(),"\n";
}Coloreado en 0.002 segundos,  usando GeSHi 1.0.8.4

y vemos que, efectivamente, aparecen todos los enlaces.

Bueno, ahora ya sabemos cómo hacer la petición al formulario para obtener el listado.

Como el resultado de cada plaguicida está en una página HTML en la que los datos están puestos en forma de tabla, voy a instalar también el módulo HTML::TableContentParser.

Vamos a ver el aspecto que va a tener la estructura devuelta por HTML::TableContentParser. Nos interesa, además, quedarnos solo con la tabla 'id' => 'AutoNumber1', así que filtraremos el array de las @$tablas por la primera ([0]) que corresponda a esa identificación.

Sintáxis: [ Descargar ] [ Ocultar ]

Using perl Syntax Highlighting

#!/usr/bin/perl
use strict;
use warnings;
use diagnostics;

use WWW::Mechanize;
use HTML::TableContentParser;

my$mech= WWW::Mechanize->new();
my$parser= HTML::TableContentParser->new();

$mech->get('http://www.protecnet.go.cr/insumosys/ConsultarInsumo.asp?cCodigo=4913&sTipoQry=Plaguicidas');
my$tablas=$parser->parse($mech->content());

my@tablas_principales=grep{exists$_->{id}and$_->{id}eq'AutoNumber1'}@$tablas;
my$tabla_principal=$tablas_principales[0];

use Data::Dumper;
print Dumper($tabla_principal);Coloreado en 0.002 segundos,  usando GeSHi 1.0.8.4

y ya tenemos la estructura de nuestra página:

Código: Seleccionar todo: $VAR1 = { 'width' => '75%', 'style' => 'border-collapse: collapse', 'cellspacing' => '4', 'id' => 'AutoNumber1', 'cellpadding' => '0', 'rows' => [ { 'cells' => [ { 'width' => '100%', 'bgcolor' => '#008080', 'colspan' => '2', 'data' => ' <font color="#FFFFFF" face="Verdana, Arial, Helvetica, sans-serif" size="2">Datos del Plaguicida:</font>', 'height' => '30' } ], 'data' => ' ' }, ...

Es decir, es un hash cuyo clave 'rows' contiene un array cuyos elementos son hashes, cuya clave 'data' contiene el valor de las celdas.

Solo nos quedaría filtrar las marchas HTML dentro de las celdas, pero eso lo haremos con otro módulo.

Hay algunas excepciones que debemos tratar:

Algunas celdas contienen cabeceras que no nos interesan almacenar. Son las que tienen un color de fondo verde y letra blanca; y las que tienen fondo blanco en la primera celda (titular)
Hay celdas de contenidos que pueden corresponder a una sola de titular, como el caso de 'Clases', 'Ingredientes' y 'Agentes'. Se supone que queremos que salgan todos juntos en la misma celda, en Excel
En la sección de 'Fabricantes aprobados', siempre puede ser distinto el nombre del fabricante, luego quiere decir que esa sección se debe tratar como un conjunto y no como celdas individuales.

Vamos a hacer una prueba de sacar la información contenida en esa página:

Sintáxis: [ Descargar ] [ Ocultar ]

Using perl Syntax Highlighting

#!/usr/bin/perl
use strict;
use warnings;
use diagnostics;

$|++;

use WWW::Mechanize;
use HTML::TableContentParser;
use HTML::Entities;
use HTML::Strip;

my$mech= WWW::Mechanize->new();
my$parser= HTML::TableContentParser->new();
my$hs= HTML::Strip->new();

$mech->get('http://www.protecnet.go.cr/insumosys/ConsultarInsumo.asp?cCodigo=4913&sTipoQry=Plaguicidas');
my$tablas=$parser->parse($mech->content());

my$tabla_principal=(grep{exists$_->{id}and$_->{id}eq'AutoNumber1'}@$tablas)[0];

my$contenido;

foreachmy$fila(@{$tabla_principal->{rows}}){
foreachmy$celda(@{$fila->{cells}}){
if($celda->{data}){
$contenido=$hs->parse($celda->{data});# Quitamos las marcas HTML
$contenido=~s/\xa0/ /g;# Quitamos espacios superfluos
$contenido=~s/\s+/ /g;
$contenido=~s/^\s+//;
$contenido=~s/\s+$//;

if($celda->{bgcolor}){
if($celda->{bgcolor}eq'#008080'){# Titulares de sección
print"[$contenido=>]\n";
}
elsif($celda->{bgcolor}eq'#C6E3E3'){# Titulares normales
print"\t[$contenido]\n";
}
else{
print"\t\t!!!$contenido!!!\n";
}
}
else{
print"\t\t[$contenido]\n";
}
}
}
}Coloreado en 0.002 segundos,  usando GeSHi 1.0.8.4

La salida es:

Código: Seleccionar todo: [Datos del Plaguicida:=>] [Código:] [4913] [Nombre comercial:] [Vydate Azul 24 SL] [Fecha de registro:] [12/Dic/2002] [Tomo Folio Asiento:] [XV 136 135] [Clases:] [Insecticida] [Ingredientes : concentración mínima - máxima.] [Oxamil 0 - 24] [Agentes:] [Nematodo (Rhadopholus similis)] [] [Nemátodo (Helicotylenchus spp)] [] [Picudo del banano (Cosmopolites sordidus)] [Cultivos:] [Banano. Plátano.] [Toxicidad:] [Altamente peligroso] [DL50 Técnico:] [6] [DL50 Formulado:] [25] [Tipo:] [Formulado] [Registro cancelado:] [NO] [Observaciones:] [] [Fabricantes aprobados:=>] [E.I. Dupont De Nemours] [Estados Unidos] [Datos de la Compañía Registrante:=>] [Código:] [27] [Fecha de registro:] [14/Nov/2007] [Registrante:] [E.I. Dupont de Nemours and Co . Inc.] [Cédula:] [3-012-061907-36] [Teléfono:] [290-8822] [Nombre del Regente:] [José Luis Rojas Castro] [Otros datos del Regente:] [] [Nombre del Representante:] [Milton Pineda Cheves.] [Otros datos del Representante:] [] [Autorizados:] [] [Email:] [] [Observaciones:] [] [] [] []

La estrategia que podemos seguir es la siguiente:

Hacemos un bucle por todas las celdas que queremos extraer
Buscamos dentro de la tabla y sacamos la información

Vamos a hacer una subrutina, a la que le pasamos el titular de la celda que queremos leer, y nos devuelve ese contenido.

Caso especial es el de 'Fabricantes aprobados', de las que nos interesa el valor de las dos columnas.

Sintáxis: [ Descargar ] [ Ocultar ]

Using perl Syntax Highlighting

#!/usr/bin/perl
use strict;
use warnings;
use diagnostics;

$|++;

use WWW::Mechanize;
use HTML::TableContentParser;
use HTML::Entities;
use HTML::Strip;

my$mech= WWW::Mechanize->new();
my$parser= HTML::TableContentParser->new();
my$hs= HTML::Strip->new();

$mech->get('http://www.protecnet.go.cr/insumosys/ConsultarInsumo.asp?cCodigo=3110&sTipoQry=Plaguicidas');
my$tablas=$parser->parse($mech->content());

my$tabla_principal=(grep{exists$_->{id}and$_->{id}eq'AutoNumber1'}@$tablas)[0];

sub valor_de {
my($seccion,$titular)=@_;
my$estamos_en_la_seccion;
my$estamos_en_el_titular;
my$lo_hemos_encontrado;
my@valor_de_la_celda;

foreachmy$fila(@{$tabla_principal->{rows}}){
nextif!$fila->{cells};

my$primera_celda=$fila->{cells}->[0];

if(!$primera_celda->{bgcolor}or!$primera_celda->{data}){
$estamos_en_la_seccion=0;
}

if($primera_celda->{data}){
my$contenido= celda_filtrada($primera_celda->{data});
$contenido=~s/[\s:]+$//;

if($primera_celda->{bgcolor}and$primera_celda->{bgcolor}eq'#008080'){
$estamos_en_la_seccion=($contenidoeq$seccion)? 1 :0;
next;
}

if($primera_celda->{bgcolor}and$primera_celda->{bgcolor}eq'#C6E3E3'){
$estamos_en_el_titular
=($contenidoeq$titularor$seccioneq'Fabricantes aprobados')? 1 :0;
}
}

if($estamos_en_la_seccionand$estamos_en_el_titular){

if(!$lo_hemos_encontrado){
$lo_hemos_encontrado=1;
$titular='';
}

push@valor_de_la_celda, celda_filtrada($fila->{cells}->[0]->{data})
if$seccioneq'Fabricantes aprobados';

push@valor_de_la_celda, celda_filtrada($fila->{cells}->[1]->{data});
}
elsif($lo_hemos_encontrado){
returnjoin'|',@valor_de_la_celda;
}
}

return'';
}

sub celda_filtrada {
my$celda=shift;

$celda||='';
$celda=$hs->parse($celda);# Quitamos las marcas HTML
$celda=~s/\xa0/ /g;# y los espacios superfluos
$celda=~s/\s+/ /g;
$celda=~s/\s+$//;
$celda=~s/^\s+//;

return$celda;
}

my@celdas_a_sacar=(
['Datos del Plaguicida',"C\xF3digo"],
['Datos del Plaguicida','Nombre comercial'],
['Datos del Plaguicida','Fecha de registro'],
['Datos del Plaguicida','Tomo Folio Asiento'],
['Datos del Plaguicida','Clases'],
['Datos del Plaguicida',"Ingredientes : concentraci\xF3n m\xEDnima - m\xE1xima."],
['Datos del Plaguicida','Agentes'],
['Datos del Plaguicida','Cultivos'],
['Datos del Plaguicida','Toxicidad'],
['Datos del Plaguicida',"DL50 T\xE9cnico"],
['Datos del Plaguicida','DL50 Formulado'],
['Datos del Plaguicida','Tipo'],
['Datos del Plaguicida','Registro cancelado'],
['Datos del Plaguicida','Observaciones'],
['Fabricantes aprobados',''],
["Datos de la Compa\xF1\xEDa Registrante","C\xF3digo"],
);

foreachmy$celda(@celdas_a_sacar){

my($seccion,$titular)=@{$celda};

my$valor_de_celda= valor_de($seccion,$titular);

print"$seccion/$titular => $valor_de_celda\n";
}Coloreado en 0.005 segundos,  usando GeSHi 1.0.8.4

Sale

Código: Seleccionar todo: explorer@casa:~/Documents/Desarrollo> ./parsea_plaguicida.pl Datos del Plaguicida/Código => 3110 Datos del Plaguicida/Nombre comercial => 2,4-D 40 SL Datos del Plaguicida/Fecha de registro => 1/Oct/1991 Datos del Plaguicida/Tomo Folio Asiento => VII 404 1977 Datos del Plaguicida/Clases => Herbicida Datos del Plaguicida/Ingredientes : concentración mínima - máxima. => 2,4-D 0 - 40 Datos del Plaguicida/Agentes => Datos del Plaguicida/Cultivos => Arroz. Caña de azúcar. Maiz. Pastos. Sorgo. Datos del Plaguicida/Toxicidad => Moderadamente peligroso Datos del Plaguicida/DL50 Técnico => 0 Datos del Plaguicida/DL50 Formulado => 0 Datos del Plaguicida/Tipo => Formulado Datos del Plaguicida/Registro cancelado => NO Datos del Plaguicida/Observaciones => Fabricantes aprobados/ => Formulaciones Quimicas S.A|Costa Rica Datos de la Compañía Registrante/Código => 6

Naturalmente, no es eficiente, porque estamos haciendo una búsqueda por la tabla por cada valor que queremos buscar. Hubiera sido mejor leer toda la tabla, pasarla a una estructura interna y de allí, leer los valores que nos interesan.

Y además... estamos haciendo algunas cosas que se supone que no deberíamos hacer (somos muy vagos). Estamos escribiendo mucho código para algo que debería ser, en teoría, sencillo. Es el momento de cambiar de enfoque. En Perl, eso se consigue cambiando de módulos.

Cambiaremos el módulo HTML::TableContentParser por HTML::TableParser.

El código queda mucho más simple:

Sintáxis: [ Descargar ] [ Ocultar ]

Using perl Syntax Highlighting

#!/usr/bin/perl
use strict;
use warnings;
use diagnostics;

use WWW::Mechanize;
use HTML::TableParser;

## Titulares que realmente nos interesan extraer
# Se indican en el orden en que queremos que aparezcan
my@cabeceras_utiles=(
"Datos del Plaguicida|C\xF3digo",
'Datos del Plaguicida|Nombre comercial',
'Datos del Plaguicida|Fecha de registro',
'Datos del Plaguicida|Tomo Folio Asiento',
'Datos del Plaguicida|Clases',
"Datos del Plaguicida|Ingredientes :concentraci\xF3n m\xEDnima - m\xE1xima.",
'Datos del Plaguicida|Agentes',
'Datos del Plaguicida|Cultivos',
'Datos del Plaguicida|Toxicidad',
"Datos del Plaguicida|DL50 T\xE9cnico",
'Datos del Plaguicida|DL50 Formulado',
'Datos del Plaguicida|Tipo',
'Datos del Plaguicida|Registro cancelado',
'Datos del Plaguicida|Observaciones',
'Fabricantes aprobados',
"Datos de la Compa\xF1\xEDa Registrante|C\xF3digo",
);
my$i=0;
my%cabeceras_utiles=map{$_=>$i++}@cabeceras_utiles;

## Nuestro robot rascador
my$mechanize= WWW::Mechanize->new();

## Definición de extracción de los datos en tabla
my$htmltableparser
= HTML::TableParser->new(
[{ id  =>'1.1', row =>\&fila}],
{ Decode => 1, DecodeNBSP => 1, Trim => 1, Chomp => 1 }
);

my$seccion;
my$titulo_anterior;
my@fila;

sub fila {# Por cada fila
my($id,$linea,$columnas,$udata)=@_;
my@columnas=map{s/\s+/ /g;s/\s*:$//;$_}@$columnas;

if($columnas[0]or$columnas[1]){
if($columnas[0]eq$columnas[1]){# Nueva sección
$seccion=$columnas[0];
}
else{
if($columnas[0]){
$titulo_anterior=$columnas[0];# Nuevo titular
}
my$clave=$seccion;
$clave.="|$titulo_anterior"if$seccionne'Fabricantes aprobados';
returnif!exists$cabeceras_utiles{$clave};

#print "$cabeceras_utiles{$clave}:$clave|$titulo_anterior => [$columnas[1]]\n";

push@{$fila[$cabeceras_utiles{$clave}]},$columnas[0]if$seccioneq'Fabricantes aprobados';
push@{$fila[$cabeceras_utiles{$clave}]},$columnas[1];
}
}
}

## Por cada nueva fila
# Inicializamos
@fila=();
$seccion=$titulo_anterior='';

# Obtenemos
$mechanize->get('http://www.protecnet.go.cr/insumosys/ConsultarInsumo.asp?cCodigo=4913&sTipoQry=Plaguicidas');

# Filtramos
$htmltableparser->parse($mechanize->content());
@fila=map{join"\n",@$_if$_}@fila;

# Sacamos
use Data::Dumper;
print Dumper(\@fila);

__END__
Coloreado en 0.003 segundos,  usando GeSHi 1.0.8.4

Sale

Código: Seleccionar todo: $VAR1 = [ '4913', 'Vydate Azul 24 SL', '12/Dic/2002', 'XV 136 135', 'Insecticida', 'Oxamil 0 - 24', 'Nematodo (Rhadopholus similis) Nem�todo (Helicotylenchus spp) Picudo del banano (Cosmopolites sordidus)', 'Banano. Pl�tano.', 'Altamente peligroso', '6', '25', 'Formulado', 'NO', '', 'E.I. Dupont De Nemours Estados Unidos', '27' ];

Cambiando de módulos, tenemos un sistema mucho más sencillo, rápido y directo.

Como detalle, decir que los datos de las páginas web están en codificación ISO-8859-1. Por eso, en el código (y en la salida), aparecen los caracteres acentuados con el código hexadecimal correspondiente a su codificación.

Tenemos ya las herramientas para sacar la información de las páginas web.

Ahora solo queda saber cómo escribir las hojas de cálculo en formato Excel.

Yo voy a usar el módulo Spreadsheet::SimpleExcel. Lo podía haber hecho con el módulo Spreadsheet::WriteExcel (que, además, es necesario para el primer módulo), pero hoy quería hacer las cosas sencillas

La forma de hacer la hoja será muy sencilla: introduciremos los datos que vamos leyendo como un array de array, para formar una estructura bidimensional. Y luego, en una sola línea, creamos la hoja Excel a partir de esa estructura.

El programa final queda así:

Sintáxis: [ Descargar ] [ Ocultar ]

Using perl Syntax Highlighting

#!/usr/bin/perl
#
# Rascando plaguicidas costaricenses.
#
# Joaquín Ferrero. Julio 2008.
#

use strict;
use warnings;
use diagnostics;

use WWW::Mechanize;
use HTML::TableParser;

$|++;

## Titulares que realmente nos interesan
# Se indican en el orden en que queremos que aparezcan
my@cabeceras_utiles=(
"Datos del Plaguicida|C\xF3digo",
'Datos del Plaguicida|Nombre comercial',
'Datos del Plaguicida|Fecha de registro',
'Datos del Plaguicida|Tomo Folio Asiento',
'Datos del Plaguicida|Clases',
"Datos del Plaguicida|Ingredientes :concentraci\xF3n m\xEDnima - m\xE1xima.",
'Datos del Plaguicida|Agentes',
'Datos del Plaguicida|Cultivos',
'Datos del Plaguicida|Toxicidad',
"Datos del Plaguicida|DL50 T\xE9cnico",
'Datos del Plaguicida|DL50 Formulado',
'Datos del Plaguicida|Tipo',
'Datos del Plaguicida|Registro cancelado',
'Datos del Plaguicida|Observaciones',
'Fabricantes aprobados',
'Fabricantes aprobados (pais)',
"Datos de la Compa\xF1\xEDa Registrante|C\xF3digo",
);
my$i=0;
my%cabeceras_utiles=map{$_=>$i++}@cabeceras_utiles;

## Nuestro robot rascador
my$mechanize= WWW::Mechanize->new();

## Parseo de las páginas
my$seccion;
my$titulo_anterior;
my@fila;

sub fila {# Por cada fila
my($id,$linea,$columnas,$udata)=@_;
my@columnas=map{s/\s+/ /g;s/\s*:$//;$_}@$columnas;

if($columnas[0]or$columnas[1]){
if($columnas[0]eq$columnas[1]){# Nueva sección
$seccion=$columnas[0];
}
else{
if($columnas[0]){
$titulo_anterior=$columnas[0];# Nuevo titular
}
my$clave=$seccion;
$clave.="|$titulo_anterior"if$seccionne'Fabricantes aprobados';
returnif!exists$cabeceras_utiles{$clave};

#print "$cabeceras_utiles{$clave}:$clave|$titulo_anterior => [$columnas[1]]\n";

# Caso especial para una columna
if($seccioneq'Fabricantes aprobados'){
push@{$fila[$cabeceras_utiles{$clave}]},$columnas[0];
push@{$fila[$cabeceras_utiles{$clave}+1 ]},$columnas[1];
}else{
push@{$fila[$cabeceras_utiles{$clave}]},$columnas[1];
}
}
}
}

## Por cada nueva fila
sub traemos_una_fila {
my$enlace=shift;

# Inicializamos
@fila=();
$seccion=$titulo_anterior='';

# Obtenemos
$mechanize->get($enlace);

# Filtramos
my$htmltableparser= HTML::TableParser->new(
[{ id  =>'1.1', row =>\&fila}],
{ MultiMatch => 1, Decode => 1, DecodeNBSP => 1, Trim => 1, Chomp => 1 }
);
#$HTML::TableParser::Verbose = 1;
$htmltableparser->parse($mechanize->content());
@fila=map{join"\n",@$_if$_}@fila;
}

### Programa principal

## Conectamos con la página web
print"Conectando a página principal... ";
$mechanize->get('http://www.protecnet.go.cr/InsumoSys/Menu.asp');
print"Ok\n";

# Solicitamos lista de Plaguicidas
print"Solicitando lista... ";
$mechanize->submit_form(

    form_name =>'frmMenu',

    fields    =>{

        selConsulta     =>'Plaguicidas',

        txtCodigo       =>'',

        selCultivos     =>0,

        selPlagComercial=>'Cualquiera',

        selClasePlag    =>'Cualquiera',

        selActivos      =>0,

        selAgentes      =>0,

        selToxicidad    =>0,

        selFertComercial=>'Cualquiera',

        selComponentes  =>0,

        selEqpMarcas    =>'Cualquiera',

        selTiposEqp     =>0,
},

    button =>'btnConsultar',
);
print"Ok\n";

# Recorremos todos los enlaces de la página
my@filas;
foreachmy$enlace($mechanize->links()){
print$enlace->text(),"->",$enlace->url(),"\n";


    traemos_una_fila($enlace->url());

# y la guardamos
push@filas,[@fila];

#last if !$i--;
}

# Sacamos a Excel
use Spreadsheet::SimpleExcel;
binmode(\*STDOUT);

# Cabeceras
my@header;
foreach(@cabeceras_utiles){
my($s,$t)=split/\|/;
push@header,($t)?$t:$s;
}

# Creamos un nuevo objeto Excel
my$excel= Spreadsheet::SimpleExcel->new();

# Añadimos una hoja
$excel->add_worksheet('Plaguicidas',{-headers =>\@header,-data =>\@filas});

# Salida
$excel->output_to_file("plaguicidas_cr.xls")ordie$excel->errstr();

__END__Coloreado en 0.004 segundos,  usando GeSHi 1.0.8.4

Y ya está.

Quedan algunas cosas sin comentar, como por ejemplo, qué hacen los join(), map(), split() y alguna expresión regular, a lo largo del programa, pero... este post se estaba haciendo muy largo... Si hay dudas, pues a continuación de éste.

Foro - Perl en Español

Extracción datos de web

Extracción datos de web

Publicidad

¿Quién está conectado?