Foro - Perl en Español

por **Stoner** » 2011-03-31 09:43 @446

Hola perleros.
Tengo un problema de optimización con un pequeño script. Lo que tengo que hacer es: teniendo dos archivos, comprobar que la primera parte (hasta el primer espacio) de cada línea de uno de los archivos se encuentre en el otro archivo, y de no ser así, pegar toda esa línea en un nuevo archivo resultado.

Mi script es el siguiente;

Sintáxis: [ Descargar ] [ Ocultar ]

Using perl Syntax Highlighting

#!/usr/bin/perl
 
use strict;
 
use warnings;
 
open (FILE ,"archivo1");
open (FILE2 ,"archivo2");
 
my %hash;
 
foreach my $line (<FILE>)
{
        my @linea = split( /\t/, $line );
        my $lectura = $linea[0];
        my $veces++;
        $hash{$lectura} = $veces;
}
foreach my $line2 (<FILE2>) 
{
        my @linea2 = split( /\t/, $line2 );
        my $lectura2 = $linea2[0];
        unless (defined $hash{$lectura2})
                {
                open OUTPUT,">>resultado";
                print OUTPUT "$line2";
                close OUTPUT;
                }
}
close (FILE);
close (FILE2);
 
END;
Coloreado en 0.002 segundos,  usando GeSHi 1.0.8.4

El script hace lo que pretendo, pero el gran problema es que mis archivos son terriblemente grandes (aproximadamente unos 4GB cada uno, aunque los he particionado).

¿Alguna idea de cómo podría hacer que mi programa fuera más rápido?

Hasta el momento, de todas las soluciones que he probado la de trabajar con el hash es la que mejor resultado me ha dado (grep era mucho más lento).

Un saludo.

#!/usr/bin/perl
#use strict;                            # comentamos a estos dos, para desactivar los controles
#use warnings;
 
open (OUTPUT, '>>','resultado');        # solo abrimos una vez el fichero resultado
 
my %hash;
open FILE1 , '<', 'archivo1';
while (<FILE1>) {
   $hash{ (split /\t/, $_, 2)[0] } = 1; # partimos en 2 cada línea, y nos quedamos con la [0]
}
close FILE1;
 
my $linea;
open FILE2 , '<', 'archivo2';
while ($linea = <FILE2>) {
    if ( not exists $hash{ (split /\t/, $linea, 2)[0] } ) {
        print OUTPUT $linea;
    }
}
close OUTPUT;
close FILE2;
Coloreado en 0.002 segundos,  usando GeSHi 1.0.8.4

También depende un poco de cómo sean los ficheros de entrada, se podría optimizar los split().

Si usas Perl v5.10, se puede también escribir así:

Sintáxis: [ Descargar ] [ Ocultar ]

Using perl Syntax Highlighting

while ($linea = <FILE2>) {
    my $clave = (split /\t/, $linea, 2)[0];
    if ( not $clave ~~ %hash ) {
        print OUTPUT $linea;
    }
}
Coloreado en 0.001 segundos,  usando GeSHi 1.0.8.4

Cambiamos los for() por while(), ya que los primeros provocarían la lectura de todo el fichero en memoria, en lugar de los segundos, que le leerían línea a línea.

por **Stoner** » 2011-03-31 11:26 @518

El script corre mucho más rápido.

¡Muchas gracias, Explorer!

Foro - Perl en Español

Optimizar script

Optimizar script

Publicidad

Re: Optimizar script

Re: Optimizar script

¿Quién está conectado?