Foro - Perl en Español

por **dzavallo** » 2014-06-16 18:13 @801

Hola de nuevo, sigo aprendiendo a hacer scripts en Perl.

Hasta ahora tenía uno que me servía muy bien, pero ahora que tengo archivos más grandes me tarda muchísimo en correr (pronóstico: semanas), y querría saber si me pueden ayudar a optimizarlo.

Lo que tengo que hacer es lo siguiente: Tengo dos archivos con columnas. Los dos archivos son replicas de un experimento, y lo que necesito es sumar los datos que son iguales y grabarlos en otro archivo. Para reconocer que son iguales lo que hago es dividir las columnas de los archivos, y poner un condicional en donde si determinados ID cumplen las características, que me lo sumen.

Mi programa es el siguiente:

Sintáxis: [ Descargar ] [ Ocultar ]

Using perl Syntax Highlighting

#!/usr/local/bin/perl
use strict;
use warnings;
 
my $input1 = "/home/dzavallo/Downloads/sRNAs/M82_MZA/A/join/AA_join_repeats20";
my $input2 = "/home/dzavallo/Downloads/sRNAs/M82_MZA/B/join/AB_join_repeats20";
my $output = "/home/dzavallo/Downloads/sRNAs/M82_MZA/sumados/AB_repeats20_sumados";
open( FILE1,      "<$input1.txt" )  or die "could not open $input1 file";
open( OUTPUTFILE, ">>$output.txt" ) or die "could not $output.txt output file";
while (<FILE1>) {                      ## 16    LTR     LTR:PGSC0003DMS000000392:567:723:1905:+ 13116   2947    26      SL2.50ch11      18600276        18600301
    my @split1     = split( /\s/, $_ );
    my $id1        = $split1[0];
    my $id2        = $split1[1];
    my $id3        = $split1[2];
    my $countsRPM1 = $split1[4];
    my $length1    = $split1[5];
    my $chr1       = $split1[6];
    my $coord1     = $split1[7];
    my $coord2     = $split1[8];
    open( FILE2, "<$input2.txt" ) or die "could not open $input2 file";
 
    while (<FILE2>) {                  ## 16    LTR     LTR:scaffold06318:1532:6859:6930:+      14108   2940    26      SL2.50ch06      42984094        42984119
        my @split2     = split( /\s/, $_ );
        my $id4        = $split2[0];
        my $id5        = $split2[1];
        my $id6        = $split2[2];
        my $countsRPM2 = $split2[4];
        my $length2    = $split2[5];
        my $chr2       = $split2[6];
        my $coord3     = $split2[7];
        my $coord4     = $split2[8];
        my $result     = $countsRPM1 + $countsRPM2;
        if (    ( $id3 eq $id6 )
            and ( $coord1 == $coord3 and $coord2 == $coord4 )
            and ( $chr1 eq $chr2 )
            and ( $length1 == $length2 ) ) {
            print OUTPUTFILE "$id1\t$id2\t$id3\t$result\t$length1\t$chr1\t$coord1\t$coord2\n";
            print "$countsRPM1\t$countsRPM2\t$result\n";
            print
                "$id1\t$id4\t$id2\t$id5\t$id3\t$id6\t$result\t$length1\t$length2\t$chr1\t$chr2\t$coord1\t$coord3\t$coord2\t$coord4\n";
        }
    }
}
 
Coloreado en 0.002 segundos,  usando GeSHi 1.0.8.4

Como ven, el condicional tiene que cumplir que los ID y los cromosomas sean los mismos, y además que las coordenadas sean las mismas, entre otras cosas.

Si es así, que imprima la suma y otras variables en un archivo de salida.

El tema es que los archivos tienen como 1 millón de líneas y al correrlo veo que cada suma tarda entre dos o tres segundos.

Entiendo que es un programa muy rudimentario y poco eficiente, ya que tiene que abrir y leer los archivos cada vez. ¿Tal vez un hash me ayude a optimizarlo?

¿Alguna ayuda de cómo podría hacerlo?

Me han dicho que con comandos de bash seguro que me anda más rápido (estilo awk y grep), pero quería probar y de paso aprender a tratar de hacerlo en Perl.

Gracias de antemano por cualquier ayuda que puedan darme.

Saludos.

#!/usr/local/bin/perl
# JF 20140617
use v5.14;
use autodie;
 
## Índices a las columnas
use constant {
        ID1             => 0,
        ID2             => 1,
        ID3             => 2,
        CUENTARPM       => 4,
        LARGO           => 5,
        CHR             => 6,
        COORD1          => 7,
        COORD2          => 8,
};
 
## Leer archivo 2 y guardarlo en hash
my %input2;
 
open my $FILE2, '<', 'AB_join_repeats20';
while (<$FILE2>) {
        chomp;                                                                                  # quitar finales de línea
        my @campos = split;                                                                     # dividir
        next if @campos != 9;                                                                   # si no hay 9 campos, saltar a la siguiente línea
 
        $input2{ join '|', @campos[ID3,COORD1,COORD2,CHR,LARGO] } = $campos[CUENTARPM];         # guardamos la cuenta RPM, pero indexada en el hash
}
close $FILE2;
 
#use Data::Dumper;
#say Dumper \%input2;
 
## Archivo de salida
open my $OUTPUTFILE, '>', 'AB_repeats20_sumados';
 
## Abrir y procesar el primer archivo
open my $FILE1, '<', 'AA_join_repeats20';
while (<$FILE1>) {
        chomp;                                                          # quitar finales de línea
        my @campos = split;                                             # dividir
        next if @campos != 9;                                           # si no hay 9 campos, saltar a la siguiente línea
 
        my $indice = join '|', @campos[ID3,COORD1,COORD2,CHR,LARGO];    # componemos el índice
 
        if (exists $input2{ $indice }) {                                # si existe esa entrada en el archivo 2...
 
                my $resultado = $campos[CUENTARPM] + $input2{$indice};  # hemos encontrado una coincidencia, hacemos la suma
 
                say $OUTPUTFILE join "\t", @campos[ID1,ID2,ID3], $resultado, @campos[LARGO,CHR,COORD1,COORD2];
        }
}
close $OUTPUTFILE;
close $FILE1;
Coloreado en 0.002 segundos,  usando GeSHi 1.0.8.4

P.D.: Estamos suponiendo que todos los registros del archivo dos son distintos. Si no es así, entonces, si los que son distintos son los del registro uno, pues cambiamos el orden de lectura y procesado de los archivos. Si se da el caso de que en los dos archivos hay registros repetidos... pues estamos hablando de otro problema distinto.

por **dzavallo** » 2014-06-17 08:50 @409

¡¡Muchas gracias!! ¡Funcionó a la perfección! ¡y rapidísimo!

Si los id1 son distintos para cada archivo, ¿hay forma de que aparezcan en el archivo de salida?

say $OUTPUTFILE join "\t", @campos[ID1,ID2,ID3], $resultado, @campos[LARGO,CHR,COORD1,COORD2];

Digamos que aparezcan el ID1 del archivo 1 y el ID1 del archivo2.

Muchas gracias de nuevo.

por **explorer** » 2014-06-17 09:42 @445

Sería algo así (no probado):

Sintáxis: [ Descargar ] [ Ocultar ]

Using perl Syntax Highlighting

#!/usr/local/bin/perl
# JF 20140617
use v5.14;
use autodie;
 
## Índices a las columnas
use constant {
        ID1             => 0,
        ID2             => 1,
        ID3             => 2,
        CUENTARPM       => 4,
        LARGO           => 5,
        CHR             => 6,
        COORD1          => 7,
        COORD2          => 8,
};
 
## Leer archivo 2 y guardarlo en hash
my %input2;
 
open my $FILE2, '<', 'AB_join_repeats20';
while (<$FILE2>) {
        chomp;                                                                                  # quitar finales de línea
        my @campos = split;                                                                     # dividir
        next if @campos != 9;                                                                   # si no hay 9 campos, saltar a la siguiente línea
 
        my $indice = join '|', @campos[ID3,COORD1,COORD2,CHR,LARGO];                            # componemos el índice
        $input2{ $indice } = [ @campos[ID1,CUENTARPM] ];                                        # guardamos la información, indexada, en el hash
}
close $FILE2;
 
#use Data::Dumper;
#say Dumper \%input2;
 
## Archivo de salida
open my $OUTPUTFILE, '>', 'AB_repeats20_sumados';
 
## Abrir y procesar el primer archivo
open my $FILE1, '<', 'AA_join_repeats20';
while (<$FILE1>) {
        chomp;                                                          # quitar finales de línea
        my @campos = split;                                             # dividir
        next if @campos != 9;                                           # si no hay 9 campos, saltar a la siguiente línea
 
        my $indice = join '|', @campos[ID3,COORD1,COORD2,CHR,LARGO];    # componemos el índice
 
        if (exists $input2{ $indice }) {                                # si existe esa entrada en el archivo 2 (hay coincidencia)...
                my($id1,$cuentaRPM) = @{ $input2{$indice} };            # extraemos los valores guardados
 
                my $resultado = $campos[CUENTARPM] + $cuentaRPM;        # hacemos la suma
 
                say $OUTPUTFILE join "\t", $id1, @campos[ID1,ID2,ID3], $resultado, @campos[LARGO,CHR,COORD1,COORD2];
        }
}
close $OUTPUTFILE;
close $FILE1;
Coloreado en 0.002 segundos,  usando GeSHi 1.0.8.4

Foro - Perl en Español

Mi script que suma variables me tarda mucho

Mi script que suma variables me tarda mucho

Publicidad

Re: Mi script que suma variables me tarda mucho

Re: Mi script que suma variables me tarda mucho

Re: Mi script que suma variables me tarda mucho

¿Quién está conectado?