Foro - Perl en Español

por **dbustos** » 2012-01-11 10:00 @458

Hola, estoy intentando escribir un pequeño script para contar las veces que aparece el código de un gen (a partir de una lista en un archivo) en otro archivo, pero, obviamente, no lo logro.

archivo 1

Sintáxis: [ Descargar ] [ Ocultar ]

Using text Syntax Highlighting

Mnk1_iso2

Mnk2

Mos

MPSK1

MRCKa

...Coloreado en 0.000 segundos,  usando GeSHi 1.0.8.4

archivo 2

Sintáxis: [ Descargar ] [ Ocultar ]

Using text Syntax Highlighting

Mnk1_iso2,P3455

Mnk1_iso2,P3455

Mnk2,P3455

Mnk1_iso2,P3455

Mos,P3455

...Coloreado en 0.000 segundos,  usando GeSHi 1.0.8.4

El resultado debería ser

Sintáxis: [ Descargar ] [ Ocultar ]

Using text Syntax Highlighting

Mnk1_iso2 3 veces

MnK1 1 vez

Mnk2 1 vez

Mos  1 vezColoreado en 0.000 segundos,  usando GeSHi 1.0.8.4

Tengo un script pero es copia y modificación de otros que encontré en este foro...

Espero que me puedan ayudar.
Gracias
Diego

#!/usr/bin/perl
use File::Slurp;
 
my @archivo_uno = read_file('Salida.txt');
 
open( MYINPUTFILE, "<Kinase.txt" );
while (<MYINPUTFILE>) {
    my ($line) = $_;
    chomp($line);
    for my $linea (@archivo_uno) {
        my $seq = ( split ",", $linea )[0];
        my $pos = 0;
        my $n   = 0;
 
        $n++ while $pos = 1 + index( $seq, $line, $pos );
 
        print "ENCONTRADO $n VECES ($line) EN EL ARCHIVO.\n";
    }
}
Coloreado en 0.001 segundos,  usando GeSHi 1.0.8.4

por **explorer** » 2012-01-12 07:21 @348

Debes utilizar la técnica de los hash: lees el primer fichero y lo almacenas en un hash. Luego vas analizando el segundo, y los propios hash te van diciendo si está o no, y cuántas veces.

Sintáxis: [ Descargar ] [ Ocultar ]

Using perl Syntax Highlighting

#!/usr/bin/perl
use strict;
use warnings;
 
use autodie;
use File::Slurp;
 
my @archivo_uno = read_file('Salida.txt', chomp => 1);          # leemos el archivo, quitando los avances de línea
my %archivo_uno = map { $_ => 0 } @archivo_uno;                 # lo pasamos a un hash
 
my %nuevos;                                                     # guardará códigos que no están en el primer archivo
 
open my $archivo_dos_fh, "<Kinase.txt";
while (<$archivo_dos_fh>) {                                     # leemos el segundo archivo, línea a línea
    my $codigo = (split /,/)[0];                                # nos quedamos con la primera parte
 
    if (defined $archivo_uno{$codigo}) {                        # si coincide con alguno del primer archivo
        $archivo_uno{$codigo}++;                                #   le sumamos una aparición más
    }
    else {                                                      # si no, es un código desconocido
        $nuevos{$codigo}++;                                     #   sumamos una aparición más
    }
}
close $archivo_dos_fh;
 
# Recuento de los encontrados:
# Bucle por todos los códigos de @archivo_uno,
# ordenados según el valor numérico de sus valores (las veces que aparecieron), de forma inversa (de más a menos)
print "Recuento:\n";
for my $codigo (sort { $archivo_uno{$b} <=> $archivo_uno{$a} }  @archivo_uno) {
    print "$codigo $archivo_uno{$codigo} veces\n";
}
 
# Códigos no reconocidos: 
my @nuevos = keys %nuevos;                                      # les contamos
if (@nuevos) {                                                  # si hay alguno...
    print "Códigos nuevos:\n";
    for my $codigo (sort { $nuevos{$b} <=> $nuevos{$a} } @nuevos) {     # sacamos todos, ordenados numéricamente
        print "$codigo $nuevos{$codigo} veces\n";
    }
}
 
Coloreado en 0.007 segundos,  usando GeSHi 1.0.8.4

Si estás seguro de que no va a haber códigos nuevos, puedes quitar toda la parte referida a %nuevos y @nuevos.

El tema principal es que estamos usando los hash para guardar el número de veces que aparece cada código, y no un doble bucle para hacer comparaciones, mucho más lento.

por **dbustos** » 2012-01-14 10:02 @459

Funciona genial. Jamás lo hubiese podido hacer solo. ¡¡Muchas gracias!!

Foro - Perl en Español

Contar los códigos a partir de un archivo en otro

Contar los códigos a partir de un archivo en otro

Publicidad

Re: Contar los códigos a partir de un archivo en otro

Re: Contar los códigos a partir de un archivo en otro

Re: Contar los códigos a partir de un archivo en otro

Re: Contar los códigos a partir de un archivo en otro

¿Quién está conectado?