Foro - Perl en Español

por **pacoparedes** » 2012-08-10 18:10 @798

Hola, buenas tardes.

Por favor, pido su ayuda. Estoy parseando unos archivos que tienen la siguiente estructura:

archivo1.txt

Sintáxis: [ Descargar ] [ Ocultar ]

Using text Syntax Highlighting

P35720  327696

P35720  785395

P31039  281480

Q3T189  286840

Q95123  281481
Coloreado en 0.000 segundos,  usando GeSHi 1.0.8.4

archivo2.txt

Sintáxis: [ Descargar ] [ Ocultar ]

Using text Syntax Highlighting

P35720  P31039

P35720  Q3T189

P35720  Q95123
Coloreado en 0.000 segundos,  usando GeSHi 1.0.8.4

En el archivo1.txt la primera columna contiene el nombre de una proteína en formato UNIPROTKB, la segunda columna contiene su nombre equivalente en formato ENTREZ_GEN_ID.

El segundo archivo se trata de pares de proteínas cuyos nombres se encuentran en formato UNIPROTKB.

La intención es tomar el primer elemento de la primera columna contenida en el archivo2.txt y buscar su similar en la primera columna del archivo1.txt, y al encontrar la coincidencia sustituir el elemento contenido en la segunda columna del archivo2.txt, es decir su nombre equivalente en formato ENTREZ_GEN_ID. Y así sucesivamente hasta sustituir todas los nombres de las proteínas.

Para lo que he escrito el siguiente código:

Sintáxis: [ Descargar ] [ Ocultar ]

Using perl Syntax Highlighting

#!/usr/bin/perl -w
#ejercicio1.pl
my $arch = $ARGV[0];
open( ARCH, $arch );
my @equivalencias = <ARCH>;
close ARCH;
my $arch1 = $ARGV[1];
open( ARCH1, $arch1 );
my @red = <ARCH1>;
close ARCH1;
 
foreach $i (@equivalencias) {
    chomp($i);
    @rengloneq = split( /\t/, $i );
    for ( $j = 0; $j < @red; $j++ ) {
        @renglonred = split( /\t/, $red[$j] );
        if ( $rengloneq[0] =~ $renglonred[0] ) {
            $red[$j] = "$rengloneq[1]\t$renglonred[1]\n";
        }
    }
    chomp(@red);
    for ( $j = 0; $j < @red; $j++ ) {
        chomp($j);
        @renglonred = split( /\t/, $red[$j] );
        if ( $rengloneq[0] =~ $renglonred[1] ) {
 
            $red[$j] = "$renglonred[0]\t$rengloneq[1]\n";
        }
    }
}
chomp(@red);
foreach $k (@red) {
    chomp($k);
    print "$k\n";
}
Coloreado en 0.004 segundos,  usando GeSHi 1.0.8.4

Pero ahora el problema es que como podemos observar en el archivo1.txt el nombre de una proteína en formato UNIPROTKB tiene más de un nombre equivalente en formato ENTREZ_GEN_ID.
archivo1.txt

Sintáxis: [ Descargar ] [ Ocultar ]

Using text Syntax Highlighting

P35720  327696

P35720  785395
Coloreado en 0.000 segundos,  usando GeSHi 1.0.8.4

Por lo que yo necesito mis resultados de la siguiente forma. Dado el par:
archivo2.txt

Sintáxis: [ Descargar ] [ Ocultar ]

Using text Syntax Highlighting

P35720  P31039
Coloreado en 0.000 segundos,  usando GeSHi 1.0.8.4

Obtener la siguiente substitución:
archivo_resultados.txt

Sintáxis: [ Descargar ] [ Ocultar ]

Using text Syntax Highlighting

327696  281480

785395  281480
Coloreado en 0.000 segundos,  usando GeSHi 1.0.8.4

Y con mi código lo único que obtengo es:
archivo_resultados.txt

Sintáxis: [ Descargar ] [ Ocultar ]

Using text Syntax Highlighting

327696 281480
Coloreado en 0.000 segundos,  usando GeSHi 1.0.8.4

Y el segundo par no lo puedo obtener. Es decir: no me duplica mi información. Es por eso que pido su ayuda y sugerencias para modificar mi código y solucionar este problema.

Gracias...

#!/usr/bin/perl
#
# ejercicio1.pl
 
my($archivo_equivalencias, $archivo_red) = @ARGV;
 
open my $EQUIVALENCIAS, $archivo_equivalencias  or die "ERROR: $!\n";
my @equivalencias = <$EQUIVALENCIAS>;
chomp @equivalencias;
close $EQUIVALENCIAS;
 
open my $RED, $archivo_red                      or die "ERROR: $!\n";
my @red = <$RED>;
chomp @red;
close $RED;
 
for my $red (@red) {                                           # para cada $red a decodificar
    my($proteina1, $proteina2) = split " ", $red;              # extraemos las dos proteínas
 
#    print "Análisis para [$proteina1] [$proteina2]\n";
 
    for my $equ1 (@equivalencias) {                            # para cada equivalencia
        my($uniprotkb1, $gen_id1) = split " ", $equ1;
 
        if ($uniprotkb1 eq $proteina1) {                       # que coincida con la primera proteína
 
            for my $equ2 (@equivalencias) {                    # para cada equivalencia
                my($uniprotkb2, $gen_id2) = split " ", $equ2;
            
                if ($uniprotkb2 eq $proteina2) {               # que coincida con la segunda
                    print "$gen_id1\t$gen_id2\n";              # pintamos las equivalencias
                }
            }
        }
    }
}
Coloreado en 0.002 segundos,  usando GeSHi 1.0.8.4

De forma más compacta, usando hash de array:

Sintáxis: [ Descargar ] [ Ocultar ]

Using perl Syntax Highlighting

#!/usr/bin/perl
#
 
my($archivo_equivalencias, $archivo_red) = @ARGV;
 
my %equivalencias;
open my $EQUIVALENCIAS, $archivo_equivalencias  or die "ERROR: $!\n";
while (my $equivalencia = <$EQUIVALENCIAS>) {
    chomp $equivalencia;
    my($uniprotkb, $gen_id) = split " ", $equivalencia;
    push @{ $equivalencias{ $uniprotkb } }, $gen_id;
}
close $EQUIVALENCIAS;
 
open my $RED, $archivo_red                      or die "ERROR: $!\n";
 
while (my $red = <$RED>) {
    chomp $red;
    my($proteina1, $proteina2) = split " ", $red;
 
    for my $gen_id1 (@{$equivalencias{$proteina1}}) {
    for my $gen_id2 (@{$equivalencias{$proteina2}}) {
        print "$gen_id1\t$gen_id2\n";
    }}
}
 
close $RED;
Coloreado en 0.002 segundos,  usando GeSHi 1.0.8.4

El doble bucle es necesario para recorrer los casos en los que la segunda columna tenga también más de una equivalencia entre los dos códigos. Si no fuese el caso, se podría quitar el bucle más interno. Y se ejecutaría más rápido, desde luego.

por **pacoparedes** » 2012-08-13 17:41 @778

Muchas gracias por la ayuda, explorer. Me funcionó muy bien...

Foro - Perl en Español

Sustitución de patrones de una columna a otra

Sustitución de patrones de una columna a otra

Publicidad

Re: Sustitución de patrones de una columna a otra

Re: Sustitución de patrones de una columna a otra

¿Quién está conectado?