Foro - Perl en Español

por **alemanmd** » 2014-01-11 21:54 @954

¿Qué tal? Tengo dos tablas en forma de tabulador y tengo que unirlas para reunir la información de ambas tablas en un solo archivo. Una de las columnas es el ID de la proteína y utilizo el ID para comparar las líneas de las dos tablas; si son iguales entonces imprimo las columnas de ambas tablas.

Funciona si solo quiero las que existen, pero también me interesa que las que no existan se imprima el ID y las columnas de la primera tabla además de otra indicación que diga "no hit"; esta segunda parte es la que no logro hacer funcionar en mi programa.

Este es mi código:

Sintáxis: (extractor_filas.pl) [ Descargar ] [ Ocultar ]

Using perl Syntax Highlighting

#!/usr/local/bin/perl.
 
# Este programa compara un id de una lista con el de una segunda lista, si el ID es igual entonces imprime las variables que tu desees
# funciona para  dos listas y los archivos se pueden usar sin importar el lugar (1.txt vs 2.txt o bien 2.txt vs 1.txt)
 
# uso:
# perl extract_filas_lista.pl file1 file2
# output: lista.txt
 
use strict;
 
my $file1 = $ARGV[0];                  # ingresa un archivo que se llamara file1
my $file2 = $ARGV[1];                  # ingresa un archivo que se llamara file2
 
#use Tie::IxHash;                              # este módulo es el que permite almacenar la lista en el hash
#tie my %filas, 'Tie::IxHash';                 # manteniendo el orden en el que fue ingresado
 
my %filas;
my $n = 0;
my $numero1;
my @b;
 
open( LISTA, "$file1" ) || die("No puedo abrir $file1\n");
 
#open (RAS, ">lista2.txt") || die ("no puedo abrir secuencias.fasta\n");
 
while ( my $linea = <LISTA> ) {
    chomp($linea);
 
    #if ($linea =~ /(\w+\-\d+)/){
    if ( $linea =~ /(\d+)/ ) {
        chomp($linea);
        @b               = split( /\t/, $linea );    # este patrón se puede cambiar para adaptarse a tus necesidades
        $numero1         = $b[0];
        $filas{$numero1} = 0;
        $n++;
 
        #print RAS "Ta-$numero1\n";
        #print  "$numero1\n";
    }
}
close(LISTA);
 
open( LISTA2, "$file2" )       || die("No puedo abrir $file2\n");
open( RES,    ">iguales.txt" ) || die("no puedo abrir secuencias.fasta\n");
 
# tie my %filas2, 'Tie::IxHash';
 
my %filas2;
my $n1 = 0;
my $numero1;
my $var1;
my $var2;
my @a;
my $iguales = 0;
while ( my $linea = <LISTA2> ) {
    chomp($linea);
 
    #if ($linea =~ /gi/){
    if ( $linea =~ /(\d+)/ ) {
 
        #if ($linea =~ /(\w+\-\d+)/) {     # este patrón se puede cambiar para adaptarse a tus necesidades
        my @a = split( /\t/, $linea );
        $var1          = $a[0];
        $var2          = $a[1];
        $filas2{$var1} = $linea;
        $n1++;
 
        #print ("$var1\n");
        #print ("$var2\n");
        if ( exists $filas{ $a[0] } ) {
 
            #print "$filas{$a[0]}\n";
            #print RES "$a[1]\t$var1\n";
            $iguales++;
 
            #print   "$b[0]\t$b[1]\t$b[2]\t$b[3]\t$b[4]\t$b[5]\t$b[6]\t$a[2]\t$a[3]\t$a[4]\t$a[5]\t$a[6]\n";
            print RES "$b[0]\t$b[1]\t$b[2]\t$b[3]\t$b[4]\t$b[5]\t$b[6]\t$a[2]\t$a[3]\t$a[4]\t$a[5]\t$a[6]\n";
 
            #print   "$linea\n";
        }
        unless ( exists $filas{ $a[0] } ) {
            print "$b[0]\t$b[1]\t$b[2]\t$b[3]\t$b[4]\t$b[5]\t$b[6]\t$a[2]\t$a[3]\t$a[4]\t$a[5]\t$a[6]\n";
        }
    }
}
print "\t\tRESULTADOS\n";
print "tienes $n ID en tu lista $ARGV[0]\n";
print "Se identificaron $iguales ID de la lista $ARGV[0] en  la lista $ARGV[1]\n";
 
close(LISTA);
close(RES);
 
Coloreado en 0.006 segundos,  usando GeSHi 1.0.8.4

gracias, espero puedan ayudarme.

Primero, decir que este código viene del hilo Comparar dos listas sin que cambie la posición publicado anteriormente.

Luego, decir que, en este caso, es mejor leer y almacenar primero el segundo archivo, ya que luego, al recorrer el primer archivo, con independencia de si hay o no coincidencia, sacaremos todas las líneas del primer archivo. Al hacerlo así, el mismo bucle de lectura se convierte en el de escritura del resultado.

Esta es una posible solución:

Sintáxis: [ Descargar ] [ Ocultar ]

Using perl Syntax Highlighting

#!/usr/bin/env perl
#
# Unir tablas de predicciones extracelulares
# Joaquín Ferrero, 2014.01.12
#
# Este programa lee dos archivos con datos en columnas, con un tabulador como delimitador.
#
# Los dos archivos contienen un ID numérico en la primera columna.
#
# El objetivo es sacar los datos del primer archivo unidos a los datos del segundo archivo, en aquellas líneas coincidentes por ID,
# o los datos del primer archivo, junto con el texto 'no hit', que no coincidan con ningún ID del segundo archivo.
#
# Uso:
#       perl join_predictions.pl file1 file2
#
# Salida:
#       Archivo list.txt
#
 
use v5.16;
use autodie;
 
 
## Comprobación de los argumentos de entrada
@ARGV == 2 or die "Uso: perl $0 file1 file2\n";
 
my($file1, $file2) = @ARGV;
 
-f $file1  or die "ERROR: No encuentro el archivo [$file1]\n";
-f $file2  or die "ERROR: No encuentro el archivo [$file2]\n";
 
 
## Lectura del archivo segundo (el dependiente)
open my $fh2, '<', $file2;
 
my %file2;
 
while (my $linea = <$fh2>) {
    chomp $linea;
 
    my($id2, @datos2) = split /\t/, $linea;
 
    $file2{ $id2 } = [ @datos2 ];
}
 
close $fh2;
 
 
## Apertura del archivo de salida y del primer archivo (el independiente). Procesado
open my $fh1, '<', $file1;
open my $fh3, '>', 'list.txt';
 
my $n       = 0;
my $iguales = 0;
 
while (my $linea = <$fh1>) {
    chomp $linea;
 
    my($id1, @datos1) = split /\t/, $linea;
 
    next if $id1 !~ /^\d+$/;            # pasa a la siguiente si el ID no es un número (evitar líneas de cabecera)
 
    my @datos = ($id1, @datos1);        # composición de los datos definitivos que imprimiremos
 
    if ($file2{$id1}) {                 # si existe alguna línea en el segundo archivo con ese ID,
        my @datos2 = @{$file2{$id1}};   # recuperamos los datos del segundo archivo
        push @datos, @datos2[1..5];     # y los unimos a los del primero
 
        $iguales++;
    }
    else {                              # si no, no hay coincidencia, así que informamos de ello
        push @datos, 'no hit';
    }
 
    say $fh3 join "\t", @datos;         # y los sacamos fuera
 
    $n++;
}
 
close $fh1;
close $fh3;
 
say "\t\tRESULTADOS";
say "Tienes $n ID en tu lista $file1";
say "Se identificaron $iguales ID de la lista $file1 en la lista $file2";
 
__END__
Coloreado en 0.003 segundos,  usando GeSHi 1.0.8.4

La salida en pantalla, con los archivos que has adjuntado, es:

Sintáxis: [ Descargar ] [ Ocultar ]

Using text Syntax Highlighting

                RESULTADOS

Tienes 2624 ID en tu lista lista1.txt

Se identificaron 26 ID de la lista lista1.txt en la lista lista2.txtColoreado en 0.000 segundos,  usando GeSHi 1.0.8.4

Las primeras líneas del archivo de salida son:

Sintáxis: [ Descargar ] [ Ocultar ]

Using text Syntax Highlighting

340513771       124295  Treesei EGR44057.1      20      0.917   YES     no hit

340513772       82662   Treesei EGR44058.1      19      0.722   YES     7.00E-088       Sm7     AAZ80394        Trichoderma virens      87.15490196

340513779       71092   Treesei EGR44064.1      22      0.679   YES     no hit

340513792       112649  Treesei EGR44075.1      29      0.506   YES     no hit

340513800       73102   Treesei EGR44082.1      18      0.728   YES     no hitColoreado en 0.000 segundos,  usando GeSHi 1.0.8.4

por **alemanmd** » 2014-01-12 14:51 @660

Muchas gracias, explorer. Estoy trabajando con el código, ahora.

Me di cuenta con el código, también, que necesito actualizar mi versión de Perl. Estoy con eso para poder correr el código.

Por cierto, la indicación de qué hace en cada parte es genial, ¡¡así aprendo más fácil cómo está funcionando cada parte!!

¡ Saludos y muchas gracias de nuevo !

por **explorer** » 2014-01-12 15:46 @699

Bueno, puse un v5.16, porque es la versión que tengo ahora en casa, pero con un v5.10, es más que suficiente.

Foro - Perl en Español

Unir dos tablas

Unir dos tablas

Publicidad

Re: Unir dos tablas

Re: Unir dos tablas

Re: Unir dos tablas

¿Quién está conectado?