Foro - Perl en Español

por **igarrom** » 2014-01-28 05:37 @275

Buenos días,

Estoy intentando crear un programa en Perl para organizar los ortólogos que he identificado entre cuatro bacterias del mismo género.

Por un lado tengo cuatro archivos, cada uno de ellos con los identificadores de todos los genes de una bacteria, por otro lado, tengo seis archivos que contienen los identificadores de los ortólogos entre dos de las cuatro bacterias (separados por tabulador); son seis archivos porque he calculado los ortólogos por parejas y así se cumplen todas las combinaciones.

El resultado que quiero obtener es un fichero con cuatro columnas cuyas filas estén organizadas de tal manera que queden ahí solo los genes ortólogos; si un gen no tiene ortólogo también debería aparecer en su respectiva columna pero sin "compañeros" en las otras columnas. Pongo un ejemplo:

Sintáxis: [ Descargar ] [ Ocultar ]

Using text Syntax Highlighting

organismo A, B, C y D.

Resultado:

gen_A1    gen_B7

gen_A3              gen_C1

gen_A4

gen_A5    gen_B6    gen_C2    gen_D8

          gen_B3

                              gen_D1Coloreado en 0.000 segundos,  usando GeSHi 1.0.8.4

Espero haberlo explicado bien, muchas gracias de antemano.

Inma

Bienvenida a los foros de Perl en Español, Inma.

¿Puedes darnos más datos? En concreto, faltaría el dato de cómo quieres separar las columnas en el archivo resultado. ¿Son posiciones fijas, usando espacios en blanco para rellenar, o se usa un solo carácter de tabulador?

El siguiente programa genera la salida que pides:

Sintáxis: [ Descargar ] [ Ocultar ]

Using perl Syntax Highlighting

#!/usr/bin/perl
use feature 'say';
 
## Contenido de los archivos
my @archivo1 = ('gen_A1', 'gen_A3', 'gen_A4', 'gen_A5', '',       '');
my @archivo2 = ('gen_B7', '',       '',       'gen_B6', 'gen_B3', '');
my @archivo3 = ('',       'gen_C1', '',       'gen_C2', '',       '');
my @archivo4 = ('',       '',       '',       'gen_D8', '',       'gen_D1');
 
## Salida
say 'organismo A, B, C y D';
say '';
say 'Resultado:';
say '';
 
for my $i (0 .. 5) { # para todas las filas
    my $fila = join "\t", $archivo1[$i], $archivo2[$i], $archivo3[$i], $archivo4[$i];
    say $fila;
}
Coloreado en 0.006 segundos,  usando GeSHi 1.0.8.4

por **igarrom** » 2014-01-28 08:33 @398

Hola, explorer.

Muchas gracias por la respuesta. Quiero que los datos de salida estén separados por un tabulador y voy a tener 10 archivos de entrada. En los cuatro en los que tengo todos los genes para una bacteria la organización sería la siguiente (un gen detrás de otro separados por un salto de línea):

Ejemplo archivo A:

Sintáxis: [ Descargar ] [ Ocultar ]

Using text Syntax Highlighting

gen_A1

gen_A2

gen_A3Coloreado en 0.000 segundos,  usando GeSHi 1.0.8.4

Y en los seis archivos de comparación, tendré dos columnas en la que aparecerán solo los ortólogos entre esos dos organismos. Si tengo en cuenta mi fichero con la información de ortólogos entre A y B, este sería el formato (donde cada par de ortólogos están separados por un tabulador):

Ejemplo ortólogos entre A y B:

Sintáxis: [ Descargar ] [ Ocultar ]

Using text Syntax Highlighting

gen_A4    gen_B1

gen_A5    gen_B8Coloreado en 0.000 segundos,  usando GeSHi 1.0.8.4

(Puede que en este fichero no aparezca, por ejemplo, el gen "gen_A2" porque no tenga ningún ortólogo en el organismo B y tal vez tampoco tenga ortólogos con C y D, sin embargo, quiero que aparezca en el archivo de resultados en su columna correspondiente, sin ningún ortólogo asociado).

Muchas gracias de nuevo.

Voy a subir un código (está incompleto, probablemente con muchos errores y no funciona) de mi intento por conseguir el programa, a ver si así aclaro más lo que quiero conseguir):

Sintáxis: [ Descargar ] [ Ocultar ]

Using perl Syntax Highlighting

#!/usr/bin/perl
 
use strict;
 
my $F = "./data";
 
my %O;
my %O2;
my @o = `ls $F/*.comp`;
foreach my $o (@o) {
  open in, $o;
  while (<in>) {
    chomp;
    my ($o1, $o2) = split /\t/;
    push @{$O{$o1\_$org}}, "$o2\_$org";
    push @{$O{$o2}}, $o1;
    $O2{$o1} = 1;
    $O2{$o2} = 1;
  }
  close in;
}
 
 
foreach my $i (keys %O) {
  print "$i\t";
  for my $i2 (@{$O{$i2}}) {
    next unless (@{$O{$i}});
    $O{$i2} = gene_order ($O{$i2});
    undef @{@{$O{$i}};
  }
  print "\n";
}
 
my @name = `ls $F/*.id`;
foreach my $name (@name) {
   open in1, $name:
   while (<in1>) {
     chomp;
     for my $i3 (@{$O{$i}}) { 
       next unless (@{$O{$i}} =~ $_)
       push @{$O{$i}}, "\n$_";
     }
                      
}
 
my %saw; @saw{@{$O{$i}}} = (); @{$O{$i}} = keys %saw; # remove redundant
 
 
#my @fff = `ls $F/*.id`;
#foreach my $f (@fff) {
#  chomp $f;
 
#  open in, $f;
#  while (<in>) {
#    chomp;
#    my $id = $_;
#    next if $O{$id};
#    print "$id\n";
#  }
#  close in;
#}
 
 
#subrutine
 
sub gene_order
{
    my ($var1, $var2) = split /\t/;
    my ($var3, $var4, $var5) = split /,/;
    my @organism = (TFA, sala, sbae, sMC1);
    foreach my $i (@org) {
        if ($var1 eq $org[$i]) {
                $org[$i] = $var1; 
        }
    }
    return $resultado;
}
Coloreado en 0.003 segundos,  usando GeSHi 1.0.8.4

por **explorer** » 2014-01-28 16:34 @731

Sería interesante ver ejemplos de los archivos de entrada, si es posible, abreviados, para poder publicarlos aquí.

Y un breve explicación de lo que quieres hacer. Viendo el código, es un poco complicado saber qué hay que hacer... con tantas arrobas, yo me pierdo un poco

por **igarrom** » 2014-01-29 05:35 @274

Hola, explorer,

Subo los 10 ficheros (simplificados) con los que necesito trabajar. Los que tienen de extensión .id son los 4 que contienen "todos" los genes de un mismo organismo (A, B, C o D) y los que tienen la extensión .comp son los 6 que contienen los ortólogos entre dos organismos (separados por tabulador).

Muchas gracias de nuevo.

por **explorer** » 2014-01-29 18:57 @831

Lo siento, no lo veo. Se me hace complicado, ya que no sé qué tratamiento de datos hay que hacer con los archivos. He intentado leer tu código, pero lo sigo viendo confuso.

Por ejemplo, en la línea 15 haces referencia a la variable $org, pero no la veo definida por ninguna parte.

¿Qué procesamiento hay que hacer con estos diez archivos?

por **igarrom** » 2014-01-30 03:33 @190

Hola, explorer.

Lo que quiero es recorrer todos los genes de un organismo. Por ejemplo, con el organismo A, abriríamos el fichero A.id y lo iríamos recorriendo tomando los identificadores de genes uno por uno (los cuales están separados por un salto de línea). Ese identificador lo buscaríamos en los archivos de comparación (.comp, donde se disponen separados por un tabulador los pares de ortólogos), pero solo sería necesario buscarlo en aquellos donde se ha comparado el organismo A con algún otro (en el resto no), entonces, se le irían añadiendo a ese gen todos sus ortólogos, quedando el resultado así:

gen_A1(tabulador)gen_B4(tabulador)gen_C5(tabulador)gen_D3

También cabe la posibilidad de que con alguno de esos organismos no tenga ortólogos y entonces esa posición quedaría vacía

gen_A1(tabulador)POSICIÓN_VACÍA(tabulador)gen_C5(tabulador)gen_D3

Así habría que proceder con los cuatro archivos .id y tener en cuenta que hay que eliminar la redundancia, si gen_B4 ya tiene asignados los ortólogos, no habría que volverlo a hacer.

Espero haberme explicado mejor,

Muchas gracias,

Inma

por **explorer** » 2014-01-31 16:59 @749

Inma: te has explicado muy bien, pero no soy capaz de verlo.

¿Puedes ponerme un ejemplo, partiendo de los archivos que has puesto? Es decir, ¿qué reglas hay que seguir para crear el nombre 'gen_A1'?

Sí que entiendo lo de abrir A.id, leer la primera línea (Gene_1), y buscar ese cadena en los archivos comp, pero solo en aquellos que aparezca la letra 'A' en su nombre. Pero a partir de ahí, no sé qué hay que hacer.

¿El resultado que pusiste en el primer mensaje de este hilo es el resultado de procesar los diez archivos que pusiste más tarde?

por **igarrom** » 2014-02-03 11:07 @505

Hola, explorer,

El resultado que puse en el primer mensaje es un ejemplo que no corresponde con el procesamiento de los 10 archivos posteriores, pero sí que muestra el formato que deseo obtener en mi resultado de salida. Como el ejemplo que puse es pequeñito, voy a poner el resultado que debería salir al procesar los diez archivos.

Aquí ocurre que el Gene_8 (además de otros ejemplos) es ortólogo de 103485502 y de 489128857. Sin embargo, 103485502 y 489128857 no lo son entre sí, por eso se repite la asignación por separado (creo que estos casos no aparecen en mis ficheros reales pero no estoy segura).

Este es el resultado esperado según los 10 ficheros de ejemplo que subí:

Sintáxis: [ Descargar ] [ Ocultar ]

Using text Syntax Highlighting

Gene_1  103485500               

Gene_5  103485501               

Gene_8  103485502               

Gene_2  103485503       489128844       

        103485504               550923138

        103485506       489128842       

        103485507       489128838       

        103485508               550923139

        103485507       489128838       

        103485506       489128842       

        103485503       489128844       

                489128849       550923140

Gene_4          489128852       

Gene_10         489128854       

Gene_8          489128857       

Gene_3          489128860       

Gene_10                 550923135

Gene_1                  550923136

Gene_8                  550923137

        103485504               550923138

        103485508               550923139

                489128849       550923140

Gene_1  103485500               550923136

Gene_10         489128854       550923135

Gene_2  103485503               

Gene_3          489128860       

Gene_4          489128852       

Gene_5  103485501               

        103485502       489128857       550923137

Gene_6                  

Gene_7                  

Gene_9                  

        103485499               

        103485505               

                        550923130

                        550923131

                        550923133

                        550923134

                489128835       

                489128847Coloreado en 0.000 segundos,  usando GeSHi 1.0.8.4

He creado un código que creo que realiza bien la primera parte (asignar todos los ortólogos de forma ordenada). Quedaría incorporar los genes de los ficheros .id que no tienen asignado ningún ortólogo.

Pego el código:

Sintáxis: [ Descargar ] [ Ocultar ]

Using perl Syntax Highlighting

#!/usr/bin/perl
 
use strict;
 
my $F = "./files";                     # variable que me dice la ruta de la carpeta donde están los ficheros
my %O;
my @a = `ls $F/*.comp`;                # guardo la ruta de cada archivo .comp para luego ir abriendo uno por uno
foreach my $a (@a) {                   # abro cada fichero uno por uno
    my ( $path, $path2 ) = split( "files/", $a );       # me quedo con el nombre de cada organismo del par que comparo
    my ( $a1,   $a2 )    = split( "_vs_",   $path2 );
    $a2 =~ s/.comp//g;
    $a2 =~ s/\n//g;
    $a2 =~ s/\s//g;
    $a1 =~ s/\n//g;
    $a1 =~ s/\s//g;
    open in, $a;
 
    while (<in>) {
        chomp $_;
        my ( $ai1, $ai2 ) = split /\t/;    # elimino los posibles caracteres "extras" que tengan los identificadores
        $ai1 =~ s/\n//g;
        $ai1 =~ s/\s//g;
        $ai2 =~ s/\n//g;
        $ai2 =~ s/\s//g;
 
        # guardo cada identificador en el array correspondiente para generar la asociación
        push @{ $O{$ai1} }, "$ai1";
        push @{ $O{$ai1} }, "$ai2";
        push @{ $O{$ai2} }, "$ai2";
        push @{ $O{$ai2} }, "$ai1";
    }
    close in;
}
 
foreach my $llave ( sort keys %O ) {                    # recorro el array con las asociaciones
    my %saw;
    @saw{ @{ $O{$llave} } } = ();
    @{ $O{$llave} } = sort keys %saw;                   # elimino redundancia
    @{ $O{$llave} } = gene_order( @{ $O{$llave} } );    # envío a subrutina para ordenar los identificadores
    print "@{$O{$llave}}\n";                            # imprimo el resultado por pantalla
}
 
###########
#subrutina#
###########
 
sub gene_order ()                      # ordeno los identificadores según el organismo al que pertenecen
{
    my ( $var1, $var2, $var3, $var4 ) = @_;
    my @var = ( $var1, $var2, $var3, $var4 );
 
    #   print "$var1\n$var2\n$var3\n$var4\n";
    my @org;
    my $i;
    for ( $i = 0; $i < 3; $i++ ) {
        if ( $var[$i] =~ /^G/ ) {
            $org[0] = "$var[$i]";
        }
        if ( $var[$i] =~ /^1/ ) {
            $org[1] = "$var[$i]";
        }
        if ( $var[$i] =~ /^4/ ) {
            $org[2] = "$var[$i]";
        }
        if ( $var[$i] =~ /^5/ ) {
            $org[3] = "$var[$i]";
        }
    }
    return "$org[0]\t$org[1]\t$org[2]\t$org[3]";
}
 
Coloreado en 0.003 segundos,  usando GeSHi 1.0.8.4

Muchas gracias de nuevo :-)

Inma

por **explorer** » 2014-02-03 12:56 @580

¿Por qué hay dos líneas así?

Sintáxis: [ Descargar ] [ Ocultar ]

Gene_1 103485500
Gene_1 103485500 550923136

Y ¿por qué hay una línea así?

Sintáxis: [ Descargar ] [ Ocultar ]

103485502 489128857 550923137

Todos están relacionados con Gene_8, pero no entre sí.

Entonces... en cada línea, debería aparecer los códigos que apareen coincidentes entre sí, pero en esa línea, no lo son.

Foro - Perl en Español

Organizar información de ortólogos

Organizar información de ortólogos

Publicidad

Re: Organizar información de ortólogos

Re: Organizar información de ortólogos

Re: Organizar información de ortólogos

Re: Organizar información de ortólogos

Re: Organizar información de ortólogos

Re: Organizar información de ortólogos

Re: Organizar información de ortólogos

Re: Organizar información de ortólogos

Re: Organizar información de ortólogos

¿Quién está conectado?