Foro - Perl en Español

por **danusol** » 2011-02-21 09:46 @449

Hola perleros,

Tengo dos archivos de datos. El primero me indica el cromosoma, el nombre del gen (gene_symbol) y la posición central del gen en el cromosoma. Tengo 2000 filas. El segundo me indica el cromosoma, la posición inicial y final del gen y el identificador (ID) del gen. Tengo 35000 filas. Lo que necesito es obtener en un archivo resultante, el gene_symbol y su ID propio.

Para ello he pensado leer el archivo menor y guardar gene_symbol cromosoma y la posición central del gen en un array cada uno; luego leer el segundo archivo y pasar cada miembro de los arrays e interrogar el segundo archivo con condiciones secuenciales para que si la primera no se cumple pase a buscar en la siguiente fila, del estilo

Sintáxis: [ Descargar ] [ Ocultar ]

Using perl Syntax Highlighting

#en el archivo pequeño
open(my $fh, '<', "lista.txt") or die $!;
my @cromosoma,@symbol,@pos;
#leer el archivo por líneas y separar cada campo para introducirlo en el array respectivo
while (<>) {
 chomp;
 $cromosoma,$pos,$symbol = split(/\t/);
}
close $fh;
 
# en la base de datos
open(my $fh, '<', "BD.txt") or die $!;
while (<>) {
 chomp;
 my ($Xsoma,$start,$end,$ID) = split(/\t/);
 my $n=0; #contador
 foreach (@pos){
   n++;
  if ($cromosoma eq $Xsoma[$n]){   #si coinciden los cromosomas
     if ($pos > $start & $pos <$end){ #si la posición está entre el incio y el fin
       my @result_symbol = push $symbol[$n]; #guardo el gene_symbol correspondiente
       my @result_ID = push $ID; #guardo el ID correspondiente
       #¿sería mejor ir imprimiendo los resultados en el archivo de salida?
     }
   }
 }
}
 
close $fh;
 
# abrir el archivo de salida y escribir los dos arrays en dos columnas,
# o igual mejor, abrir el archivo de salida antes e ir escribiendo los resultados a medida que salen, porque ¿sería más eficiente?
Coloreado en 0.003 segundos,  usando GeSHi 1.0.8.4

Pero me surge la duda de, aparte de si está bien codificado, si seguirá buscando el mismo $pos dentro de la base de datos hasta que la lea entera una vez encontrado un valor que cumple ambas condiciones o si lo encuentra una vez y ya pasa al siguiente $pos.

Gracias por vuestra ayuda,

D.

Chr1    19160151        4CL1

Chr4    13221122        ABI1

Chr5    25894043        ABR1

Chr1    4511450 ACA.l

Chr3    21213915        ACA11

Chr1    11411539        ACBP6

Chr5    6590160 ACL5

Chr2    8476733 ACO1

Chr4    13546819        ACO2

Chr1    23083211        ACO2

Chr2    1138898 ACR5Coloreado en 0.000 segundos,  usando GeSHi 1.0.8.4

y un trocito de la base de datos

Sintáxis: [ Descargar ] [ Ocultar ]

Using text Syntax Highlighting

AT3G18710       6434083 6435561 Chr3

AT4G25880       13154708        13159382        Chr4

AT1G71695       26964249        26966688        Chr1

AT5G41480       16595927        16598636        Chr5

AT5G15008       4856975 4857139 Chr5

AT3G18310       6284356 6287144 Chr3

AT1G62380       23082170        23084253        Chr1

AT4G26970       13542918        13548629        Chr4Coloreado en 0.000 segundos,  usando GeSHi 1.0.8.4

La base de datos es el archivo más grande que incluye a todos los de la lista. No sé si me coincidirán más pero el ejemplo de "lista" incluye dos genes que se llaman ACO2 (hacia el final) pero en distintos cromosomas, y el programa tiene que ver que uno coincide con el último de la base de datos porque su $pos está comprendido entre start-end de AT4G26970 y el otro con el penúltimo (AT1G62380) de la base de datos. Por tanto el resultado tendría que ser

Sintáxis: [ Descargar ] [ Ocultar ]

Using text Syntax Highlighting

ACO2 AT1G62380

ACO2 AT4G26970Coloreado en 0.000 segundos,  usando GeSHi 1.0.8.4

Por otro lado, pensaba que @pos estaba inicializado en la línea 3 del script, pero igual lo tendría que modificar a

Sintáxis: [ Descargar ] [ Ocultar ]

Using perl Syntax Highlighting

my @cromosoma,@symbol,@pos = ();
Coloreado en 0.001 segundos,  usando GeSHi 1.0.8.4

por **explorer** » 2011-02-21 12:20 @556

He dicho inicializar... es decir: la línea 17 hace un bucle por los elementos de @pos, pero en ninguna parte se han guardado esos valores dentro de @pos.

por **danusol** » 2011-02-21 12:33 @565

cierto, lo acabo de encontrar y justo lo iba a indicar,

Sintáxis: [ Descargar ] [ Ocultar ]

Using perl Syntax Highlighting

while (<>) {
   
       chomp;
   
       my $cromosoma,$pos,$symbol = split(/\t/);
           @pos = push $pos;
           @cromosoma = push $cromosoma;
           @symbol = push $symbol;
   
      }
   
      close $fh;
  
Coloreado en 0.001 segundos,  usando GeSHi 1.0.8.4

por **explorer** » 2011-02-21 13:08 @589

¿ @pos = push $pos; ? ¿Esto te funciona?

Me temo que no has ejecutado el programa...

por **danusol** » 2011-02-21 13:35 @607

Desgraciadamente, lo he escrito antes de probarlo, y ahora estoy revisando varias cosas. Lo vuelvo a adjuntar un poco mejorado ¡pero se me queda colgado en el primer while! normal, está mal empleado el filehandle, lo modifico y funciona.

Sintáxis: [ Descargar ] [ Ocultar ]

Using perl Syntax Highlighting

 open(fh, '<', "lista.txt") or die $!;
   
      my (@cromosoma,@symbol,@pos) = ();
                my ($cromosoma,$pos,$symbol);
     #leer el archivo por líneas y separar cada campo para introducirlo en el array respectivo
   
      while (<fh>) {
  
       chomp;
       ($cromosoma,$pos,$symbol) = split('\t');
           push (@pos,$pos);
           push (@cromosoma,$cromosoma);
           push (@symbol,$symbol);
   print "hola\n";#imprime
      }
   
      close (fh);
  
      # en la base de datos
  
      open(fh2, '<', "TrozoDB.txt") or die $!;
  
      while (<fh2>) {
  
       chomp;
  
       my ($ID,$start,$end,$Xsoma) = split('\t');
  
       my $n=0; #contador
  
       foreach (@pos){
  
        if ($cromosoma[$n] eq $Xsoma){   #si coinciden los cromosomas
  
           if (($pos[$n] > $start) && ($pos <$end)){ #si la posición está entre el incio y el fin
  
             #my @result_symbol = push $symbol[$n]; #guardo el gene_symbol correspondiente
                                print $symbol[$n],"\n";
  
             #my @result_ID = push $ID; #guardo el ID correspondiente
                                print $ID,"\n";
             #¿sería mejor ir imprimiendo los resultados en el archivo de salida?
                                $n++;
           }
  
         }
  
       }
  
      }
  
      close (fh2);
Coloreado en 0.002 segundos,  usando GeSHi 1.0.8.4

por **pvaldes** » 2011-02-21 16:23 @724

danusol escribiste:> incluye dos genes que se llaman ACO2 (hacia el final) pero en distintos cromosomas

Los genes duplicados, sí, iba a preguntarte por ellos... tienes que definir previamente qué vas a hacer con eso... veo tres posibles enfoques:

1.- Simplemente quieres una lista única de todos los genes y sus ID y al mismo nombre corresponde la misma ID siempre, en cuyo caso tu sistema actual para separarlos no es óptimo porque corre muchos más ciclos de lo necesario, estás haciendo 70 millones de comparaciones para encontrar 2000 nombres y 2000 números.

Meter una comprobación previa debería ahorrar un considerable tiempo de cálculo.

if gen_ID YA existe en tu arreglo ... saltar al siguiente elemento en la comparación
else push gen_ID

2.- O bien quieres una lista de todos los genes por cromosoma, serán "diferentes" genes si están en diferentes cromosomas aunque tengan la misma información y tendrán ID distintas, en cuyo caso tienes que encontrar el modo de diferenciarlos, (y de entrada sería práctico denominarlos como cromosoma_gen-symbol, es decir aplicar un join() de los elementos 1+3 después de hacer el split() y trabajar sobre ello)

3.- O lo que buscas en realidad es sacar un hash con key = gen_symbol y como valor una lista de valores ID con un número indeterminado de elementos, que sería una variante de la segunda vía.

Foro - Perl en Español

Cruzar dos listas

Cruzar dos listas

Publicidad

Re: Cruzar dos listas

Re: Cruzar dos listas

Re: Cruzar dos listas

Re: Cruzar dos listas

Re: Cruzar dos listas

Re: Cruzar dos listas

Re: Cruzar dos listas

Re: Cruzar dos listas

Re: Cruzar dos listas

¿Quién está conectado?