Foro - Perl en Español

por **danusol** » 2011-06-27 02:31 @146

¡Hola perleros!
Tengo dos tablas de datos que quiero cruzar. En la más pequeña (llamémosla "pequeña") tengo posiciones cromosómicas en esta forma:

Sintáxis: [ Descargar ] [ Ocultar ]

Using text Syntax Highlighting

chr1    1356442

chr1    1740013

chr1    21332987

.

.

.

chr2    34298384

chr2    34299811

chr2    70007885

.

.

.

chr3    12335789

.

.

.Coloreado en 0.000 segundos,  usando GeSHi 1.0.8.4

Así para cada cromosoma, cientos de entradas.

Y quiero cruzar esta tabla con otra principal (llamémosla "general") enorme con casi todas las posiciones en el genoma que tiene tres columnas (cromosoma, coordenada y un valor numérico), ordenado por cromosoma y posición.

Sintáxis: [ Descargar ] [ Ocultar ]

Using text Syntax Highlighting

chr1    1       10

chr1    2       11

chr1    3       11

chr1    4       12

.

.

.Coloreado en 0.000 segundos,  usando GeSHi 1.0.8.4

Lo que quiero hacer es buscar las posiciones de "pequeña" en "general" y sacar a otro archivo la posición y el valor numérico para dicha posición. Es decir quiero filtrar el archivo "general" en función de las posiciones en "pequeña".

¿Cómo puedo manejar estos datos? Me imagino que el archivo "general" no lo puedo cargar en memoria por lo que éste lo tendría que abrir línea a linea. Pero entonces no sé cómo hacer la búsqueda de cada entrada de "pequeña". Como los archivos están ordenados por cromosoma, si quiero buscar el valor numérico para, por ejemplo, chr18 12224555 tendría que leer prácticamente todo "general" hasta llegar a la sección de chr18.

Espero haberlo explicado de manera entendible. Gracias por vuestra ayuda.

D.

Yo creo que sí puedes leer "general" a memoria y convertirlo en un hash, salvo que me digas que tiene varios gigabytes de tamaño o que debes realizar esta operación varias veces al día, y tarda mucho tiempo en cada ocasión, para leerlo. En esos casos, hay que pensar algo distinto. Mientras tanto, sigue una solución normal.

El hash sería, poniendo de valor de la clave, el valor de la primera columna y el valor de la segunda columna de general. Y como valor del hash Algo así:

$cromosoma{"$primera,$segunda"} = $tercera;

Luego, solo te queda abrir "pequeña", línea a línea, y sacar el valor que buscas:

say $cromosoma{"$primera,$segunda"};

por **danusol** » 2011-06-27 05:53 @286

Gracias explorer. Pues el "general" ocupa 700Mb, pero tampoco se va a ejecutar muchas veces el programa, la verdad.

Voy a por ello.

Gracias,

D.

por **danusol** » 2011-06-27 10:09 @464

hola de nuevo explorer. He intentado hacer algo como lo que me has sugerido, pero creo que tengo algún error de concepto y lío en el uso de las variables, porque al ejecutar el programa me da errores de declaración de variables:

Sintáxis: [ Descargar ] [ Ocultar ]

Using text Syntax Highlighting

$ perl coberturaSelectedPositions.pl general.txt peque.txt out.txt

Global symbol "$cromosoma" requires explicit package name at coberturaSelectedPositions.pl line 34.

Global symbol "$cromosoma" requires explicit package name at coberturaSelectedPositions.pl line 36.

Global symbol "$cromosoma" requires explicit package name at coberturaSelectedPositions.pl line 45.Coloreado en 0.000 segundos,  usando GeSHi 1.0.8.4

aquí debajo puedes ver mi código. Pienso que al declarar la variable $cromosoma en el ámbito general, podría usarla dentro del bucle, pero parece que no la he declarado bien?

Sintáxis: [ Descargar ] [ Ocultar ]

Using perl Syntax Highlighting

#!/usr/bin/perl -w
use common::sense;
use Data::Dumper::Simple;
 
### Leemos el archivo grande, contiene posiciones y valor
my %cromosomas;
 
open (IN1, $ARGV[0]) || die "File not found\n"; #archivo "general" contiene todos los datos
 
while (<IN1>) {
    chomp;
 
    my ($cromosoma, $posicion, $valor) = split;
 
    push @{ $cromosomas{ $cromosoma } }, [ $posicion , $valor];   # estructura de hash de arrays de arrays
                                                                # por cada $cromosoma, creamos un array donde guardamos,
                                                                # en cada elemento, otro array, con dos elementos:
                                                                # la $posición y el $valor
}
 
close (IN1);
 
say Dumper %cromosomas;                                         
 
### Leer archivo de interés, contiene las posiciones de interés
open (IN2, $ARGV[1]) || die "File not found\n"; 
open OUT, ">", $ARGV[2] or die $!; ##crear un archivo de resultados, donde se guardara el gene_symbol y su Id
 
while (<IN2>) {
    chomp;
    
    my ($chr, $coord) = split; #declaro mis columnas en el nuevo archivo
 
    if ( $cromosomas{ $cromosoma } eq $chr ) {                           # si el cromosoma lo tenemos
    
        my @array = @{ $cromosomas{ $cromosoma } };              # sacamos todas sus posiciones y valores
 
        for my $array_ref (@array) {                             # por cada una de estas posiciones y valores
 
            my($posicion, $valor) = @$array_ref;                   # sacamos la posición y el valor
 
            if ($posicion == $coord) {    #y comparo coordenadas en ambos archivos    
                                                                                        
 
            print OUT "$cromosoma\t$coord\t$valor";                    # escribir resultado a archivo salida
 
            last;                               # saltar a la siguiente posición
          }
      }
  }
 
}
 
close (IN2);
close (OUT);
 
 
Coloreado en 0.002 segundos,  usando GeSHi 1.0.8.4

por **explorer** » 2011-06-27 10:12 @466

Perl dice que no sabe de dónde viene $cromosoma. Es decir, que no ha sido declarada antes de ser usada por primera vez.

Debes declararla con un my() antes de usarla.

Y, sobre todo, darle una valor cada vez.

Por otra parte, me parece que la línea 34 está mal... hay un operador de asignación, dentro de un if().

por **danusol** » 2011-06-28 02:03 @127

Gracias explorer, he modificado el if() de la línea 34 para que la comparación sea de strings, pero sigo sin entender por qué tengo que declarar $cromosoma, si la he declarado globálmente en la línea 13, ¿o no?. Quiero usar la variable $cromosoma que viene del archivo "general" (ARGV[0]) y compararla con la variable $chr declarada dentro del while (<IN2>). Si vuelvo a declararla con un my() dentro del while, ¿no se comportaría como una variable local?

por **explorer** » 2011-06-28 04:06 @212

En la línea 13 estás declarando (y definiendo) la variable $cromosoma como local dentro del primer while() (fíjate en las llaves, que son las que delimitan el contexto en que es conocida la variable).

En cambio, en la línea 34, el programa se encuentra con una variable desconocida, $cromosoma (porque era local en el while anterior, no global), y además, no tiene ningún valor (no se lo has puesto).

Prueba a poner esta línea:

Sintáxis: [ Descargar ] [ Ocultar ]

Using perl Syntax Highlighting

my $cromosoma = $chr;
Coloreado en 0.001 segundos,  usando GeSHi 1.0.8.4

que, aunque no es lo que te he respondido en mi respuesta, es así como estás construyéndolo en la primera estructura.

por **explorer** » 2011-06-28 04:18 @221

Esta es mi versión:

Sintáxis: [ Descargar ] [ Ocultar ]

Using perl Syntax Highlighting

#!/usr/bin/perl
use common::sense;
use autodie;
 
# use Data::Dumper::Simple;
 
@ARGV == 3 or die "Uso: $0 <fichero general> <fichero> <fichero salida>\n";
 
my %cromosomas;
 
### Leemos el archivo grande, contiene posiciones y valor
open my $IN1, "<", $ARGV[0];
 
while (<$IN1>) {
    chomp;
 
    my ($cromosoma, $posicion, $valor) = split;
 
    $cromosomas{ "$cromosoma,$posicion" } = $valor;     # un hash
}
 
close $IN1;
 
#say Dumper %cromosomas;                                         
 
### Leer archivo de interés, contiene las posiciones de interés
open my $IN2, "<", $ARGV[1];
open my $OUT, ">", $ARGV[2];    # archivo de resultados, donde se guardara el gene_symbol y su Id
 
while (<$IN2>) {
    chomp;
 
    my ($cromosoma, $posicion) = split;
 
    my $clave = "$cromosoma,$posicion";
    my $valor = $cromosomas{ $clave };
 
    if ( $valor ) {
        say $OUT join "\t", $cromosoma, $posicion, $valor;
    }
}
 
close $IN2;
close $OUT;
Coloreado en 0.001 segundos,  usando GeSHi 1.0.8.4

Foro - Perl en Español

Cómo manejar cromosomas y posiciones

Cómo manejar cromosomas y posiciones

Publicidad

Re: Cómo manejar cromosomas y posiciones

Re: Cómo manejar cromosomas y posiciones

Re: Cómo manejar cromosomas y posiciones

Re: Cómo manejar cromosomas y posiciones

Re: Cómo manejar cromosomas y posiciones

Re: Cómo manejar cromosomas y posiciones

Re: Cómo manejar cromosomas y posiciones

¿Quién está conectado?