Foro - Perl en Español

por **Alfumao** » 2010-10-04 04:13 @217

Buenas

Tengo un problema para ordenar los resultados de este programa. De lo que se trata es de ordenar las claves del hash e imprimirlas en orden. Yo lo he intentado de múltiples formas, pero no consigo el resultado buscado.

El programa es éste (una modificación de un programa que Explorer me ayudó a hacer en su día). Pero no sé dónde ubicar el bucle "foreach" indicado, para ordenar los valores resultantes, ya que si lo hago dentro del bucle "while", me ordena los valores, pero me los imprime ordenados tantas veces como valores entran en bucle "while"...

Lo he sacado del bucle "while" pero aun así sigue sin darme el resultado buscado...

Por favor ayuda

Intenté adjuntar los archivos para testear el funcionamiento pero no se me permite subir el fichero ".fasta" ni el ".txt"

LISTA de secuencias a buscar:

Sintáxis: [ Descargar ] [ Ocultar ]

Using text Syntax Highlighting

Pleos27449

Pleos52438

Pleos51948

Pleos94238

Pleos115112

Pleos115108

Pleos112065

Pleos103845Coloreado en 0.000 segundos,  usando GeSHi 1.0.8.4

Sintáxis: [ Descargar ] [ Ocultar ]

Using perl Syntax Highlighting

#!/usr/bin/perl
use strict;
use warnings;
use diagnostics;
 
# Lectura del fichero de secuencias
my %es_interesante;
print "Enter your list name:\n";
my $entrada = <STDIN>;
open(SEQ,"$entrada") or die ("ERROR: $!\n");
while (my $linea = <SEQ>) {
    chomp $linea;
    $es_interesante{$linea} = 1; # la almacenamos en la memoria asociativa
}
close SEQ;
 
# Lectura del fichero FASTA
my $nombre_secuencia; # Guarda el nombre de cada secuencia
my $secuencia = ''; # Contenido de la secuencia interesante
 
#Abrir salida
open  SALIDA,'>secuencias.txt' or die "ERROR: $!\n";
print "Enter your genome fasta name:\n";
my $genome = <STDIN>;
open(FASTA,"<$genome") or die ("ERROR: $!\n");
 
while (my $linea = <FASTA>) {     # Bucle while
 
    if ($linea =~ /^>(\w+)\|*/) { # Comienzo de una secuencia nueva
 
        if ($secuencia) { # Si tenemos una ya leída...
            procesar_secuencia($nombre_secuencia, $secuencia);  # la procesamos
        }
 
        $nombre_secuencia = $1;  # Nombre de la secuencia extraída desde la exp. reg.
        $secuencia = ''; # Reiniciamos nuestra secuencia a capturar
 
        next; # pasamos a la siguiente línea
    }
 
    if ($es_interesante{$nombre_secuencia}) { # Si estamos en una secuencia interesante
        $secuencia .= $linea; # la guardamos
    }
}
 
foreach my $es_interesante  (sort keys my %es_interesante) {   # <== Bucle foreach
    print SALIDA">$nombre_secuencia\n$secuencia\n\n";
}
close FASTA;
close SALIDA;
 
if ($secuencia) { # Si aún queda alguna $secuencia por sacar
    procesar_secuencia($nombre_secuencia, $secuencia); # la procesamos
}
  
sub procesar_secuencia {
    my ($nombre, $secuencia) = @_;
    print SALIDA ">$nombre\n$secuencia";
}
 
__END__
Coloreado en 0.003 segundos,  usando GeSHi 1.0.8.4

Fíjate que ordenamos las claves del %hash. Cada una de ellas la metemos en $clave. Y por cada una de ellas, la imprimimos, más, el valor del $hash en esa $clave.

En tu bucle foreach() estás sacando los valores de $nombre_secuencia y $secuencia que se usaban como variables temporales en el bucle while().

por **Alfumao** » 2010-10-04 06:38 @318

Hola de nuevo.

El problema con la solución que me has dado, es que el valor de cada una de las claves del hash que obtengo, es el número de veces que se encuentra la secuencia de la lista en el FASTA, pero no me devuelve una secuencia como valor de la clave del hash... no sé si me explico.

Lo que necesito obtener con este programa es una estructura tipo:
>clave
secuencia

Y obtengo con la modificación que me propones:
clave=> valor escalar de la clave (nº veces que aparece esa clave en el FASTA)

Y claro, eso no es lo que necesitaba obtener...

Un saludo

por **explorer** » 2010-10-04 06:52 @328

Pero eso ya lo hace la función procesar_secuencia(): se encarga de sacar, en ese formato, el nombre de la secuencia y la propia secuencia, al fichero SALIDA.

Si lo que quieres es mantener esa información en memoria, puedes meter una línea más, como esta:

Sintáxis: [ Descargar ] [ Ocultar ]

Using perl Syntax Highlighting

$es_interesante{$nombre} = $secuencia;  # guardando la secuencia encontrada, en el hash
Coloreado en 0.001 segundos,  usando GeSHi 1.0.8.4

Luego, en el bucle for ya puedes ver el nuevo contenido del hash:

Sintáxis: [ Descargar ] [ Ocultar ]

Using perl Syntax Highlighting

for my $nombre (sort keys %es_interesante) {   # <== Bucle foreach
    print ">$nombre\n$es_interesante{$nombre}\n\n";
}
Coloreado en 0.001 segundos,  usando GeSHi 1.0.8.4

A propósito... sobraba un 'my' delante de %es_interesante, en esa línea.

por **Alfumao** » 2010-10-07 04:37 @234

Hola a todos,

Necesito una expresión regular que me sirva para encontrar cualquiera de estos patrones indistintamente:

Sintáxis: [ Descargar ] [ Ocultar ]

Using text Syntax Highlighting

>NP_25348

>Schco1_230278|fgenesh2_pg.1_#_1

>Schco1|230278|fgenesh2_pg.1_#_1

>jgi|Schco1230278|fgenesh2_pg.1_#_1Coloreado en 0.000 segundos,  usando GeSHi 1.0.8.4

¿Es posible o habría que incluir varios "elsif" en un bucle para poder abarcar los distintos niveles de complejidad?

Para los dos primeros me serviría esta:

Sintáxis: [ Descargar ] [ Ocultar ]

Using text Syntax Highlighting

/^>(\w+)\|*/Coloreado en 0.000 segundos,  usando GeSHi 1.0.8.4

pero para los siguientes no...

Lo intenté con éstas pero tampoco funcionó...

Sintáxis: [ Descargar ] [ Ocultar ]

Using text Syntax Highlighting

/^>(w+)\|(\w+)\|(w+)\|*/

/^>[(w+)\|][(\w+)\|][(w+)\|]*/Coloreado en 0.000 segundos,  usando GeSHi 1.0.8.4

Estoy con la cabeza como un bombo y no doy con la solución. ¿Podríais ayudarme?

Gracias por adelantado

por **explorer** » 2010-10-07 05:07 @254

Pero... ¿cómo serían las cadenas que NO concordarían con la expresión regular? O dicho de otra manera, ¿qué es lo que buscamos de característico en esas cadenas?

El siguiente programa indica que sí las ha reconocido, pero, no sabemos si reconocerá a las que no nos interesan.

Sintáxis: [ Descargar ] [ Ocultar ]

Using perl Syntax Highlighting

#!/usr/bin/perl
use strict;
use warnings;
use diagnostics;
 
my @cadenas = (
    '>NP_25348',
    '>Schco1_230278|fgenesh2_pg.1_#_1',
    '>Schco1|230278|fgenesh2_pg.1_#_1',
    '>jgi|Schco1230278|fgenesh2_pg.1_#_1',
);
 
for (@cadenas) {
    print "$_ => ";
 
    if ( /^ ( [>] \w+ ( [|] [\w.#]+ )* ) /x ) {
        print "Si: [$1]\n";
    }
    else {
        print "No\n";
    }
}
 
Coloreado en 0.001 segundos,  usando GeSHi 1.0.8.4

O... ¿qué partes, realmente, nos interesa identificar? Veo que el '|' es importante, pero no nos dices si es un separador o qué.
Si sólo queremos identificarlas como cadenas, sin más, nos valdría solo con esto:

Sintáxis: [ Descargar ] [ Ocultar ]

Using text Syntax Highlighting

/^ ( [>] [\w.#|]+ ) /xColoreado en 0.000 segundos,  usando GeSHi 1.0.8.4

por **Alfumao** » 2010-10-07 05:22 @265

Hola, explorer,

Es para incluirlo en la expresión regular del programa sobre el que pregunte en el mensaje de la semana pasada: http://perlenespanol.com/foro/ordenar-un-hash-t5415.html

Esta expresión regular que me has dado, reconoce los patrones, pero pasa como con otras que he probado, que luego en el resultado, en vez de aparecerme como valor de la clave del HASH la secuencia que corresponde al encabezamiento buscado, me aparece como valor el número de veces que ese encabezamiento está en el archivo FASTA... y claro, el resultado no es el que se busca obtener...

Ej:

Sintáxis: [ Descargar ] [ Ocultar ]

Using text Syntax Highlighting

>jgi|Schco1|102220

1

>jgi|Schco1|230323

1

>jgi|Schco1|254840

1

...
Coloreado en 0.000 segundos,  usando GeSHi 1.0.8.4

Cuando se buscaría algo así:

Sintáxis: [ Descargar ] [ Ocultar ]

Using text Syntax Highlighting

>jgi|Schco1|102220

CAPGRSTASRGFKRGDYNIGFSISVSTRSYIAGDGVECSKSSLRIIGGFMSVRGGPKDARDLPGATAVYR

VARRPPTTGIAVALSLSRGTGRRYHVSHIQHIACVELPMAEHGNVLTCTVRAETCPFGDLAPVSHANMPA

VLRYGQDSISGSRRMSSEPPAAYHQGARAYPGGDLPCDQGFAGLSTWCEKDPDLKIGFTGLNGRMTDGGS

PPRSYTRRSLALVSPSPHSLPPTMSTANVSNASNQNDDGAEVQAILDDAFKKRAAAEAERDDLKQWLDLT

KARLDSSESFVSSLQQSIEEHSGTARLRRQEVREVKKEFRSIFVEVRTALDDNYGRPIPDTILLNISTYA

DGDTRLVVSSVNHALRTRLVPLMFKTIVVDQDDERSIKALGRGLLATARELVLHDTRLARELIPHATRSA

PLRLQSLTFSPDSDDALYRETMAISCLLPFLRASPHLERLDCVLVLRRQRDLFALMSEVTGIKKLVIQHI

EGPQREPLSGETAPWVRLEELIVGNGVTDAWFELVLPPHWHPPLTALDISKGADVTWTTLRACLGSVRSS

IERLHISSSMLLENDDTEGAGLHFEGHLPALRELHVRMLTRRGDRLQEMDGVKNLIRVLSNDALAPITEL

HLEFFIMSVFYSDMGRGGGYRGGNNADVTGICGDRLTLSWWQSFALPRRCSMIILIIYDAEDEASDSEST

DSSATDSDLDDGHRASQARYPSGLLRRPYGENEGLKWKPHARSLLLHLAQSIGVTARVSFAPGECPSSGW

PEEWIEQFEEDPDKAMDENETALFYNWREWEV

>jgi|Schco1|230323

MPNPSGSNGHRNGDLPENISAILHDFARRGLKNEARTAELRSMHGYNISITKLKRLNNTYSVPSKRKLPP

IEEVTTRVLEKMDQDIAQRNGPQAIADQLRTDPYDVPLLIGRDVVRGIMRIYSPEGSAARQPGFRRPTLE

RGSIVSAGLLAELHLDGHEKISFASLQMGEDIGVPIYGGREQLSGRPAMYVVPNDRDRNVVAHCYLDIIE

EFGLVAPLQITIDKGTETAELIRIQEVLRDTLTPDLDPLEFPPFLQLRSVQNIVIESMWSWLRKTYGVGV

REEILRGKTDGIFSAAIKLHCFLFRWIWPQIVQRCLNQFIAYWNLHTTRYQANKANPSGKAPMEIWNNHD

TLGYECIGMQVPPELLAELRASVPVSRDDAYRWVPEEFAELAEHVYAIIGSPQLDVRSGWRIFEEMSLKF

IELYPTFTSA

...
Coloreado en 0.000 segundos,  usando GeSHi 1.0.8.4

No sé si me he explicado bien; de todas formas aquí te dejo el código que he usado para que veas la expresión regular en su contexto.

Sintáxis: [ Descargar ] [ Ocultar ]

Using perl Syntax Highlighting

#!/usr/bin/perl
use strict;
use warnings;
use diagnostics;
 
# Lectura del fichero de secuencias
my %es_interesante;
print "Enter your list name:\n";
my $entrada = <STDIN>;
open(SEQ,"$entrada") or die ("ERROR: $!\n");
while (my $linea = <SEQ>) {
    chomp $linea;
    $es_interesante{$linea} = 1; # la almacenamos en la memoria asociativa
}
close SEQ;
 
# Lectura del fichero FASTA
my $nombre_secuencia; # Guarda el nombre de cada secuencia
my $secuencia = ''; # Contenido de la secuencia interesante
 
#Abrir salida
open  SALIDA,'>secuencias.txt' or die "ERROR: $!\n";
print "Enter your genome fasta name:\n";
my $genome = <STDIN>;
open(FASTA,"<$genome") or die ("ERROR: $!\n");
 
 
while (my $linea = <FASTA>) {
 
    if ($linea =~ /^ ( [>] [\w.#|]+ ) /x ) { # Comienzo de una secuencia nueva
 
        if ($secuencia) { # Si tenemos una ya leída...
            procesar_secuencia($nombre_secuencia, $secuencia);  # la procesamos
        }
 
        $nombre_secuencia = $1;  # Nombre de la secuencia extraída desde la exp. reg.
        $secuencia = ''; # Reiniciamos nuestra secuencia a capturar
 
        next; # pasamos a la siguiente línea
    }
 
    if ($es_interesante{$nombre_secuencia}) { # Si estamos en una secuencia interesante
        $secuencia .= $linea; # la guardamos
    }
}
 
for my $nombre(sort keys %es_interesante) {
    print SALIDA ">$nombre\n$es_interesante{$nombre}\n";
}
 
close FASTA;
close SALIDA;
 
if ($secuencia) { # Si aún queda alguna $secuencia por sacar
    procesar_secuencia($nombre_secuencia, $secuencia); # la procesamos
}
 
  
sub procesar_secuencia {
    my ($nombre, $secuencia) = @_;
    $es_interesante{$nombre} = $secuencia;
}
 
__END__
Coloreado en 0.004 segundos,  usando GeSHi 1.0.8.4

Muchas gracias y un saludo

por **explorer** » 2010-10-07 06:05 @295

Bueno, si se trata de leer un fichero FASTA, valdría (creo yo), con saber que la línea comienza con '>' y lo que sigue es el nombre de la secuencia que luego queremos buscar, así que la expresión regular se puede simplificar bastante.

En cuanto al procesamiento, vale con leer la lista de secuencias a buscar e imprimir, que guardaremos en el hash %es_interesante. La asignación del 1 puede despistar, pero realmente, solo queremos crear un hash que nos sirva para recordar los nombres de las secuencias que nos interesan.

Luego, a la hora de leer el fichero de secuencias, nos vale con ir guardando las secuencias interesantes que vamos encontrando. En la siguiente solución, en el hash %secuencias.

Y, finalmente, las sacamos por SALIDA, de forma ordenada (solo las que hemos encontrado).

El problema que había era que el bucle for() recorría todo el hash %es_interesante, y siempre sacaba un listado de todos sus valores, sean la secuencia o el '1' que habíamos metido antes.

Es mejor tener las cosas por separado, y así, ahora tenemos un hash para indicar qué queremos buscar y otro para guardar qué hemos encontrado.

Sintáxis: [ Descargar ] [ Ocultar ]

Using perl Syntax Highlighting

#!/usr/bin/perl
use strict;
use warnings;
use diagnostics;
 
# Lectura del fichero de secuencias a extraer ###############################
print "Enter your list name:\n";
my $entrada = <STDIN>;
 
my %es_interesante;                     # indica cuáles queremos imprimir
 
open(SEQ, $entrada) or die ("ERROR: $!\n");
while (my $nombre = <SEQ>) {
    chomp $nombre;
    $es_interesante{$nombre} = 1;       # lo almacenamos en la memoria asociativa
}
close SEQ;
 
 
# Lectura del fichero FASTA y escritura del resultado ########################
print "Enter your genome fasta name:\n";
my $genome = <STDIN>;
chomp $genome;
 
open(FASTA, $genome)            or die ("ERROR: $!\n");
 
my $nombre_secuencia;   # Guarda el nombre de la secuencia que estamos leyendo
my %secuencias;         # Guarda las que hemos encontrado
 
while (my $linea = <FASTA>) {
    chomp $linea;
 
    if ($linea =~ /^>(.+)/ ) {          # Comienzo de una secuencia nueva
        $nombre_secuencia = $1;         # Nombre de la secuencia
        next;                           # pasamos a la siguiente línea
    }
 
    # Si estamos en una secuencia interesante
    if ($nombre_secuencia  and  $es_interesante{$nombre_secuencia}) {
        $secuencias{$nombre_secuencia} .= $linea;       # la guardamos
    }
}
 
close FASTA;
 
# Salida del resultado ######################################################
open(SALIDA,'>secuencias.txt')  or die ("ERROR: $!\n");
for my $nombre (sort keys %secuencias) {
    print SALIDA ">$nombre\n$secuencias{$nombre}\n";
}
close SALIDA;
 
__END__
Coloreado en 0.002 segundos,  usando GeSHi 1.0.8.4

Lo he ejecutado y ya salen las secuencias que queremos (y no todas, con el '1').

por **Alfumao** » 2010-10-07 07:02 @335

Pues a mí ahora el fichero de salida "secuencias.txt" me sale vacío...
¿Será que el patrón de búsqueda ha sido demasiado sencillo? ¿O tendrá algo que ver el que hayas suprimido la subrutina "procesar_secuencia"?

He copiado tu programa literal (lo he descargado directamente del post), no sé por qué no funcionará... :shock:

por **explorer** » 2010-10-07 08:34 @398

Este programa busca correspondencias literales entre las entradas del listado primero y el contenido del fichero de secuencias.

Por ejemplo, si en el primer fichero hay una entrada como esta:

jgi|Schco1

no reconocerá que existe en el fichero de secuencias, si aparecen cosas como estas:

jgi_Schco1
jgi Schco1
jgi_Schco1|otrefd
jgi|Schco1|otrefd.#_1_#

Aunque podrían referirse a la misma secuencia, el ordenador ve cadenas de caracteres distintas.

Los ficheros de entrada que he usado son:

Sintáxis: [ Descargar ] [ Ocultar ]

Using text Syntax Highlighting

jgi|Schco1|102220

jgi|Schco1|230323

jgi|Schco1|254840Coloreado en 0.000 segundos,  usando GeSHi 1.0.8.4

y

Sintáxis: [ Descargar ] [ Ocultar ]

Using text Syntax Highlighting

>jgi|Schco1|102220

CAPGRSTASRGFKRGDYNIGFSISVSTRSYIAGDGVECSKSSLRIIGGFMSVRGGPKDARDLPGATAVYR

VARRPPTTGIAVALSLSRGTGRRYHVSHIQHIACVELPMAEHGNVLTCTVRAETCPFGDLAPVSHANMPA

VLRYGQDSISGSRRMSSEPPAAYHQGARAYPGGDLPCDQGFAGLSTWCEKDPDLKIGFTGLNGRMTDGGS

PPRSYTRRSLALVSPSPHSLPPTMSTANVSNASNQNDDGAEVQAILDDAFKKRAAAEAERDDLKQWLDLT

KARLDSSESFVSSLQQSIEEHSGTARLRRQEVREVKKEFRSIFVEVRTALDDNYGRPIPDTILLNISTYA

DGDTRLVVSSVNHALRTRLVPLMFKTIVVDQDDERSIKALGRGLLATARELVLHDTRLARELIPHATRSA

PLRLQSLTFSPDSDDALYRETMAISCLLPFLRASPHLERLDCVLVLRRQRDLFALMSEVTGIKKLVIQHI

EGPQREPLSGETAPWVRLEELIVGNGVTDAWFELVLPPHWHPPLTALDISKGADVTWTTLRACLGSVRSS

IERLHISSSMLLENDDTEGAGLHFEGHLPALRELHVRMLTRRGDRLQEMDGVKNLIRVLSNDALAPITEL

HLEFFIMSVFYSDMGRGGGYRGGNNADVTGICGDRLTLSWWQSFALPRRCSMIILIIYDAEDEASDSEST

DSSATDSDLDDGHRASQARYPSGLLRRPYGENEGLKWKPHARSLLLHLAQSIGVTARVSFAPGECPSSGW

PEEWIEQFEEDPDKAMDENETALFYNWREWEV

>jgi|Schco1|230323

MPNPSGSNGHRNGDLPENISAILHDFARRGLKNEARTAELRSMHGYNISITKLKRLNNTYSVPSKRKLPP

IEEVTTRVLEKMDQDIAQRNGPQAIADQLRTDPYDVPLLIGRDVVRGIMRIYSPEGSAARQPGFRRPTLE

RGSIVSAGLLAELHLDGHEKISFASLQMGEDIGVPIYGGREQLSGRPAMYVVPNDRDRNVVAHCYLDIIE

EFGLVAPLQITIDKGTETAELIRIQEVLRDTLTPDLDPLEFPPFLQLRSVQNIVIESMWSWLRKTYGVGV

REEILRGKTDGIFSAAIKLHCFLFRWIWPQIVQRCLNQFIAYWNLHTTRYQANKANPSGKAPMEIWNNHD

TLGYECIGMQVPPELLAELRASVPVSRDDAYRWVPEEFAELAEHVYAIIGSPQLDVRSGWRIFEEMSLKF

IELYPTFTSAColoreado en 0.000 segundos,  usando GeSHi 1.0.8.4

Y la salida es casi idéntica a este último (los finales de línea han desaparecido).

Observa que, efectivamente, coinciden el nombre de las secuencias que estoy buscando.

El tema está en la línea 39: si $es_interesante{$nombre_secuencia} no existe, entonces no identificamos la secuencia como interesante y no la guardamos. Y eso puede ocurrir porque $nombre_secuencia no coincida con ninguna de las que hemos leído antes, del primer fichero. Con que sea una letra o carácter distintos, son cadenas distintas.

Haz la prueba con los ficheros que te paso y verás que funciona con mi programa. La función de procesar... la he quitado porque, realmente, solo hacía lo que realmente hace la línea 40.

Otro tema es si realmente quieres contemplar el caso de que quieres buscar nombres de secuencias que "se parecen" a las que estás buscando. Entonces, debes definirnos qué significa "parecerse".

Foro - Perl en Español

Extraer secuencias genómicas de forma ordenada

Extraer secuencias genómicas de forma ordenada

Publicidad

Re: Extraer secuencias genómicas de forma ordenada

Re: Extraer secuencias genómicas de forma ordenada

Re: Extraer secuencias genómicas de forma ordenada

Re: Extraer secuencias genómicas de forma ordenada

Re: Extraer secuencias genómicas de forma ordenada

Re: Extraer secuencias genómicas de forma ordenada

Re: Extraer secuencias genómicas de forma ordenada

Re: Extraer secuencias genómicas de forma ordenada

Re: Extraer secuencias genómicas de forma ordenada

¿Quién está conectado?