Foro - Perl en Español

por **Alfumao** » 2011-04-07 09:44 @447

Hola de nuevo.

Si transformo el programa de este post en una subrutina (que quiero usar para extraer sólo una secuencia de nombre pasado en la llamada a la subrutina):

Sintáxis: [ Descargar ] [ Ocultar ]

Using perl Syntax Highlighting

&EXP_RET($linea);# ¿Cómo imprimo el resultado de esta expresión?
                 #¿ $sec_result=&EXP_RET($linea);
                 # print "$sec_result";?
Coloreado en 0.002 segundos,  usando GeSHi 1.0.8.4

¿Cómo lo puedo sacar para incorporarlo al programa donde ésta está incluida?, es decir, ¿qué le asigno al comando "return" de la subrutina para que luego me devuelva la secuencia y la pueda imprimir? Llevo horas con esto y no lo puedo solucionar...

Aquí dejo el código de la subrutina derivado del tuyo. Éste funciona perfectamente si lo uso como programa individual, pero una vez pasado a subrutina e incluido en un CGI, no puedo sacar la secuencia resultado en pantalla. ¿Ves algún problema con este código?

Sintáxis: [ Descargar ] [ Ocultar ]

Using perl Syntax Highlighting

sub EXP_RET {
    my ($linea) = @_;
 
    # Lectura del fichero de secuencias
    my %es_interesante;
 
    $es_interesante{$linea} = 1;       # la almacenamos en la memoria asociativa
 
    # Lectura del fichero FASTA
    my $nombre_secuencia;              # Guarda el nombre de cada secuencia
    my $secuencia = '';                # Contenido de la secuencia interesante
 
    open FASTA,  '<PC91.fasta'     or die "ERROR: $!\n";
    open SALIDA, '>secuencias.txt' or die "ERROR: $!\n";
 
    while ( my $linea = <FASTA> ) {
 
        if ( $linea =~ /^>(\w+)/ ) {   # Comienzo de una secuencia nueva
 
            if ($secuencia) {          # Si tenemos una ya leída...
                procesar_secuencia( $nombre_secuencia, $secuencia )
                    ;                  # la procesamos
            }
 
            $nombre_secuencia
                = $1;                  # Nombre de la secuencia extraída desde la exp. reg.
            $secuencia = '';           # Reiniciamos nuestra secuencia a capturar
 
            next;                      # pasamos a la siguiente línea
        }
 
        if ( $es_interesante{$nombre_secuencia} )
        {                              # Si estamos en una secuencia interesante
            $secuencia .= $linea;      # la guardamos
        }
    }
 
    close FASTA;
    close SALIDA;
 
    #if ($secuencia) { # Si aún queda alguna $secuencia por sacar
    #    procesar_secuencia($nombre_secuencia, $secuencia); # la procesamos
    #}
 
    #return ¿QUE VARIBLE ASIGNO PARA PODER IMPRIMIR LA SECUENCIA RESULTANTE?
 
    sub procesar_secuencia {
        my ( $nombre, $secuencia ) = @_;
        print ">$nombre\n$secuencia";
        print SALIDA ">$nombre\n$secuencia";
    }
}
 
Coloreado en 0.002 segundos,  usando GeSHi 1.0.8.4

El resultado es un escalar: el nombre de la secuencia junto con un carácter de fin de línea, y seguido por la propia secuencia. Así que con guardar el resultado en una variable escalar, vale. La diferencia es que en mi versión, ese escalar se envía a la salida estándar y al controlador SALIDA. Tú solo tienes que ponerlo en el return().

por **Alfumao** » 2011-04-07 10:39 @486

Hola explorer,

Eso ya lo intenté de la siguiente forma,

en la subrutina puse como retorno:

Sintáxis: [ Descargar ] [ Ocultar ]

Using perl Syntax Highlighting

my$ret = "$nombre_secuencia\n $secuencia";
return ($ret);
Coloreado en 0.001 segundos,  usando GeSHi 1.0.8.4

Y en el programa principal pongo:

Sintáxis: [ Descargar ] [ Ocultar ]

Using perl Syntax Highlighting

my $sol= &EXP_RET($linea);
 
print"$sol";
Coloreado en 0.001 segundos,  usando GeSHi 1.0.8.4

Me sale el nombre, pero en vez del valor de la secuencia, me sale el valor en blanco...

por **explorer** » 2011-04-07 12:17 @553

Pues si sale en blanco, eso es que $secuencia no contiene nada.

Por lo que veo en el código, hay cosas muy raras... ¿qué hace $linea en la segunda línea de la subrutina?

Tienes además comentadas las líneas 41 a 43. Y no haces el filtrado de la secuencia que dices vas a pasar como argumento...

Te recomiendo que uses el truco de ir poniendo print() a lo largo de la subrutina para que vayas viendo cuándo y cómo va variando $secuencia.

por **Alfumao** » 2011-04-07 15:19 @680

Hola explorer,

$linea = @_; es para recibir el argumento que le paso a la subrutina, ¿es que no se hace así?

Las líneas 41-43 están comentadas porque, si uso la subrutina a modo de programa (metiendo el valor de $linea desde <STDIN>, me devuelve el resultado correcto con esas líneas comentadas...)

En fin, seguiré probando el truco del print() a ver si al final lo consigo, pero es que cuando lo pregunté fue porque mi frustración y ofuscación llegaron al grado máximo.

Siento ser un pesado.

Un saludo

por **explorer** » 2011-04-07 19:25 @850

¿El fichero de entrada siempre es el mismo? Porque eso es lo que veo en la línea 13.

Si en la línea 2 recibes el nombre de la secuencia, luego no lo usas para saber si la has encontrado o no, en la línea 25.

Habría que tener una bandera que se activase cuando hayamos encontrado el nombre que buscamos, y que permitiese almacenar en $secuencia las siguientes líneas, hasta el comienzo de la siguiente secuencia o el final de fichero.

¿El nombre a buscar es exacto al que encontraremos en el fichero o puede tener alguna variación?

Todas las líneas de SALIDA y de %es_interesante, sobran. Solo vamos a almacenar una $secuencia, así que con una sola variable, nos vale. La cuestión es saber cuándo empezar a capturar.

Una opción muy buena sería: leer todo el fichero en una sola variable escalar, y luego usar una expresión regular con el nombre de la secuencia a buscar, y que obtuviéramos como resultado, la secuencia que le sigue. En una sola línea de programa lo tendrías resuelto.

Bueno, sería más rápido usar index(), naturalmente:

Sintáxis: [ Descargar ] [ Ocultar ]

Using perl Syntax Highlighting

#!/usr/bin/perl
use common::sense;              # sentido común
use autodie;                    # sacrificio
use File::Slurp 'slurp';        # chupa, chupa
use open ':locale';
 
# Buscamos por una determinada secuencia, en un determinado fichero
my $nombre_secuencia_a_buscar = 'jgi|Schco1|102220'; # 'jgi|Schco1|230323';
my $fichero_de_secuencias     = 'PC91.fasta';
 
say "Buscando secuencia $nombre_secuencia_a_buscar en fichero $fichero_de_secuencias";
 
if (my $secuencia = buscar_secuencia($nombre_secuencia_a_buscar, $fichero_de_secuencias)) {
    say '¡Encontrado!';
    say $secuencia;
}
else {
    say 'Lo siento, no lo he encontrado';
}
 
 
sub buscar_secuencia {
    my ($nombre, $fichero) = @_;
 
    # Leemos el fichero
    my $secuencias = slurp($fichero);
 
    # Buscamos el nombre de la secuencia
    if (my $posición_inicial = index $secuencias, $nombre) {
 
        # Buscamos el final de la secuencia
        my $posición_final = index $secuencias, "\n\n", $posición_inicial;
                  
        # Caso de que encontremos un final de fichero
        $posición_final = length($secuencias)-1 if $posición_final == -1;
 
        # Extraemos toda la información de la secuencia
        my $secuencia = substr $secuencias, $posición_inicial, $posición_final - $posición_inicial + 1;
                  
        # Extraemos solo la parte de la secuencia
        $secuencia = substr $secuencia, index($secuencia, "\n") + 1;
                  
        return $secuencia;                              # Éxito...
    }
    else {
        return;                                         # Fallo...
    }
}
Coloreado en 0.002 segundos,  usando GeSHi 1.0.8.4

Esta solución busca por un nombre de secuencia en un determinado fichero. Usa index() para localizar las distintas partes: "\n\n" como separador entre distintas secuencias, y "\n" como separador entre el nombre y la propia secuencia. Es una solución muchísimo más rápida que hacer bucles o usando expresiones regulares.

por **Alfumao** » 2011-04-26 13:21 @598

Hola de nuevo explorer.

Cuando ya no sabía que más hacer, "usando el truco del print" me dí cuenta del fallo. El valor que pasaba a la subrutina era "1" en vez del nombre de la secuencia y era todo culpa de la siguiente línea:

chomp(my $linea=@_);

No se porqué en mi desesperación escribí semejante aberración, porque no necesitaba el chomp. Haciéndolo así es lógico que el resultado del valor pasado sea "1" (que es el valor escalar de un array de un solo elemento, si no me equivoco). Así que era tan fácil como escribir:

my($linea)=@_;

Que es como "reciben" los datos las subrutinas...

Siento mucho las molestias causadas.

Un saludo

Foro - Perl en Español

Extraer secuencias genómicas de forma ordenada

Re: Extraer secuencias genómicas de forma ordenada

Publicidad

Re: Extraer secuencias genómicas de forma ordenada

Re: Extraer secuencias genómicas de forma ordenada

Re: Extraer secuencias genómicas de forma ordenada

Re: Extraer secuencias genómicas de forma ordenada

Re: Extraer secuencias genómicas de forma ordenada

Re: Extraer secuencias genómicas de forma ordenada

¿Quién está conectado?