Foro - Perl en Español

por **explorer** » 2016-09-02 12:28 @561

El fallo está en la línea 12:

Sintáxis: [ Descargar ] [ Ocultar ]

Using perl Syntax Highlighting

chomp $palabras;
Coloreado en 0.001 segundos,  usando GeSHi 1.0.8.4

Esa variable no es conocida, en esa línea. Perl no hace nada ahí.

En realidad, lo que quieres hacer es quitar los finales de línea de todas las @palabras, así que la línea debería ser

Sintáxis: [ Descargar ] [ Ocultar ]

Using perl Syntax Highlighting

chomp @palabras;
Coloreado en 0.001 segundos,  usando GeSHi 1.0.8.4

Al no quitar los caracteres de fin de línea, en la línea 20 estábamos buscando por una $palabra dentro de $registro, pero como $palabra lleva los caracteres de fin de línea, obligamos a que esa $palabra esté al final del $registro, lo cual es muy posible que no suceda en todos los casos.

#!/usr/bin/perl
   
 
   
    ## Procesar todas las líneas, una a una
    open (F,"<lista_de_secuencias.txt") or die "can't open lista\n";
    my @palabras=<F>;
    close F;
    #chomp @palabras;
    print "@palabras\n";
    open (INPUT , "<$ARGV[0]");
    open (OUTPUT, ">$ARGV[0].out");
     
    $/ = "\n>"; # separador entre registros
    chomp @palabras;
    print "@palabras\n";
    while(my $registro = <INPUT>) {
        chomp $registro;
        #print "$registro||\n";
        for my $palabra (@palabras) {
            chomp $palabra;
            #print "$registro||$palabra|!!!|\n";
            if ($registro =~ /$palabra/) {    # si es el que nos interesa
                                             # quitar el marcador '>'
                say OUTPUT ">$registro\n";       # resultado
            }
            last;
        }
    }
    close INPUT;
    close OUTPUT;
    exit;
 
Coloreado en 0.003 segundos,  usando GeSHi 1.0.8.4

Hice el cambio pero aún la lista solo busca el primer nombre de la lista y no corre, aún no veo por qué no funciona.

por **explorer** » 2016-09-02 12:59 @582

Sería interesante que publicaras dos ejemplos, uno de un archivo a filtrar, y luego otro con las palabras, pero como supongo que son muy largos, con unas versiones más cortas, de unas decenas de líneas, sería suficiente.

por **rednet** » 2016-09-02 14:40 @653

aqui van los archivos que usa el script

por **explorer** » 2016-09-03 13:20 @597

El problema estaba en que los archivos están en formato MSDOS (las líneas terminan en dos caracteres: el carácter de retorno de carro (13) y el de avance de línea (10)).

Como yo trabajo en Linux, me llamó la atención que solo pudiera leer un registro. Es debido precisamente a la distinta terminación de los finales de línea.

Si estás trabajando en Windows, entonces Perl lo sabría y no notarías nada (podrías leer las líneas tal cual). El problema está si los archivos se han generado/descargado de un sistema MSDOS y los vas a procesar en un sistema distinto (Linux o Mac). Hay que tener en cuenta estos detalles, para evitar sorpresas.

Una forma de solventarlo es indicando expresamente a Perl que los archivos a leer/escribir tengan siempre los finales de línea con caracteres tipo MSDOS. En perldoc PerlIO está la documentación sobre la capa ':crlf', que transforma, en la lectura, los dos bytes 13-10 al carácter "\n" y, en escritura, justo al revés.

El siguiente programa hace la lectura y procesamiento correcto del archivo de secuencias, y saca los registros que coincidan con alguna de los nombres de la lista.

Sintáxis: [ Descargar ] [ Ocultar ]

Using perl Syntax Highlighting

#!/usr/bin/perl
use open IO => ':crlf';                                         # la entrada y la salida, en formato MSDOS
 
### Lectura de las secuencias a extraer
open(F,"<lista_de_secuencias.txt") or die "can't open lista\n";
my @palabras = <F>;
close F;
chomp @palabras;
 
### Procesamiento del argumento
-e $ARGV[0] or die "ERROR: No encuentro [$ARGV[0]]: $!\n";      # si no encontramos el argumento, terminamos
 
open(INPUT , "<",  $ARGV[0]);
open(OUTPUT, ">", "$ARGV[0].out");
 
my $registro = '';                                              # aquí almacenamos cada registro
 
while(my $linea = <INPUT>) {                                    # leemos línea a línea
    if ($linea =~ /^>/) {                                       # si la línea comienza con marca de registro
        procesar_registro($registro) if $registro;              # procesamos el registro almacenado antes (si lo hay, claro)
        $registro = '';                                         # y lo ponemos a cero (perdón, a nada)
    }
 
    $registro .= $linea;                                        # vamos guardando cada $linea en $registro
}
 
procesar_registro($registro) if $registro;                      # en caso de terminar, procesamos el último $registro
 
close INPUT;
close OUTPUT;
 
 
sub procesar_registro {                                         # aquí procesamos cada $registro
    my $registro = shift;
 
    foreach my $palabra (@palabras) {                           # para cada $palabra, de entre todas las @palabras
        if ($registro =~ /\b$palabra\b/) {                      # si el $registro contiene esa $palabra
            print OUTPUT $registro;                             # volcamos el $registro fuera
            last;                                               # y terminamos
        }
    }
}
Coloreado en 0.003 segundos,  usando GeSHi 1.0.8.4

Lo he comprobado con tus ejemplos, y la salida es idéntica al original, ya que la lista de secuencias coincide con todos los registros.

por **rednet** » 2016-09-08 09:33 @439

Gracias, explorer.

Foro - Perl en Español

Filtrado genes en archivos FASTA

Re: Filtrado genes en archivos FASTA

Publicidad

Re: Filtrado genes en archivos FASTA

Re: Filtrado genes en archivos FASTA

Re: Filtrado genes en archivos FASTA

Re: Filtrado genes en archivos FASTA

Re: Filtrado genes en archivos FASTA

¿Quién está conectado?