Foro - Perl en Español

por **millen** » 2012-01-11 05:58 @290

A ver, tengo que analizar cientos de ficheros FASTA. La cabecera ya la he sacado.

Sintáxis: [ Descargar ] [ Ocultar ]

Using perl Syntax Highlighting

use strict;
 
my @fichero;
 
open (FA, "641736151.fna.txt");
@fichero = <FA>;
close @fichero;
 
my $line;
my @headers;
my $id;
my $locus;
my $refseq;
my $nombre;
foreach $line (@fichero){
        if ($line =~ />/){
                @headers = $line;
                print @headers;
        }
Coloreado en 0.001 segundos,  usando GeSHi 1.0.8.4

Entonces me da cientos de estas cabeceras:

Sintáxis: [ Descargar ] [ Ocultar ]

Using text Syntax Highlighting

>642427638 BgramDRAFT_6745 1557..1832(-)(NZ_ABLD01000069) [Burkholderia graminis C4D1M]

>642427639 BgramDRAFT_6746 1921..2019(-)(NZ_ABLD01000069) [Burkholderia graminis C4D1M]

>642427640 BgramDRAFT_6747 280..846(-)(NZ_ABLD01000070) [Burkholderia graminis C4D1M]

>642427641 BgramDRAFT_6748 851..1948(-)(NZ_ABLD01000070) [Burkholderia graminis C4D1M]Coloreado en 0.000 segundos,  usando GeSHi 1.0.8.4

Y se me ha ocurrido hacerlo así, pero no sé si está bien o si hago algo mal:

Sintáxis: [ Descargar ] [ Ocultar ]

Using perl Syntax Highlighting

my $header;
foreach $header (@headers) {
    if ( $header =~ />(\d+) (BgramDRAFT_\d+) (\d+..\d+)\([+-]\)(NZ_ABLD\d+) (\[Burkholderia graminis C4D1M\])/ ) {
        $id     = $1;
        $locus  = $2;
        $refseq = $3;
        $nombre = $4;
    }
}
}
 
Coloreado en 0.001 segundos,  usando GeSHi 1.0.8.4

¡Muchas Gracias!

Por este foro hay más ejemplos de lectura e interpretación de los ficheros en formato FASTA. Usa el sistema de búsqueda para encontrarlos.

En cuanto a la expresión regular que pones, veo que te falta algún escape, aparte de que no queda claro qué partes quieres capturar.

Esta es mi solución:

Sintáxis: [ Descargar ] [ Ocultar ]

Using perl Syntax Highlighting

#!/usr/bin/perl
use Modern::Perl;               # Somos modernos
use utf8::all;                  # Activamos todo el soporte UTF-8. Todo.
use File::Slurp;
 
my @fasta_headers = read_file('kk.txt');
 
for my $header (@fasta_headers) {
    if ($header =~ /^>(\d+) (\w+) (\d+\.\.\d+)\([-+]\)\((\w+)\) \[(.+?)\]/) {
        my($id, $locus, $refseq, $tag, $nombre) = ($1, $2, $3, $4, $5);
 
        # ...
        say "[$id][$locus][$refseq][$tag][$nombre]";
    }
}
 
__END__
[642427638][BgramDRAFT_6745][1557..1832][NZ_ABLD01000069][Burkholderia graminis C4D1M]
[642427639][BgramDRAFT_6746][1921..2019][NZ_ABLD01000069][Burkholderia graminis C4D1M]
[642427640][BgramDRAFT_6747][280..846][NZ_ABLD01000070][Burkholderia graminis C4D1M]
[642427641][BgramDRAFT_6748][851..1948][NZ_ABLD01000070][Burkholderia graminis C4D1M]
Coloreado en 0.001 segundos,  usando GeSHi 1.0.8.4

por **millen** » 2012-01-11 09:20 @431

Muchísimas gracias, explorer. Más o menos ¡ya lo he conseguido! Sin más quería extraer todos los apartados, como tu bien has hecho.

por **Santino** » 2013-03-05 09:45 @448

Hola, ¡¡buenas tardes!!

explorer... ¿¿cómo luego el programa identifica a "[$id][$locus][$refseq][$tag][$nombre]"??

Sólo consigo obtener la cabecera pero no cómo interpretarla.

Si puedes ayudar, gracias.

por **explorer** » 2013-03-05 11:18 @512

Es en la línea 10 donde esas variables son definidas, a partir de las capturas hechas por los paréntesis de la expresión regular de la línea 9.

En las líneas 12 y 13 es donde se supone que vamos a trabajar con ellas (hacer estadísticas, imprimir en pantalla, guardar en base de datos, etc.).

Foro - Perl en Español

Analizar cabeceras de FASTA

Analizar cabeceras de FASTA

Publicidad

Re: Analizar cabeceras de FASTA

Re: Analizar cabeceras de FASTA

Re: Analizar cabeceras de FASTA

Re: Analizar cabeceras de FASTA

¿Quién está conectado?