Foro - Perl en Español

por **anush** » 2010-01-11 07:19 @347

Buenos días, llevo varios días con un problema y no sé cómo solucionarlo:

Tengo un archivo en formato FASTA de la siguiente manera:

Sintáxis: [ Descargar ] [ Ocultar ]

Using text Syntax Highlighting

>NUMEROS

12345

67891

>LETRAS

ABCDE

FGHIJ

>NUMEROS

12345

67891

>LETRAS

ABCDE

FGHIJ

...Coloreado en 0.000 segundos,  usando GeSHi 1.0.8.4

Quiero quedarme solo con los números, pero no debo basarme en el hecho de que sean números o letras, sino que el primer formato fasta tiene números y el segundo letras, y esto se repite.

Gracias.

Se puede hacer de muchas formas...

La primera que se me ocurre: Vamos leyendo línea a línea. Cada vez que encontramos una nueva sección ('>'), cambiamos una variable de estado. Si estaba a 0, la pasamos a 1. Y al revés. Así sabemos, para el resto de líneas, en qué sección estamos. Se podría llamar... $en_NUMEROS

Luego pongo otras formas, que se me ocurran.

por **explorer** » 2010-01-11 12:44 @572

Otra forma sería leer todo el fichero, dividirlo en registros, y separarlos según la posición que ocupan.

Algo así:

Sintáxis: [ Descargar ] [ Ocultar ]

Using perl Syntax Highlighting

#!/usr/bin/perl
use strict;
use warnings;
use diagnostics;
 
open my $fasta, q[<], 'fasta.txt' or die "$!\n";
local $/ = undef;
my $fichero = <$fasta>;
close $fasta;
 
my @registros = grep { /./  } split "\s*>", $fichero;
my @numeros;
my @letras;
 
for (my $i = 0; $i < @registros; $i++) {
 
    if ($i % 2) {
        push @letras, $registros[$i];
    }
    else {
        push @numeros, $registros[$i];
    }
}
 
use Data::Dumper;
print Dumper \@registros;
print Dumper \@numeros;
print Dumper \@letras;
Coloreado en 0.005 segundos,  usando GeSHi 1.0.8.4

por **anush** » 2010-01-11 13:04 @586

Gracias, ¿pero no hay una manera más sencilla?

por **explorer** » 2010-01-11 14:50 @660

Creo que no... al final, en las dos soluciones, debes usar una condición para saber dónde dejar el registro.

Se puede "esconder" el procedimiento ocultando y compactando código, pero... no queda muy claro...

Sintáxis: [ Descargar ] [ Ocultar ]

Using perl Syntax Highlighting

#!/usr/bin/perl
use strict;
use warnings;
use diagnostics;
 
open my $fasta, q[<], 'fasta1.txt' or die "$!\n";
local $/ = undef;
my $fichero = <$fasta>;
close $fasta;
print "$fichero\n";
 
my @numeros;
my @letras;
 
while ($fichero =~ />.*?$([^>]+)>.*?$([^>]+)/gsmo) {
    my ($numeros,$letras) = ($1, $2); # Los dos registros capturados
    $numeros =~ s/\s*//g;             # les quitamos los espacios y finales de línea
    $letras  =~ s/\s*//g;
    push @numeros, $numeros;          # lo guardamos
    push @letras,  $letras;
}
 
use Data::Dumper;
print Dumper \@numeros;
print Dumper \@letras;
 
__END__
>NUMEROS
12345
67891
>LETRAS
ABCDE
FGHIJ
>NUMEROS
12345
67891
>LETRAS
ABCDE
FGHIJ
 
$VAR1 = [
          '1234567891',
          '1234567891'
        ];
$VAR1 = [
          'ABCDEFGHIJ',
          'ABCDEFGHIJ'
        ];
Coloreado en 0.002 segundos,  usando GeSHi 1.0.8.4

Esta solución usa una expresión regular para capturar dos registros contiguos.

Esta otra es aún más compacta, generando una estructura de datos de un array de array:

Sintáxis: [ Descargar ] [ Ocultar ]

Using perl Syntax Highlighting

#!/usr/bin/perl
use strict;
use warnings;
use diagnostics;
 
open my $fasta, q[<], 'fasta1.txt' or die "$!\n";
local $/ = undef;
my $fichero = <$fasta>;
close $fasta;
print "$fichero\n";
 
my @registros;
 
my $i = 0;
while ($fichero =~ />.*?$([^>]+)/gsmo) {
    my $registro = $1;                     # lo capturado
    $registro =~ s/\s*//g;                 # quitamos los espacios y finales de línea
    push @{$registros[$i % 2]}, $registro; # lo guardamos según el valor de $i
    $i++;                                  # contador
}
 
use Data::Dumper;
print Dumper \@registros;
 
__END__
>NUMEROS
12345
67891
>LETRAS
ABCDE
FGHIJ
>NUMEROS
12345
67891
>LETRAS
ABCDE
FGHIJ
 
$VAR1 = [
          [
            '1234567891',
            '1234567891'
          ],
          [
            'ABCDEFGHIJ',
            'ABCDEFGHIJ'
          ]
        ];
Coloreado en 0.002 segundos,  usando GeSHi 1.0.8.4

Yo creo que quede más clara la opción primera, la de la variable que hace de indicador.

por **anush** » 2010-01-12 10:10 @465

Lo he intentado de la siguiente manera:
Supongamos que fichero tiene esta forma

Sintáxis: [ Descargar ] [ Ocultar ]

Using perl Syntax Highlighting

>numeros
12345
67891
78923
>letras
adfjsfdaf
asfdgsdfg
safaadfgd
>numeros
12345
67891
78923
>letras
adfjsfdaf
asfdgsdfg
safaadfgd
Coloreado en 0.001 segundos,  usando GeSHi 1.0.8.4

He hecho esto:

Sintáxis: [ Descargar ] [ Ocultar ]

Using perl Syntax Highlighting

my $cuenta = 0;
my(@numeros) = (  );
my $posicion = 0;
my $linea;
foreach $linea (@fichero) {
   if ($linea=~ /^>/) {   #Si empieza con >
       ++$cuenta;          #suma uno a la cuenta
          unless ($cuenta % 2 == 0) {  #Si no es divisible por 2
                do {                   #haz lo siguiente
                    ++$posicion;
                    push( @numeros,$fichero[$posicion]);
                                      
                    } until {$fichero[$posicion]=~ /^>/} #Hasta que empiece con >
                 }
      }
}
Coloreado en 0.002 segundos,  usando GeSHi 1.0.8.4

Pero no funciona, ¿que tengo mal?

por **explorer** » 2010-01-12 11:05 @503

Huy... no es nada aconsejable el mezclar varios índices de acceso dentro de un mismo array... puedes tener problemas...

Esta solución es muy básica, pero da la secuencia de números. Basada en tu solución.

Sintáxis: [ Descargar ] [ Ocultar ]

Using perl Syntax Highlighting

#!/usr/bin/perl
use strict;
use warnings;
use diagnostics;
 
# Leemos el fichero que hay después de DATA
my @fichero = <DATA>;
 
my $cuenta = 0;             # Número de registro
my $numeros;                # La secuencia de números
for my $linea (@fichero) {  # Para todas las líneas del @fichero
    if ($linea =~ /^>/) {       # Si la $linea empieza con '>'
        ++$cuenta;              # Tenemos un registro más
        next;                   # Pasamos a la siguiente línea
    }
    unless ($cuenta % 2 == 0) {  # Si el contador de registros no es par
        chomp $linea;               # Quitamos el carácter fin de línea
        $numeros .= $linea;         # Guardamos la nueva línea de números
    }
}
 
print "$numeros\n"; # 123456789178923123456789178923
 
__DATA__
>numeros
12345
67891
78923
>letras
adfjsfdaf
asfdgsdfg
safaadfgd
>numeros
12345
67891
78923
>letras
adfjsfdaf
asfdgsdfg
safaadfgd
Coloreado en 0.002 segundos,  usando GeSHi 1.0.8.4

Vamos recorriendo todas las líneas. Si empieza por '>', incrementamos el contador. Si no, puede ser una línea que tengamos que almacenar o no. Eso lo sabremos si el contador es par. Si lo es, entonces le quitamos el carácter de fin de línea y agregamos la $linea al final de la de $numeros, que hará de almacén de todos los números leídos.

Foro - Perl en Español

Leer registros de forma alterna

Leer registros de forma alterna

Publicidad

Re: Problema con un fichero

Re: Problema con un fichero

Re: Problema con un fichero

Re: Problema con un fichero

Re: Leer registros de forma alterna

Re: Leer registros de forma alterna

¿Quién está conectado?