Foro - Perl en Español

por **danusol** » 2010-12-03 05:36 @275

Hola perleros,

tengo un archivo de texto con secuencia de ADN en el que tengo que buscar varias cadenas dadas como argumento al programa, por ejemplo CAGTT y ACGTA. Estas cadenas las guardo en un array y en un bucle recorro el array buscando en el texto todas las apariciones de cada una.

De la siguiente manera abreviada: (nota: he usado la librería Tie para poder leer el archivo de texto como un array aunque requiere mucha memoria porque los archivos son de cientos de megas)

Sintáxis: [ Descargar ] [ Ocultar ]

Using perl Syntax Highlighting

tiemy@array,'Tie::File',$ARGV[0]ordie;
my$tags=<STDIN>;
my@tags=split(',',$tags);
for(@array)
{
if(/^$tags[$t]/i)


Coloreado en 0.002 segundos,  usando GeSHi 1.0.8.4

Si ahora quiero permitir que la primera base de cada cadena pueda ser una indeterminación N, es decir que me busque la presencia de CAGTT o NAGTT, ¿cómo lo podría hacer?

Editado: de hecho, me gustaría que esa indeterminación pudiese tener lugar en cualquiera de las posiciones pero sólo en una, es decir, permito NAGTT o CANTT o CAGTN o ..., pero no CNNTT.

Mil gracias.

Yo no lo habría hecho así... Tie se habría leído el fichero de texto completo a memoria, y si solo me interesa localizar las cadenas, línea a línea, sin importar en qué línea están, entonces es mejor hacer un bucle por todo el fichero, línea a línea.

El proceso -que yo seguiría- es:
* abrir el fichero de secuencias y lo leería línea a línea
* por cada línea, miraría si están las cadenas que estoy buscando. Si están, pinto toda la secuencia.

No nos dices ni muestras qué quieres hacer cuando encuentras esas cadenas, así que he supuesto que solo queremos pintarlas.

Para el caso de los comodines, e incluso para el caso de buscar más de una cadena a la vez, pues Perl viene fenómeno, pues podemos construir una expresión regular desde cero, con todas esas alternativas.

Algo así (no probado):

Sintáxis: [ Descargar ] [ Ocultar ]

Using perl Syntax Highlighting

#!/usr/bin/perl
use strict;
use warnings;
use diagnostics;
 
my $fichero = $ARGV[0] or die "Uso: $0 <fichero de secuencias>\n";
 
print "Introduzca la cadena o cadenas a buscar, separadas por comas: ";
my $cadenas = <>;                   # leemos las cadenas
$cadenas =~ s/\s+//g;               # quitamos todos los caracteres en blanco y el final de línea
$cadenas = uc $cadenas;             # todo a mayúsculas, por si acaso
 
for (split /,/, $cadenas) {         # para cada cadena
    my $enes = tr/N/N/;             # contamos el número de 'N' que tiene 
    die "ERROR: No se puede indicar más de un comodín en cada cadena. Cadena errónea: [$_]\n"
        if $enes > 1;
}
 
$cadenas =~ tr/,N/|./;              # convertimos las comas en alternativas y las 'N' en comodines
 
my $regex = qr/(?:$cadenas)/;       # construimos la expresión regular
 
open my $fh, q[<], $fichero  or  die "ERROR: No puedo leer el fichero $fichero: $!\n";
while (<$fh>) {
    print if $regex;                # pintamos la línea si contiene alguna de las cadenas
}
close $fh;
 
Coloreado en 0.001 segundos,  usando GeSHi 1.0.8.4

Lo que me despista es tu '^' en tu expresión regular... estás reduciendo la búsqueda de la cadena a solo en el comienzo de la secuencia.

por **danusol** » 2010-12-03 08:46 @406

Hola explorer muchas gracias una vez más por tu ayuda. Me extiendo más.
El archivo a parsear tiene bloques de cuatro líneas de la siguiente manera, a cada secuencia de DNA con su encabezado le corresponde una secuencia de la misma longitud de caracteres ASCII con su encabezado, y hay muchos bloques:

Sintáxis: [ Descargar ] [ Ocultar ]

Using text Syntax Highlighting

@SEQ1

CAGTTTCGGGTTTTATGCC

+SEQ1

+++-)+++++abtttbcbm

@SEQ2

ACGTATCGGGTCCTATTCC

+SEQ2

+n+-n++b++abtntbccmColoreado en 0.000 segundos,  usando GeSHi 1.0.8.4

y tengo que buscar estas cadenas de cinco bases, en total 10 cadenas, permitiendo que haya una única indeterminación en cualquier posición. Cuando encuentre la primera cadena con o sin indeterminación quiero que me elimine esa cadena de la línea 2 del bloque y los cinco caracteres correspondientes de la línea 4 del bloque. Quedaría de la siguiente manera en el ejemplo buscando CAGTT y ACGTA:

Sintáxis: [ Descargar ] [ Ocultar ]

Using text Syntax Highlighting

@SEQ1

TCGGGTTTTATGCC

+SEQ1

+++++abtttbcbm

@SEQ2

TCGGGTCCTATTCC

+SEQ2

++b++abtntbccmColoreado en 0.000 segundos,  usando GeSHi 1.0.8.4

Y quiero que me guarde todos los bloques específicos de cada cadena en un archivo diferente, de tal manera que si tengo diez cadenas originales, acabe con diez archivos de salida en los que se han eliminado esas cadenas y sus correspondientes caracteres ASCII.

El hecho de tener que meter las cadenas con sus posibles opciones de indeterminación como argumento daría lugar a tener que meter cincuenta cadenas en el argumento. Esto aunque tedioso se podría llegar a hacer, pero entonces acabaría con 50 archivos y luego tendría que unir los cinco correspondientes a cada cadena.

Espero haberme explicado mejor.

Gracias por tu paciencia.

por **explorer** » 2010-12-03 11:55 @538

Pero, ¿las cadenas de búsqueda de 5 bases solo las buscamos al principio de las secuencias? ¿No pasa nada porque aparezcan en mitad de las secuencias?

por **danusol** » 2010-12-03 12:11 @549

Hola de nuevo, experto.

No, solo pueden estar al principio de la secuencia, por eso pongo el símbolo ^.

Se me ha ocurrido, para no tener que introducir todas las opciones, crear dentro de cada bucle que busque cada cadena, primero generar cinco variables con las posibilidades de indeterminación, usando las funciones substr() y tr///, pero substr() no me selecciona la letra que quiero.

Como ejemplo pongo cambiar la primera y la segunda base por N para una de las cadenas, y quedaría algo así como:

Sintáxis: [ Descargar ] [ Ocultar ]

Using perl Syntax Highlighting

my$cadena_v1=$cadena;
$cadena_v1=~tr/substr$cadena_v1,0,1/N/;#cambiar la primera base por N, pero no me funciona
my$cadena_v2=$cadena;
$cadena_v2=~tr/substr$cadena_v1,1,1/N/;#cambiar la segunda base por N, pero no me funciona


if(/^$cadena/i)||(/^$cadena_v1/i)||(/^cadena_v2/i)
....

Coloreado en 0.001 segundos,  usando GeSHi 1.0.8.4

Gracias

por **explorer** » 2010-12-03 12:31 @563

O sea... recapitulando...

Tenemos un fichero con un montón de bloques, cada bloque son 4 líneas, de las que solo nos interesan la segunda y la cuarta.

Le pedimos al usuario que nos dé una o más cadenas de búsqueda de 5 bases cada una.

Por cada cadena, generamos seis combinaciones, que son la misma cadena y cinco más, de resultas de una indeterminación en cada base.

Cada combinación la buscamos en los comienzos de las secuencias (segundas líneas). Si están, recortamos las comienzos de las líneas 2 y las líneas 4, y grabamos el bloque resultado en un fichero aparte (del que no sabemos cómo nombrarlo y tampoco qué hacer con los bloques que no concuerdan con ninguna cadena de búsqueda).

¿Es eso?

Este programa da un resultado así, excepto la parte de creación de los ficheros.

Sintáxis: [ Descargar ] [ Ocultar ]

Using perl Syntax Highlighting

#!/usr/bin/perl
use common::sense;
use autodie;
 
## Pedimos las cadenas a buscar
print "Introduzca la cadena o cadenas a buscar, separadas por comas: ";
my $cadenas = <>;                      # leemos las cadenas
#my $cadenas = 'CAGTT,ACGTA';
 
$cadenas =~ s/\s+//g;                   # quitamos todos los caracteres en blanco y el final de línea
$cadenas = uc $cadenas;                 # todo a mayúsculas, por si acaso
 
my @cadenas = split /,/, $cadenas;
 
## Generamos las combinaciones por cada cadena
for my $cadena (@cadenas) {
 
    my $nueva_cadena = $cadena;         # combinación sin incertidumbre
    
    for my $i (0 .. 4) {                # resto de combinaciones de incertidumbres
        substr(my $c = $cadena, $i, 1) = '.';
        $nueva_cadena .= "|$c";
    }
    
    $cadena = $nueva_cadena;            # guardamos en el array
}
 
$cadenas = join q[|], @cadenas;
 
my $regex = qr/^($cadenas)/;            # aquí construiremos la expresión regular   
 
#say $regex;
 
 
## Lectura del fichero de bloques
my ($titulo, $seq, $subtitulo, $texto);
 
open my $fh, q[<], 'kk.txt';
 
while (my $linea = <$fh>) {
 
    die if $linea !~ /^@/;      # Oops, algo fue mal
 
    $titulo    = $linea;        # leemos el bloque
    $seq       = <$fh>;
    $subtitulo = <$fh>;
    $texto     = <$fh>;
                                # quitar finales de líneas
    chomp($titulo, $seq, $subtitulo, $texto);
 
#    say "[$titulo, $seq, $subtitulo, $texto]";
 
    if ($seq =~ $regex) {       # buscamos en $seq las cadenas
#        say "Encontrado $1 en $seq";
 
        say substr $seq,   5;           # Recorte
        say substr $texto, 5;
    }
}
 
close   $fh;
Coloreado en 0.002 segundos,  usando GeSHi 1.0.8.4

La salida es

Sintáxis: [ Descargar ] [ Ocultar ]

Using text Syntax Highlighting

TCGGGTTTTATGCC

+++++abtttbcbm

TCGGGTCCTATTCC

++b++abtntbccmColoreado en 0.000 segundos,  usando GeSHi 1.0.8.4

por **danusol** » 2010-12-09 02:54 @162

Muchísimas gracias Exlorer, y perdón por este parón en la discusión.

El resultado sí que tiene que incluir las cuatro líneas de cada bloque, no sólo la línea 2 y 4 (las que has llamado $título y $subtítulo), ya que el bloque completo está representado por las cuatro juntas.

La solución al problema de las indeterminaciones es muy buena; sí quiero todos los resultados a la vez, pero haciendo la búsqueda de todas las cadenas a la vez sería complicado que me separase cada cadena a un archivo.

Me explico. Si busco las cadenas CAGTT y ACGTA que he metido como argumento, quiero que me guarde
- por un lado los bloques de cuatro líneas correspondientes a CAGTT, .AGTT, C.GTT, CA.TT, CAG.T, y CAGT. en los que se han eliminado de la línea 2 la cadena y de la cuatro 4 los primeros caracteres correspondientes a la longitud de la cadena (cinco en este caso) en un archivo con nombre CAGTT_out para poder saber de dónde viene.
- por otro lado lo mismo para los correspondientes a ACGTA, .CGTA, A.GTA, AC.TA, ACG.A, y ACGT., en otro archivo distinto con nombre ACGTA_out.

Siempre tengo el mismo problema cuando intento leer archivos en los que tengo que encontrar una referencia y si existe, tengo que volver unas líneas atrás y coger lo anterior y lo siguiente a la referencia que busco. Si no estoy equivocado, $_ te guarda en memoria la linea que está leyendo pero ¿cómo puedo usar la línea anterior y las dos siguientes? ¿Creando una variable para cada línea? En este caso en el que estoy trabajando sé que cada bloque empieza por '@' y que los bloques son de cuatro líneas, pero ¿y si un bloque tiene longitud variable?

Gracias por la ayuda y los comentarios.

por **explorer** » 2010-12-09 13:33 @606

Bueno, entonces hay que hacer un doble bucle: uno por cada entrada del usuario, y otro interno, que abra el fichero, busque los patrones en él y cree los ficheros de salida.

En cuanto a la forma de leer registros, si sabes cuál es su separador, aunque tengan distinto tamaño, puedes usar la variable especial $/. Si estás seguro que la '@' no aparece en ningún otro sitio más que en el comienzo de cada registro, puedes hacer la lectura, en lugar de línea a línea, de bloque en bloque.

Más información en perldoc perlvar

Foro - Perl en Español

Localizar cadenas de ADN con comodines

Localizar cadenas de ADN con comodines

Publicidad

Re: Localizar cadenas de ADN con comodines

Re: Localizar cadenas de ADN con comodines

Re: Localizar cadenas de ADN con comodines

Re: Localizar cadenas de ADN con comodines

Re: Localizar cadenas de ADN con comodines

Re: Localizar cadenas de ADN con comodines

Re: Localizar cadenas de ADN con comodines

¿Quién está conectado?