Foro - Perl en Español

por **j_f_r_85** » 2010-12-06 13:16 @595

Compañeros:

Una vez más solicitando su ayuda. Deseo crear un script que me devuelva secuencias de ADN que se encuentra entre dos pequeñas secuencias del mismo patrón. Las secuencias de ADN se encuentran en un archivo .txt, y el usuario puede definir que patrón buscar y el archivo a introducir.

Es algo como esto: quiero extraer las secuencias que se encuentran entre el patrón ATC

CATCTAAAAGTGCGTAGATC
GTGTACCAACAGGAGGCTTG
TGTCAGATGAATACACTTGT
TGGGCGTGTTATTAATAAGA
ACTCGCATTCGCCTAGAGAA
CATCTAAAAGTGCGTAGATC
GTGTACCAACAGGAGGCTTG
TGTCAGATGAATACACTTGT

Deseo que se extraigan secuencias de toda la secuencia, y línea por línea. Además, deseo conocer la longitud de cada secuencia extraída. Algo así:

TAAAAGTGCGTAG 13
GTGTACCAACAGGAGGCTTGTGTCAGATGAATACACTTGTTGGGCGTGTTATTAATAAGAACTCGCATTCGCCTAGAGAAC 81
TAAAAGTGCGTAG 13

Lo más a lo que he llegado es a este script:

Sintáxis: [ Descargar ] [ Ocultar ]

Using perl Syntax Highlighting

#!/usr/bin/perl
# digest.pl
 
use strict; use warnings;
 
die "usage: digest.pl <pattern> <file>" unless @ARGV ==2;
 
my $pattern = $ARGV[0];
 
print "The pattern is: $pattern\n";
 
open (FILE, $ARGV[1]);
 
while (<FILE>) {
        if (/$pattern/../$pattern/) {
        print "$. $_\n";
        }
}
Coloreado en 0.002 segundos,  usando GeSHi 1.0.8.4

Pero no me funciona, además soy malo con las regex. ¿Alguna recomendación?

¡Muchas gracias de antemano!

UPDATE: coloqué mal el patrón, el patrón es ATC.

Aquí hay un problema: el operador rango viene bien cuando hay una expresión en una línea, y otra expresión unas líneas más abajo. Pero no te devuelve las partes de la secuencia entre los patrones. Y tampoco te vale si los patrones están en la misma línea.

La solución pasa por leer, antes, toda la secuencia, a un único escalar. Le quitas los caracteres de fin de línea y ya te quedas solo con las bases. Y ya puedes aplicar la expresión regular para buscar, que sería algo así:

Sintáxis: [ Descargar ] [ Ocultar ]

Using perl Syntax Highlighting

while($secuencia=~/$patrón(.+?)(?=$patrón)/g){
print"$1\n";
}Coloreado en 0.001 segundos,  usando GeSHi 1.0.8.4

La opción /g permite buscar la expresión regular de forma repetida a lo largo de la $secuencia. Y lo que buscamos es lo que hay entre dos patrones. El '(.+?)' quiere decir: "captura todo, pero solo antes del siguiente...". Y el (?=...) sirve para indicar que el segundo $patrón no formará parte de la captura, por lo que podemos detectar los casos en los que ese patrón forma tanto el final como el principio de la siguiente captura.

por **j_f_r_85** » 2010-12-07 09:38 @443

Estimado explorer:

Buen día. Intenté modificar el script para que haga lo que deseo. Sé que aún hay trabajo por hacer. Este es el script que tengo al momento:

Sintáxis: [ Descargar ] [ Ocultar ]

Using perl Syntax Highlighting

#!/usr/bin/perl
# digest.pl
 
use strict; use warnings;
 
die "usage: digest.pl <pattern> <file>" unless @ARGV ==2;
 
my $pattern = $ARGV[0];
 
open (FILE, $ARGV[1]);
 
print "The pattern is: $pattern\n";
 
while (<FILE>) {
        chomp;
        while ($_ =~ /$pattern(.+?)(?=$pattern)/g) {
    print "$1\n";
        }
}
Coloreado en 0.002 segundos,  usando GeSHi 1.0.8.4

Creo que me me da los sitios de restricción (fragmentos) para toda la secuencia al completo. ¿Qué opinas? Estoy usando un archivo de texto con 21 secuencias (una por línea) de 100 bases cada una.

Me imprime los fragmentos en pantalla. ¿Cómo podría hacer para que en un archivo me guardara solo los fragmentos y en otro solo las longitudes de cada fragmento?

Aún necesito avanzar para ver cómo podría hacer que haga esto pero línea por línea del archivo de texto. Ya que seguramente tendré archivos de texto con secuencias de 1000 bases por línea, y deseo conocer sitios de restricción y su longitud por cada secuencia. Espero poder seguir avanzando.

¡Gracias de antemano!

por **explorer** » 2010-12-07 10:17 @470

Tal cual lo tienes puesto ahora, solo detectará las secuencias que estén completamente incluidas en una sola línea. No detectará las secuencias que ocupan más de una línea.

Fíjate que el bucle while() lo estás aplicando a la línea que has leído en el while() principal.

Esta es mi solución:

Sintáxis: [ Descargar ] [ Ocultar ]

Using perl Syntax Highlighting

#!/usr/bin/perl
#
# Extracción de secuencias entre patrones
#
# JF 20101205.220008
#
 
use common::sense;
use File::Slurp;
 
## Argumentos al programa
@ARGV ==2  or  die "Uso: $0 <patrón> <fichero con la secuencia>\n";
 
my ($patrón, $fichero) = @ARGV;
 
$patrón =~ /^[ATCG]+$/  or  die "ERROR: el patrón no se compone de [ATCG]\n";
-e $fichero             or  die "ERROR: no encuentro el fichero $fichero\n";
 
 
## leemos la secuencia
my $secuencia = read_file($fichero);
 
$secuencia =~ s/\s+//g;         # quitamos blancos y finales de línea
 
 
## construimos la expresión regular
# Al construirla fuera del bucle while(),
# evitamos que sea recalculada en cada vuelta
my $regex = qr/$patrón(.+?)(?=$patrón)/o;
 
 
## buscamos las secuencias entre patrones
while ($secuencia =~ /$regex/g) {
    say "[$1] ", length $1;
}
Coloreado en 0.002 segundos,  usando GeSHi 1.0.8.4

por **j_f_r_85** » 2010-12-08 03:56 @206

Mi estimado explorer,

En serio que me has ayudado bastante, no solo corrigiendo los scripts. Si no también explicando los errores y soluciones. ¡Muchas gracias!

Seguiré practicando un poco más, por lo que creo que estaré preguntando más cosas.

Solo una cosa más por el momento; en mi caso, tenía deshabitada la característica "say". Entonces tuve que declarar su uso al principio del script, por lo que la primera parte de carga de bibliotecas me quedo así:

Sintáxis: [ Descargar ] [ Ocultar ]

Using perl Syntax Highlighting

use common::sense;
use File::Slurp;
use feature 'say';Coloreado en 0.001 segundos,  usando GeSHi 1.0.8.4

¡Gracias nuevamente!

por **j_f_r_85** » 2010-12-08 06:06 @296

Estimado explorer,

Tengo una duda, ojalá me puedas guiar. Esta viendo las secuencias que me encuentra el script, así como los valores de su longitud. Y se me ocurría si es posible graficarlas en un histograma, algo así por ejemplo:

Tenemos esto:

Sintáxis: [ Descargar ] [ Ocultar ]

Using text Syntax Highlighting

[TGTTGGGCGTGTTATTAATAAGA] 23

[CTACAATAATCTTTCT] 16

[TGTTGGGCGTGTTATTAATAAGA] 23

[CTACAATAATCTTTCT] 16

[CA] 2

[ATATAATGCATTCATATGTAATTATAAG] 28Coloreado en 0.000 segundos,  usando GeSHi 1.0.8.4

¿Cómo se podría pedir al script que presente un histograma como el siguiente?

Sintáxis: [ Descargar ] [ Ocultar ]

Using text Syntax Highlighting

              23 |||||||||||||||||||||||||

              16 ||||||||||||||||

               2 ||

              28 ||||||||||||||||||||||||||||||Coloreado en 0.000 segundos,  usando GeSHi 1.0.8.4

En este momento (tengo que pensar un poco más) se me ocurre que guardando los valores de longitud del fragmento en un hash, y con las siguiente instrucciones puede ser posible. ¿Qué opinas?

Sintáxis: [ Descargar ] [ Ocultar ]

Using perl Syntax Highlighting

while(my($keys,$values)=each%longitud){
print"$keys ",('|' x $values),"\n";
}Coloreado en 0.001 segundos,  usando GeSHi 1.0.8.4

También seria interesante hacer un pequeño y simple gráfico de la frecuencia de fragmentos encontrada en la salida después de los cortes de restricción. Se me ocurre que con una instrucción sort(), pero ¿cómo pedir por la frecuencia?

Bueno, por el momento es mucho preguntar, pensaré al respecto pero quisiera conocer tu opinión. ¡Gracias de antemano!

por **explorer** » 2010-12-08 08:12 @383

Puedes generar el histograma "pintándolo" en una variable escalar, y luego imprimir todo. Algo así:

Sintáxis: [ Descargar ] [ Ocultar ]

Using perl Syntax Highlighting

my $histograma;
 
while ($secuencia =~ /$regex/g) {
    my $longitud = length $1;
    $histograma .= sprintf "%3d %s\n", $longitud, ('|' x $longitud);
 
    say "[$1] ", $longitud;
}
 
print $histograma;
Coloreado en 0.001 segundos,  usando GeSHi 1.0.8.4

por **explorer** » 2010-12-08 08:14 @384

j_f_r_85 escribiste:Solo una cosa más por el momento; en mi caso, tenía deshabitada la característica "say". Entonces tuve que declarar su uso al principio del script, por lo que la primera parte de carga de bibliotecas me quedo así:

Sintáxis: [ Descargar ] [ Ocultar ]
Sintáxis: [ Descargar ] [ Mostrar ]
Using perl Syntax Highlighting
use common::sense;
use File::Slurp;
use feature 'say';
Coloreado en 0.001 segundos, usando GeSHi 1.0.8.4

No hace falta. El módulo common::sense ya se encarga de eso.

por **j_f_r_85** » 2010-12-09 09:13 @426

Mi estimado explorer, he estado intentando ejecutar el script que me has ayudado a corregir, pero estoy obteniendo errores y una salida de ceros. Mira, según yo el script ha quedado así:

Sintáxis: [ Descargar ] [ Ocultar ]

Using perl Syntax Highlighting

#!/usr/bin/perl
 
use common::sense;
use File::Slurp;
 
@ARGV ==2  or  die "Uso: $0 <patrón> <fichero con la secuencia>\n";
 
my ($patron, $fichero) = @ARGV;
 
$patron =~ /^[ATCG]+$/  or  die "ERROR: el patrón no se compone de [ATCG]\n";
-e $fichero             or  die "ERROR: no encuentro el fichero $fichero\n";
 
my $secuencia = read_file($fichero);
 
$secuencia =~ s/\s+//g;
 
my $regex = qr/$patron(.+?)(?=$patron)/o;
 
my $histograma;
 
while ($secuencia =~ /$regex/g) {
    $histograma .= sprintf "%3d %s\n", $1, ('|' x $1); 
    say "[$1] ", length $1;
}
 
print $histograma;
Coloreado en 0.002 segundos,  usando GeSHi 1.0.8.4

Pero la salida que obtengo es esta:

Sintáxis: [ Descargar ] [ Ocultar ]

Using text Syntax Highlighting

Argument "ATCGTGATAACCGTGTCGAGGTGATCAGAGGCCGACGGAAATCAAACG" isn't numeric in sprintf at "la ruta donde se encuentra mi código" line 27.Coloreado en 0.000 segundos,  usando GeSHi 1.0.8.4

Este error una vez por línea, y después una columna de ceros así:

Sintáxis: [ Descargar ] [ Ocultar ]

Using text Syntax Highlighting

  0 

  0 

  0 

  0 

  0 

  0 

  0 

  0 

  0 Coloreado en 0.000 segundos,  usando GeSHi 1.0.8.4

¿Qué estoy haciendo mal?
¡Gracias por tu ayuda!

por **wanako** » 2010-12-09 11:58 @540

Sintáxis: [ Descargar ] [ Ocultar ]

Using perl Syntax Highlighting

my $histograma;
my $hist;
 
while ($secuencia =~ /$regex/g) {
    $histograma = sprintf ("%s", '|' x length($1)); 
    say "[$1]\t", length $1, "\t$histograma";
}
 
say "\n==== O tal vez ====\n";
 
while ($secuencia =~ /$regex/g) {
    $hist .= sprintf ("\t%d %s\n", length($1), '|' x length($1)); 
    say "[$1]\t", length $1;
}
say $hist;
Coloreado en 0.002 segundos,  usando GeSHi 1.0.8.4

Puedo estar equivocado porque no conozco Bioinformática ni lo que se busca representar, para mejor formateo en un GNU/Linux debes usar 'tput' y 'cup' o crear otro archivo para el histograma, ¿gnuplot? a futuro es ideal.

Edito: sobraba un operador ".=", ahora está mejor, ahorramos 4 bytes

Foro - Perl en Español

Sitios de restricción de ADN

Sitios de restricción de ADN

Publicidad

Re: Sitios de restricción de ADN

Re: Sitios de restricción de ADN

Re: Sitios de restricción de ADN

Re: Sitios de restricción de ADN

Re: Sitios de restricción de ADN

Re: Sitios de restricción de ADN

Re: Sitios de restricción de ADN

Re: Problema con sitios de restricción de ADN

Re: Sitios de restricción de ADN

¿Quién está conectado?