Foro - Perl en Español

por **JJShadow** » 2013-02-21 18:35 @815

Hola a todos. Estoy empezando en el mundillo éste del Perl, y haciendo uno de mis primeros programas me ha surgido una duda.

Estoy haciendo un programa bastante básico: a partir de un archivo FASTA, tengo que abrirlo y a partir de él hacer que aparezcan por pantalla las siguientes informaciones

- Nombre del organismo
- AC del producto génico
- Longitud de la cadena de nucleótidos
- Secuencia Proteica
- Longitud de la cadena de aminoácidos

Los 3 primeros puntos ya los he conseguido, pero a partir del 4 me quedo trabado. El archivo FASTA es el siguiente:

Sintáxis: (fasta.txt) [ Descargar ] [ Ocultar ]

Using text Syntax Highlighting

>gi|624185|gb|U18423.1|OS=Homo sapiens|Human spinal muscular atrophy gene product mRNA, complete cds

CGGGGCCCCACGCTGCGCATCCGCGGGTTTGCTATGGCGATGAGCAGCGGCGGCAGTGGTGGCGGCGTCCCGGAGCAGGAGGATTCCGTGCTGTTCCGGCGCGGCACAGGCCAGAGCGATGATTCTGACATTTGGGATGATACAGCACTGATAAAAGCATATGATAAAGCTGTGGCTTCATTTAAGCATGCTCTAAAGAATGGTGACATTTGTGAAACTTCGGGTAAACCAAAAACCACACCTAAAAGAAAACCTGCTAAGAAGAATAAAAGCCAAAAGAAGAATACTGCAGCTTCCTTACAACAGTGGAAAGTTGGGGACAAATGTTCTGCCATTTGGTCAGAAGACGGTTGCATTTACCCAGCTACCATTGCTTCAATTGATTTTAAGAGAGAAACCTGTGTTGTGGTTTACACTGGATATGGAAATAGAGAGGAGCAAAATCTGTCCGATCTACTTTCCCCAATCTGTGAAGTAGCTAATAATATAGAACAGAATGCTCAAGAGAATGAAAATGAAAGCCAAGTTTCAACAGATGAAAGTGAGAACTCCAGGTCTCCTGGAAATAAATCAGATAACATCAAGCCCAAATCTGCTCCATGGAACTCTTTTCTCCCTCCACCACCCCCCATGCCAGGGCCAAGACTGGGACCAGGAAAGCCAGGTCTAAAATTCAATGGCCCACCACCGCCACCGCCACCACCACCACCCCACTTACTATCATGCTGGCTGCCTCCATTTCCTTCTGGACCACCAATAATTCCCCCACCACCTCCCATATGTCCAGATTCTCTTGATGATGCTGATGCTTTGGGAAGTATGTTAATTTCATGGTACATGAGTGGCTATCATACTGGCTATTATATGGGTTTCAGACAAAATCAAAAAGAAGGAAGGTGCTCACATTCCTTAAATTAAGGAGAAATGCTGGCATAGAGCAGCACTAAATGACACCACTAAAGAAACGATCAGACAGATCTGGAATGTGAAGCGTTATAGAAGATAACTGGCCTCATTTCTTCAAAATATCAAGTGTTGGGAAAGAAAAAAGGAAGTGGAATGGGTAACTCTTCTTGATTAAAAGTTATGTAATAACCAAATGCAATGTGAAATATTTTACTGGACTCTTTTGAAAAACCATCTGTAAAAGACTGGGGTGGGGGTGGGAGGCCAGCACGGTGGTGAGGCAGTTGAGAAAATTTGAATGTGGATTAGATTTTGAATGATATTGGATAATTATTGGTAATTTTATGGCCTGTGAGAAGGGTGTTGTAGTTTATAAAAGACTGTCTTAATTTGCATACTTAAGCATTTAGGAATGAAGTGTTAGAGTGTCTTAAAATGTTTCAAATGGTTTAACAAAATGTATGTGAGGCGTATGTGGCAAAATGTTACAGAATCTAACTGGTGGACATGGCTGTTCATTGTACTGTTTTTTTCTATCTTCTATATGTTTAAAAGTATATAATAAAAATATTTAATTTTTTTTTAColoreado en 0.000 segundos,  usando GeSHi 1.0.8.4

En el paso 4 me indica que muestre por pantalla la secuencia de dicha proteína. Mi problema viene a la hora de que no sé cómo hacer para que el programa sólo empiece a procesarme los codones a partir del primer codón ATG, que no está al principio de la secuencia génica, sino algo después: es decir, necesito alguna función que me permita "desechar" todo lo que va antes del codón de inicio, y empezar a traducir a partir de ahí (y lo mismo para el primer codón de parada, pero desechando todo lo que venga después).

¿Alguien me podría iluminar sobre cómo hacer esto?

¡Muchísimas gracias!

Bienvenido a los foros de Perl en Español, JJShadow.

Puedes usar la función index() para buscar una cadena dentro de otra.

Por ejemplo:

my $posicion = index $secuencia, 'ATG';

index() devuelve la posición (comenzando en 0) del carácter que comienza con la subcadena encontrada dentro la $secuencia mayor. Si no lo encuentra, devuelve -1.

Más información, en perldoc -f index.

por **JJShadow** » 2013-02-24 14:44 @655

Muchísimas gracias, explorer. Gracias a la función que me has dicho ya he conseguido que me traduzca a partir del 'ATG' y mi programa funciona a las mil maravillas.

Ahora me ha surgido otra duda, a ver si me puedes iluminar: en un principio, el código que he hecho lo he escrito para trabajar con archivos FASTA en los que la secuencia de nucleótidos vengan en una línea, no en varias líneas diferentes. Sin embargo, he estado pensando a ver qué modificación podría hacerle para que me haga lo mismo pero para secuencias que vengan en varias líneas sucesivas.

Había pensado en sacar todas las líneas de nucleótidos en diferentes variables, luego unirlas todas y por último trabajar con esa unión como si fuese la secuencia normal de nucleótidos, aunque no sé si es demasiado para lo poco que sé de Perl por ahora.

Dejo por aquí el código que tengo ahora mismo:

Sintáxis: [ Descargar ] [ Ocultar ]

Using perl Syntax Highlighting

#!/usr/bin/perl
 
print "Introduce el nombre de tu archivo FASTA que contiene la secuencia:\n";
chomp (my $nomsec = <STDIN>);
 
print "Introduce el nombre de tu archivo de salida:\n";
chomp (my $salida = <STDIN>);
 
open (file1, $nomsec) || die "\nNo se pudo abrir el archivo $nomsec\n";
open (file2, ">$salida") || die "\nNo se pudo abrir el archivo $salida\n";
 
while (<file1>) {
        chomp $_;
        if ($_ =~ /^>/) {
                @info = split (/\|/, $_); #por qué hay que poner \|
                foreach my $info(@info){
                        if($info =~ /^OS=/) {
                                print "\n$info\n";
                                print file2 "\n$info\n"; #preguntar por qué no funciona el \n
                                }
                        }
                print "\nAC producto genico = $info[3]\n"; #preguntar como identifico AC
                print file2 "\nAC producto genico = $info[3]\n";
        } else {
                $numeronuc = length ($_); #cuenta el numero de nucleótidos
                print "\nNumero de nucleotidos = $numeronuc\n";
                print file2 "\nNumero de nucleotidos = $numeronuc\n";
                
                my $numeroaa = -1; #-1 ya que si no cuenta el del stop
                my $stop = 0;
                my $comienzo = index ($_, "ATG"); #mira en que posición está el primer ATG (cuenta desde 0)
                
                print "\nEl primer ATG esta en la posicion $comienzo\n";
                print file2 "\nEl primer ATG esta en la posicion $comienzo\n";
                print "\nSecuencia proteica: \n\n";
                print file2 "\nSecuencia proteica: \n\n";
        
                for ($comienzo; $stop != 1; $comienzo += 3){ #preguntar si para la condición puedo hacerlo con letras directamente
                        my $codon = substr($_, $comienzo, 3); #recorre de tres en tres los nucleótidos
                        if ($codon =~ /GC[ATGC]/){ #preguntar si en lugar de hacer todos los elsif uso un hash superlargo
                                print "A";
                                print file2 "A";
                        } elsif ($codon =~ /CG[ATGC]|AG[AG]/) {
                                print "R";
                                print file2 "R";
                        } elsif ($codon =~ /AA[TC]/) {
                                print "N";
                                print file2 "N";
                        } elsif ($codon =~ /GA[TC]/) {
                                print "D";
                                print file2 "D";
                        } elsif ($codon =~ /TG[TC]/) {
                                print "C";
                                print file2 "C";
                        } elsif ($codon =~ /CA[AG]/) {
                                print "Q";
                                print file2 "Q";
                        } elsif ($codon =~ /GA[AG]/) {
                                print "E";
                                print file2 "E";
                        } elsif ($codon =~ /GG[ATGC]/) {
                                print "G";
                                print file2 "G";
                        } elsif ($codon =~ /CA[TC]/) {
                                print "H";
                                print file2 "H";
                        } elsif ($codon =~ /AT[TCA]/) {
                                print "I";
                                print file2 "I";
                        } elsif ($codon =~ /TT[AG]|CT[ATGC]/) {
                                print "L";
                                print file2 "L";
                        } elsif ($codon =~ /ATG/) {
                                print "M";
                                print file2 "M";
                        } elsif ($codon =~ /AA[AG]/) {
                                print "K";
                                print file2 "K";
                        } elsif ($codon =~ /TT[TC]/) {
                                print "F";
                                print file2 "F";
                        } elsif ($codon =~ /CC[ATGC]/) {
                                print "P";
                                print file2 "P";
                        } elsif ($codon =~ /TC[ATGC]|AG[TC]/) { 
                                print "S";
                                print file2 "S";
                        } elsif ($codon =~ /AC[ATGC]/) {
                                print "T";
                                print file2 "T";
                        } elsif ($codon =~ /TGG/) {
                                print "W";
                                print file2 "W";
                        } elsif ($codon =~ /TA[TC]/) {
                                print "Y";
                                print file2 "Y";
                        } elsif ($codon =~ /GT[ATGC]/) {
                                print "V";
                                print file2 "V";
                        } elsif ($codon =~ /TA[GA]|TGA/) { 
                                $stop = 1;
                        } else { 
                                print "X";
                                print file2 "X";
                        }
                        $numeroaa++;
                }
                print "\n\nNumero de aminoacidos = $numeroaa\n";
                print file2 "\n\nNumero de aminoacidos = $numeroaa\n";
        }
}
 
print "\nNumero de nucleotidos = $numeronuc\n";
 
close file1;
close file2;
Coloreado en 0.005 segundos,  usando GeSHi 1.0.8.4

¡Gracias de nuevo!

por **explorer** » 2013-02-24 16:14 @718

La solución es ir leyendo por líneas, e ir acumulando la secuencia en una variable, y cuando se llega al final de la secuencia (o final del archivo), se procesa esa secuencia.

Mira las líneas 39 a 63 de mi mensaje en este hilo.

Foro - Perl en Español

Encontrar codón de inicio y trabajar a partir de él

Encontrar codón de inicio y trabajar a partir de él

Publicidad

Re: Encontrar codón de inicio y trabajar a partir de él

Re: Encontrar codón de inicio y trabajar a partir de él

Re: Encontrar codón de inicio y trabajar a partir de él

¿Quién está conectado?