Foro - Perl en Español

por **zipetardix** » 2012-02-10 19:42 @862

Hola buenas,

Pues yo tengo un problema que en principio tiene que ver con el tema aquí planteado, aunque no es lo que aquí se
ha tratado de resolver. Me explico.

Mi modelo de cadena de Márkov de orden 1, trata de, en una secuencia de ADN, estudiar la frecuencia con la que
cada nucleótido tiende a preceder al siguiente con el objetivo de comprobar diferencia de éstas frecuencias entre
la zona llamada "isla CpG" y la que no.

Pues bien, ya he conseguido escribir todo el script que me da dichas frecuencias. Ahora en el siguiente
paso tengo que implementar un algoritmo de búsqueda en otro script en el que, leyendo las probabilidades
calculadas en el anterior (asignadas tanto para "isla CpG", como para no), calcule la puntuación para islas CpG de
una longitud dada a lo largo de la secuencia. Así pues, el script debe aceptar el input de la
longitud de dicha "isla", que lo escribe el usuario.

Adjunto el script que he hecho para leer las secuencias y que me devuelva las frecuencias:

Sintáxis: [ Descargar ] [ Ocultar ]

Using perl Syntax Highlighting

#!/usr/bin/perl
use strict;
use warnings;
 
my $file1 = $ARGV[0];
 
my %chain1;                     # background seq
my %chain2;                     # CpG island
my %first_nocpg_first;          # 1st nucleotide of the 1st background seq
my %first_nocpg_second;         # 1st nucleotide of the 2nd background seq
my %first_yescpg;               # 1st nucleotide of the CpG island
 
open(my $FILE1, '<', $file1) or die "cannot open $file1: $!\n";
 
while (<$FILE1>) {
    chomp;
   
    
 
    my ($first_col, $second_col, $seq) = split("\t", $_);
    my $cpg_start = $first_col; #cpg_start = primer nt que ES cpg
    my $cpg_end = $second_col-1;        #cpg_end = último nt que ES cpg                     
    my @nt_seq = split(//, $seq);
    my $len = scalar @nt_seq;
                my @firstnt_yescpg = $nt_seq[$cpg_start];
                my @firstnt_nocpg_first = $nt_seq[0];
                my @firstnt_nocpg_second = $nt_seq[$second_col];
                
        my @not_cpg = @nt_seq[0..499, $second_col..$len];
        my @yes_cpg = @nt_seq[$cpg_start..$cpg_end];
 
        my $i=1;
    for my $nt_nocpg (@not_cpg) {
        $chain1{$not_cpg[$i]}{$not_cpg[$i-1]}++;
        $i++;                  
                 }
        my $f=1;          
    for my $nt_yescpg (@yes_cpg) {
        $chain2{$yes_cpg[$f]}{$yes_cpg[$f-1]}++;
        $f++;
                }
 
        my $j=0;
for my $firstnt_nocpg (@firstnt_nocpg_first) {
        $first_nocpg_first{$firstnt_nocpg_first[$j]} += @firstnt_nocpg_first;
        $j++;
        }
 
        my $k=0;
for my $firstnt_nocpg (@firstnt_nocpg_second) {
        $first_nocpg_second{$firstnt_nocpg_second[$k]} += @firstnt_nocpg_second;
        $k++;
        }
 
        my $l=0;
for my $firstntyescpg (@firstnt_yescpg) {
        $first_yescpg{$firstnt_yescpg[$l]} += @firstnt_yescpg;
        $l++;
        }
 
 
}
 
my $nAA = $chain1{A}{A} / ($chain1{A}{A} + $chain1{C}{A} + $chain1{G}{A} + $chain1{T}{A});
my $nCA = $chain1{C}{A} / ($chain1{A}{A} + $chain1{C}{A} + $chain1{G}{A} + $chain1{T}{A});
my $nGA = $chain1{G}{A} / ($chain1{A}{A} + $chain1{C}{A} + $chain1{G}{A} + $chain1{T}{A});
my $nTA = $chain1{T}{A} / ($chain1{A}{A} + $chain1{C}{A} + $chain1{G}{A} + $chain1{T}{A});
 
my $nAC = $chain1{A}{C} / ($chain1{A}{C} + $chain1{C}{C} + $chain1{G}{C} + $chain1{T}{C});
my $nCC = $chain1{C}{C} / ($chain1{A}{C} + $chain1{C}{C} + $chain1{G}{C} + $chain1{T}{C});
my $nGC = $chain1{G}{C} / ($chain1{A}{C} + $chain1{C}{C} + $chain1{G}{C} + $chain1{T}{C});
my $nTC = $chain1{T}{C} / ($chain1{A}{C} + $chain1{C}{C} + $chain1{G}{C} + $chain1{T}{C});
 
my $nAG = $chain1{A}{G} / ($chain1{A}{G} + $chain1{C}{G} + $chain1{G}{G} + $chain1{T}{G});
my $nCG = $chain1{C}{G} / ($chain1{A}{G} + $chain1{C}{G} + $chain1{G}{G} + $chain1{T}{G});
my $nGG = $chain1{G}{G} / ($chain1{A}{G} + $chain1{C}{G} + $chain1{G}{G} + $chain1{T}{G});
my $nTG = $chain1{G}{G} / ($chain1{A}{G} + $chain1{C}{G} + $chain1{G}{G} + $chain1{T}{G});
 
my $nAT = $chain1{A}{T} / ($chain1{A}{T} + $chain1{C}{T} + $chain1{G}{T} + $chain1{T}{T});
my $nCT = $chain1{C}{T} / ($chain1{A}{T} + $chain1{C}{T} + $chain1{G}{T} + $chain1{T}{T});
my $nGT = $chain1{G}{T} / ($chain1{A}{T} + $chain1{C}{T} + $chain1{G}{T} + $chain1{T}{T});
my $nTT = $chain1{G}{T} / ($chain1{A}{T} + $chain1{C}{T} + $chain1{G}{T} + $chain1{T}{T});
 
my $preA = $first_nocpg_first{A} + $first_nocpg_second{A};
my $preC = $first_nocpg_first{C} + $first_nocpg_second{C};
my $preG = $first_nocpg_first{G} + $first_nocpg_second{G};
my $preT = $first_nocpg_first{T} + $first_nocpg_second{T};
 
my $nA = $preA / ($preA + $preC + $preG + $preT);
my $nC = $preC / ($preA + $preC + $preG + $preT);
my $nG = $preG / ($preA + $preC + $preG + $preT);
my $nT = $preT / ($preA + $preC + $preG + $preT);
print "\nFrequencies outside CpG island:\n";
print "A: $nA", "\n";
print "C: $nC", "\n";
print "G: $nG", "\n";
print "T: $nT", "\n\n";
 
print "A|A: $nAA", "\t", "A|G: $nAG","\n";
print "C|A: $nCA", "\t", "C|G: $nCG","\n";
print "G|A: $nGA", "\t", "G|G: $nGG","\n";
print "T|A: $nTA", "\t", "T|G: $nTG","\n";
print "A|C: $nAC", "\t", "A|T: $nAT","\n";
print "C|C: $nCC", "\t", "C|T: $nCT","\n";
print "G|C: $nGC", "\t", "G|T: $nGT","\n";
print "T|C: $nTC", "\t", "T|T: $nTT","\n\n";
 
 
my $yAA = $chain2{A}{A} / ($chain2{A}{A} + $chain2{C}{A} + $chain2{G}{A} + $chain2{T}{A});
my $yCA = $chain2{C}{A} / ($chain2{A}{A} + $chain2{C}{A} + $chain2{G}{A} + $chain2{T}{A});
my $yGA = $chain2{G}{A} / ($chain2{A}{A} + $chain2{C}{A} + $chain2{G}{A} + $chain2{T}{A});
my $yTA = $chain2{T}{A} / ($chain2{A}{A} + $chain2{C}{A} + $chain2{G}{A} + $chain2{T}{A});
 
my $yAC = $chain2{A}{C} / ($chain2{A}{C} + $chain2{C}{C} + $chain2{G}{C} + $chain2{T}{C});
my $yCC = $chain2{C}{C} / ($chain2{A}{C} + $chain2{C}{C} + $chain2{G}{C} + $chain2{T}{C});
my $yGC = $chain2{G}{C} / ($chain2{A}{C} + $chain2{C}{C} + $chain2{G}{C} + $chain2{T}{C});
my $yTC = $chain2{T}{C} / ($chain2{A}{C} + $chain2{C}{C} + $chain2{G}{C} + $chain2{T}{C});
 
my $yAG = $chain2{A}{G} / ($chain2{A}{G} + $chain2{C}{G} + $chain2{G}{G} + $chain2{T}{G});
my $yCG = $chain2{C}{G} / ($chain2{A}{G} + $chain2{C}{G} + $chain2{G}{G} + $chain2{T}{G});
my $yGG = $chain2{G}{G} / ($chain2{A}{G} + $chain2{C}{G} + $chain2{G}{G} + $chain2{T}{G});
my $yTG = $chain2{G}{G} / ($chain2{A}{G} + $chain2{C}{G} + $chain2{G}{G} + $chain2{T}{G});
 
my $yAT = $chain2{A}{T} / ($chain2{A}{T} + $chain2{C}{T} + $chain2{G}{T} + $chain2{T}{T});
my $yCT = $chain2{C}{T} / ($chain2{A}{T} + $chain2{C}{T} + $chain2{G}{T} + $chain2{T}{T});
my $yGT = $chain2{G}{T} / ($chain2{A}{T} + $chain2{C}{T} + $chain2{G}{T} + $chain2{T}{T});
my $yTT = $chain2{G}{T} / ($chain2{A}{T} + $chain2{C}{T} + $chain2{G}{T} + $chain2{T}{T});
 
my $ypreA = $first_yescpg{A};
my $ypreC = $first_yescpg{C};
my $ypreG = $first_yescpg{G};
my $ypreT = $first_yescpg{T};
 
my $yA = $ypreA / ($ypreA + $ypreC + $ypreG + $ypreT);
my $yC = $ypreC / ($ypreA + $ypreC + $ypreG + $ypreT);
my $yG = $ypreG / ($ypreA + $ypreC + $ypreG + $ypreT);
my $yT = $ypreT / ($ypreA + $ypreC + $ypreG + $ypreT);
 
print "\nFrequencies inside CpG island:\n";
print "A: $yA", "\n";
print "C: $yC", "\n";
print "G: $yG", "\n";
print "T: $yT", "\n\n";
 
print "A|A: $yAA", "\t", "A|G: $yAG","\n";
print "C|A: $yCA", "\t", "C|G: $yCG","\n";
print "G|A: $yGA", "\t", "G|G: $yGG","\n";
print "T|A: $yTA", "\t", "T|G: $yTG","\n";
print "A|C: $yAC", "\t", "A|T: $yAT","\n";
print "C|C: $yCC", "\t", "C|T: $yCT","\n";
print "G|C: $yGC", "\t", "G|T: $yGT","\n";
print "T|C: $yTC", "\t", "T|T: $yTT","\n\n";
 
Coloreado en 0.008 segundos,  usando GeSHi 1.0.8.4

Como podéis comprobar, separo los primeros nucleótidos de cada inicio de bloque al no estar precedidos por ninguno.

Y adjunto un par de ejemplos de secuencias a analizar ($último nt que no es CpG, $último nt que es CpG, $secuencia)

Quizá pida demasiado. En todo caso toda ayuda que me podáis proporcionar, ya sean pautas que he de seguir, pistas,
consejos, etc, ya me vendrán muy bien, así que lo que podáis.

Muchas gracias.

zipetardix escribiste:Ahora en el siguiente paso tengo que implementar un algoritmo de búsqueda en otro script en el que, leyendo las probabilidades calculadas en el anterior (asignadas tanto para "isla CpG", como para no), calcule la puntuación para islas CpG de una longitud dada a lo largo de la secuencia. Así pues, el script debe aceptar el input de la longitud de dicha "isla", que lo escribe el usuario.

Yo no dispongo de suficiente información como para saber cómo ha de ser ese algoritmo, pero viendo el código mostrado, si te das cuenta, hay muchas líneas que son prácticamente iguales. Eso quiere decir que existe otra forma de hacer este primer programa, más corta.

Además, salen errores:

Sintáxis: [ Descargar ] [ Ocultar ]

Using text Syntax Highlighting

Use of uninitialized value $not_cpg[1000] in hash element at code_29665.pl line 34, <$FILE1> line 1.

Use of uninitialized value within @not_cpg in hash element at code_29665.pl line 34, <$FILE1> line 1.

Use of uninitialized value $not_cpg[1000] in hash element at code_29665.pl line 34, <$FILE1> line 1.

Use of uninitialized value within @yes_cpg in hash element at code_29665.pl line 39, <$FILE1> line 1.

Use of uninitialized value $not_cpg[1000] in hash element at code_29665.pl line 34, <$FILE1> line 2.

Use of uninitialized value within @not_cpg in hash element at code_29665.pl line 34, <$FILE1> line 2.

Use of uninitialized value $not_cpg[1000] in hash element at code_29665.pl line 34, <$FILE1> line 2.

Use of uninitialized value within @yes_cpg in hash element at code_29665.pl line 39, <$FILE1> line 2.

Use of uninitialized value $not_cpg[1000] in hash element at code_29665.pl line 34, <$FILE1> line 3.

Use of uninitialized value within @not_cpg in hash element at code_29665.pl line 34, <$FILE1> line 3.

Use of uninitialized value $not_cpg[1000] in hash element at code_29665.pl line 34, <$FILE1> line 3.

Use of uninitialized value within @yes_cpg in hash element at code_29665.pl line 39, <$FILE1> line 3.

Use of uninitialized value $not_cpg[1000] in hash element at code_29665.pl line 34, <$FILE1> line 4.

Use of uninitialized value within @not_cpg in hash element at code_29665.pl line 34, <$FILE1> line 4.

Use of uninitialized value $not_cpg[1000] in hash element at code_29665.pl line 34, <$FILE1> line 4.

Use of uninitialized value within @yes_cpg in hash element at code_29665.pl line 39, <$FILE1> line 4.

Use of uninitialized value in addition (+) at code_29665.pl line 84, <$FILE1> line 4.

Use of uninitialized value in addition (+) at code_29665.pl line 85, <$FILE1> line 4.

Use of uninitialized value in addition (+) at code_29665.pl line 87, <$FILE1> line 4.

...Coloreado en 0.000 segundos,  usando GeSHi 1.0.8.4

El problema está en la línea 29:

Sintáxis: [ Descargar ] [ Ocultar ]

Using perl Syntax Highlighting

    my @not_cpg = @nt_seq[0..499, $second_col..$len];
Coloreado en 0.001 segundos,  usando GeSHi 1.0.8.4

El valor de $len es absoluto (la longitud de @nt_seq), pero ahí lo estás usando como índice para extraer los valores de dentro de @nt_seq, así que, en realidad, estás metiendo un valor demás (e indefinido) en @not_cpg, saltando el error en la línea 34.

Luego vienen los tres bucles for de las líneas 44, 50 y 56. ¿Es correcto que solo den una vuelta cada uno de ellos? Fíjate, por ejemplo en el primero, que @firstnt_nocpg_first siempre contiene un solo valor: $nt_seq[0]. Y lo mismo para los otros dos... ¿eso es correcto? ¿Hacer un bucle de una vuelta para sumar un solo valor?

Sería interesante saber una descripción del algoritmo que quieres implementar aquí, para el cálculo de frecuencias. Sé que cuentas las veces que aparece un nucleótido después de otro, pero a partir de ahí no veo muy claro lo que quieres hacer...

por **zipetardix** » 2012-02-11 19:04 @836

Hola explorer,

Se trata de un programilla que trata de analizar las secuencias dadas del siguiente modo:

- En la secuencia hay tres subtipos: una "isla CpG", que empieza y termina en los nucleótidos especificados por la primera y segunda columna respectivamente y a ambos flancos secuencia "background" o "no CpG" de 500nt cada una.

- Hay que analizar las frecuencias en las que un nt da paso a otro en concreto tanto en un subtipo como en el otro.

- A parte, debido a la estructura del hash, hay que contar a parte los nt que comienzan dichos subtipos, ya que estos no están precedidos por ninguno. En este caso:

- - @firstnt_nocpg_first = $nt_seq[0]; me construye un array de todos los primeros nt de la primera secuencia flanqueante.
- - @firstnt_nocpg_second = $nt_seq[$second_col]; lo mismo pero con los primeros nt de la segunda secuencia flanqueante. Lo normal es hacer ambos juntos puesto que luego las sumo pero inexplicablemente me duplicaba los resultados así que lo he dejado así.
- - @firstnt_yescpg = $nt_seq[$cpg_start]; primer nucleótido de cada isla CpG.

- Para el siguiente paso, siguiendo el ejemplo expuesto aquí, había pensado en hacer un output de una matriz para después poder trabajar con ella para calcular scores en otras secuencias. Eso lo he conseguido hacer pero ¿podría hacerse sin necesidad de escribir un archivo? Y ¿cómo podría trabajar con dicha matriz donde tengo primer nucleótido en filas y segundo nucleótido en columnas de manera que al leer la secuencia problema, el programa sepa recorrer la matriz hasta el resultado adecuado?

¡Muchas gracias por la ayuda hasta ahora y por la que pueda venir!

por **explorer** » 2012-02-11 21:09 @923

Entonces, las líneas 43 a 59 se pueden reducir a:

Sintáxis: [ Descargar ] [ Ocultar ]

Using perl Syntax Highlighting

    $first_nocpg_first { $nt_seq[          0] }++;
    $first_nocpg_second{ $nt_seq[$second_col] }++;
    $first_yescpg      { $nt_seq[ $cpg_start] }++;
Coloreado en 0.001 segundos,  usando GeSHi 1.0.8.4

Es decir, van sumando las apariciones de los nt en esas posiciones.

por **explorer** » 2012-02-14 18:27 @810

Esta es mi versión, pero no ha pasado los controles de calidad (me refiero a que no sabemos si realiza bien los cálculos) ya que no sabemos a dónde pertenecen los nucleótidos indicados por las dos primeras columnas de datos.

Sintáxis: [ Descargar ] [ Ocultar ]

Using perl Syntax Highlighting

#!/usr/bin/perl
#
# Estadísticas de frecuencias de aparición entre dos nucleótidos consecutivos, en dos zonas diferentes.
#
use Modern::Perl;                       # Somos modernos
use utf8::all;                          # Activar todo el soporte UTF-8
use List::Util 'sum';                   # Operaciones de lista de elementos
 
 
### Constantes
my @NT = qw( A C G T );
 
 
### Variables
my %nt_seq_no_CpG;                      # background seq
my %nt_seq_si_CpG;                      # CpG island seq
my %firstnt_no_CpG_1;                   # 1st nucleotide of the 1st background seq
my %firstnt_no_CpG_2;                   # 1st nucleotide of the 2nd background seq
my %firstnt_si_CpG;                     # 1st nucleotide of the CpG island
 
 
### Proceso
# Recibimos el archivo a procesar por la entrada estándar, o
# por el nombre del archivo a procesar, pasado como argumento
while (<>) {
    chomp;
 
    if (3 != (my($start, $stop, $seq) = split)) {       # Cada línea debe tener 3 campos
        say "ERROR en línea $.";
        next;
    }
    else {
        my @seq = split //, $seq;
        unshift @seq, ' ';                              # Insertamos nt en posición 0,
                                                        # para que todos los cálculos estén basados en 1
 
        my @no_CpG = @seq;                                      # La sub secuencia no CpG es igual a toda la secuencia,
        my @si_CpG = splice @no_CpG, $start, $stop - $start;    # menos la parte de la isla
 
        ## Frecuencia de nt consecutivos, fuera de la isla
        for (my $i = 0; $i < $#no_CpG; $i++) {
            $nt_seq_no_CpG{ $no_CpG[$i] }{ $no_CpG[$i+1] }++;
        }
 
        ## Frecuencia de nt consecutivos, en la isla
        for (my $i = 0; $i < $#si_CpG; $i++) {
            $nt_seq_si_CpG{ $si_CpG[$i] }{ $si_CpG[$i+1] }++;
        }
 
        $firstnt_no_CpG_1{ $seq[1     ] }++;
        $firstnt_si_CpG  { $seq[$start] }++;
        $firstnt_no_CpG_2{ $seq[$stop ] }++;
    }
}
 
# Cálculo de las estadísticas fuera de la isla
my %no_freq;
for my $nt1 (@NT) {
    my $suma_nt1 = sum map { $nt_seq_no_CpG{$_}{$nt1} } @NT;
 
    for my $nt2 (@NT) {
        $no_freq{$nt2}{$nt1} = $nt_seq_no_CpG{$nt2}{$nt1} / $suma_nt1;
    }
}
 
my %pre_no_freq;
for my $nt (@NT) {
    $pre_no_freq{$nt}  = $firstnt_no_CpG_1{$nt} // 0;
    $pre_no_freq{$nt} += $firstnt_no_CpG_2{$nt} // 0;
}
 
my $suma_pre_no_freq = sum map { $pre_no_freq{$_} } @NT;
 
#use Data::Dumper::Simple;
#say Dumper %firstnt_no_CpG_1;
#say Dumper %firstnt_no_CpG_2;
#say Dumper %pre_no_freq;
#say $suma_pre_no_freq;
 
for my $nt (@NT) {
    $pre_no_freq{$nt} /= $suma_pre_no_freq;
}
 
say 'Frecuencias fuera de la isla CpG:';
for my $nt (@NT) {
    say "$nt: $pre_no_freq{$nt}";
}
 
for my $nt1 (@NT) {
    for my $nt2 (@NT) {
        printf "%s|%s: %3.3f\n", $nt2, $nt1, $no_freq{$nt2}{$nt1};
    }
}
 
# Cálculo de las estadísticas en la isla
my %si_freq;
for my $nt1 (@NT) {
    my $suma_nt1 = sum map { $nt_seq_si_CpG{$_}{$nt1} } @NT;
 
    for my $nt2 (@NT) {
        $si_freq{$nt2}{$nt1} = $nt_seq_si_CpG{$nt2}{$nt1} / $suma_nt1;
    }
}
 
my %pre_si_freq;
for my $nt (@NT) {
    $pre_si_freq{$nt} = $firstnt_si_CpG{$nt} // 0;
}
 
my $suma_pre_si_freq = sum map { $pre_si_freq{$_} } @NT;
 
for my $nt (@NT) {
    $pre_si_freq{$nt} /= $suma_pre_si_freq;
}
 
say 'Frecuencias en la isla CpG:';
for my $nt (@NT) {
    say "$nt: $pre_si_freq{$nt}";
}
 
for my $nt1 (@NT) {
    for my $nt2 (@NT) {
        printf "%s|%s: %3.3F\n", $nt2, $nt1, $si_freq{$nt2}{$nt1};
    }
}
 
__END__
Coloreado en 0.004 segundos,  usando GeSHi 1.0.8.4

Se podría reducir aún más, ya que los cálculos estadísticos son casi los mismos tanto fuera como dentro de la isla.

Foro - Perl en Español

Modelos ocultos de Márkov

Re: Modelos ocultos de Márkov

Publicidad

Re: Modelos ocultos de Márkov

Re: Modelos ocultos de Márkov

Re: Modelos ocultos de Márkov

Re: Modelos ocultos de Márkov

¿Quién está conectado?