Foro - Perl en Español

por **oshaoran** » 2012-01-24 12:19 @555

¡¡Hola!! Soy estudiante de ing. biológica, y actualmente curso la asignatura de bioinformática, debía crear una rutina para que dada la secuencia de un péptido el programa me identifique si dicho péptido es o no un péptido antimicrobiano.

La idea general es: Los péptidos antimicrobianos de mi trabajo, son péptidos con características especificas que los diferencian de los demás péptidos. Tienen varios aminoácidos que se conservan en posiciones muy especificas (motivos). Entonces, usando el modelo estadístico de cadenas ocultas de Márkov, yo le asigno una probabilidad de ocurrencia a cada aminoácido en cada posición de la secuencia.

Dada una secuencia, el programa debe tomarla reconociendo las posiciones, e ir leyendo posición por posición, leer el aminoácido de la secuencia, y compararlo con las probabilidades de que realmente ese aminoácido esté en esa posición (probabilidades tomadas de una matriz (aminoácido X posición), tomar el dato de probabilidad de cada posición y sumarlo, y al final entregar la sumatoria de dichas probabilidades.

Lo anterior debe repetirse para un número X de secuencias que el programa debe leer de un archivo en formato fasta. Luego, usando la suma de cada secuencia, arrojar finalmente como salida, las secuencias cuya probabilidad se encuentre en un intervalo suministrado y así puedo concluir que dichas secuencias son o no un péptido antimicrobiano.

Ya es complicado decirlo en palabras, ¿¿no?? ¡je,je,je!, bueno mis conocimientos son bastante básicos en el tema. Inicialmente la rutina que quería armar, era haciendo un ciclo for() que me leyera cada posición y de acuerdo al aminoácido que encontrara, asignara el valor que requiero tomándolo de una matriz diseñada en Excel u otro formato, pero no tengo idea de cómo implementar la matriz con los valores a asignar :cry:

. Luego encontré una rutina ya hecha que ejecuta el proceso de las cadenas ocultas de Márkov, pero aplicado al procesamiento de textos.
Espero, puedan ayudarme a que esa rutina, en vez de identificarme palabras en un texto, me identifique los aminoácidos que quiero.

Llevo más de dos semanas intentando de todo, tratando de hacer la rutina yo mismo, y luego tratando de editar la que encontré, pero nada me funciona

Les agradezco cualquier ayuda o explicación que me puedan brindar Uds. que son bastante conocedores sobre programación.

Sintáxis: [ Descargar ] [ Ocultar ]

Using perl Syntax Highlighting

#!/usr/bin/perl -w
 
 
use strict;
 
my @words;    # words on a line
my %wordlist; # key: prefix, value: anon hash (k: suffix,
              #                                v: frequency)
 
my $pref_len = shift @ARGV || 2;
my $maxwords = shift @ARGV || 100;
 
my $entries  = 0;
 
# build word list
#
# 'Blessed is the man that walketh not in the counsel'
# %wordlist = ( 'blessed is' => { 'the' => 1, },
#               'is the'     => { 'man' => 1, },
#               'the man'    => { 'that'=> 1, },
#             );
#
while (<>) {
  my $suf;
 
  push @words, split;
 
  while ( @words > $pref_len )  {
    # build prefix of $pref_len words
    # join(' ', @array) is faster than qq(@array) or "@array"
    #
    my $pref = join(' ', @words[0..($pref_len-1)]);
 
    # add suffix to list
    #
    $suf = $words[$pref_len];
 
    $wordlist{$pref}{$suf}++;
 
    shift @words; # next word on this line
 
    $entries++;
  }
}
 
# change frequency count to a percentage
# (with help from pcb, recipe 2.10)
#
foreach my $href ( values %wordlist ) {
  foreach ( values %$href ) {
    $_ /= $entries;
  }
}
 
# starting point
#
my $pref = (keys %wordlist)[rand keys %wordlist];
 
print "$pref";
 
# dump out listings
#
for (0..($maxwords-1)) {
  last unless (exists $wordlist{$pref});
 
  my $suf = weighted_suffix();
 
  print ' '. $suf;
 
  print "\n" if ( $_ % 10 == 0);
 
  # skip past first word in prefix
  #
  $pref =~ s/^[^ ]+ (.+)$/$1 $suf/;
}
 
exit;
 
# from pcb (recipe 2.10)
#
sub weighted_suffix {
  my ($suf,$weight,$rand);
 
  while (1) {
    $rand = rand;
 
    while ( ($suf,$weight) = each %{ $wordlist{$pref} } ) {
      return $suf if ($rand -= $weight) < 0;
    }
  }
}
Coloreado en 0.003 segundos,  usando GeSHi 1.0.8.4

No pillo la idea... Vas a tener que explicarte mejor porque nos falta mucha información, el código que pones cortapegado no me sugiere nada, tampoco

Lo primero de todo elimina de tu código todo lo innecesario o no relacionado con tu problema concreto, usa nombres de variable apropiados a su contenido y depura los comentarios eliminando todo lo innecesario.

El programa que pones corre con dos argumentos, ¿qué esperas pasarle dentro de estos argumentos?

$_ /= $entries;

Probablemente esto no hace lo que esperas que haga.

Vamos a suponer que tenemos la siguiente secuencia de aminoácidos:

Valina-Leucina-Treonina-Lisina-Lisina-Leucina

¿cuál es el resultado que esperas?

> tomándolo de una matriz diseñada en Excel

Tu programa no conecta con Excel. De todos modos puedes usar una variable hash para eso...

por **oshaoran** » 2012-01-24 20:06 @879

Ok, quizá subir ese código no fue la mejor idea; solo trataba de mostrar cómo es que puede ejecutarse lo de los modelos de Márkov.

Bueno, trataré de explicarme mejor... Tengo la siguiente secuencias de letras, por ejemplo:

Sintáxis: [ Descargar ] [ Ocultar ]

Using text Syntax Highlighting

ASDFGHJK

SDFGAHKJ

HGFDSKASColoreado en 0.000 segundos,  usando GeSHi 1.0.8.4

Yo tengo en Excel una matriz que me dice de acuerdo a un análisis estadístico ya hecho, cuál es la probabilidad de que cada letra, realmente se encuentre en dicha posición; es algo así, por ejemplo (Letra vs. posición)

Sintáxis: [ Descargar ] [ Ocultar ]

Using text Syntax Highlighting

        1       2       3       4       5       6       7       8       

A       0.1     0.4     0.9     0.1     0.1     0.1     0.4     0.7     

S       0.5     0.5     0.5     0.5     0.5     0.5     0.5     0.5     

D       0.7     0.7     0.7     0.7     0.2     0.7     0.9     0.7     

F       0.7     0.7     0.5     0.7     0.7     0.7     0.4     0.7     

G       0.6     0.6     0.6     0.6     0.6     0.6     0.6     0.6     

H       0.4     0.4     0.4     0.4     0.4     0.4     0.4     0.4     

J       0.3     0.3     0.3     0.2     0.3     0.4     0.3     0.1     

K       0.5     0.4     0.8     0.7     0.4     0.5     0.9     0.7 Coloreado en 0.000 segundos,  usando GeSHi 1.0.8.4

El programa debería leerme cada secuencia, tomar cada probabilidad y sumarla

Sintáxis: [ Descargar ] [ Ocultar ]

Using text Syntax Highlighting

ASDFGHJK: 0.1+ 0.5+0.7+0.7+0.6+0.4+0.3+0.3=3.6

SDFGAHKJ: 0.5+0.7+0.5+0.6+0.1+0.4+0.9+0.1=3.8Coloreado en 0.000 segundos,  usando GeSHi 1.0.8.4

El fundamento es que con un orden distinto el puntaje final va ser distinto también... entonces yo tengo un intervalo, por ejemplo (3.0-3.6), entonces el programa debería decirme: la secuencia 1 está dentro del intervalo, y con eso yo concluyo que dicha secuencia es un péptido antimicrobiano.

Mi problema en esencia es que no sé cómo programar esa parte de la rutina para que el programa me lea la secuencia y pueda realizar las sumas tomando la matriz. Mis conocimientos son demasiado básicos. El único programa que he logrado hacer fue uno para hallar ORF, y solo usé if() y for(); no sabría cómo usar ese hash que tu me propones.

Lo poco que he podido programar fue esto:

Sintáxis: [ Descargar ] [ Ocultar ]

Using perl Syntax Highlighting

#!/usr/bin/perl
###########################
#nombre de secuencia de entrada (aminoacidos)
$secuencia= 'secprueba.fasta';  
open (SECUENCIA, $secuencia);
@secuencia= <SECUENCIA>;                                                                                                
close SECUENCIA;
print @secuencia;
 
####################################
#$seccy=join ("",@cyclotide);                                                                           
#print @cyclotide;
#$seccy=~s/\n//g;
#print length $seccy, "\n";
#################################
$secuencia[o]="";
$proteina=join("",@secuencia);
$proteina=~ s/\n//g; 
$test= substr($proteina, 0,21);
 
for ($j=1; $j< scalar @secuencia; $j= $j+2) {
print "la linea $j es:\n";
$seq = $secuencia [$j];
 
print $seq, "\n";
 
@test=split('',$seq);
 
        for ($i=0; $i< scalar @test; ++$i) {
        if (substr($test,$i,1) eq 'G') {$pos=$pos+1.8;}
        elsif (substr($test,$i,1) eq 'C') {$pos=$pos+2.5;}
        elsif (substr($test,$i,1) eq 'V') {$pos=$pos+3.5;}
        elsif (substr($test,$i,1) eq 'S') {$pos=$pos+3.5;}
        #
        #
        #
        #
        #un elsif para cada aminoacido
        #
        
        else {print "error posicion $i\n";}
        }
print $pos, "\n";
 
        }       
Coloreado en 0.002 segundos,  usando GeSHi 1.0.8.4

Pero lo que hace es sumarme el valor que le doy cuando encuentra la letra, sin importar la posición. Lo que yo deseo es, como he dicho, que si encuentra por ejemplo, S en la primera posición, sume un valor, pero si en vez de S en dicha posición encuentra V, entonces sume un valor distinto, así para cada posición.

por **explorer** » 2012-01-24 23:40 @028

Bienvenido a los foros de Perl en español, oshaoran.

Aquí tienes un ejemplo de lo que se puede hacer.

Supongamos que tenemos un archivo FASTA así:

Sintáxis: [ Descargar ] [ Ocultar ]

Using text Syntax Highlighting

>98448|fgenesh3_pg.4971__1

JHJJDJKA

>23766|gw1.611.1.1

SJJKGFSD

>28683|gw1.3814.2.1

KKJAJGDHColoreado en 0.000 segundos,  usando GeSHi 1.0.8.4

y un archivo con las estadísticas, así:

Sintáxis: [ Descargar ] [ Ocultar ]

Using text Syntax Highlighting

        1       2       3       4       5       6       7       8      

A       0.1     0.4     0.9     0.1     0.1     0.1     0.4     0.7    

S       0.5     0.5     0.5     0.5     0.5     0.5     0.5     0.5    

D       0.7     0.7     0.7     0.7     0.2     0.7     0.9     0.7    

F       0.7     0.7     0.5     0.7     0.7     0.7     0.4     0.7    

G       0.6     0.6     0.6     0.6     0.6     0.6     0.6     0.6    

H       0.4     0.4     0.4     0.4     0.4     0.4     0.4     0.4    

J       0.3     0.3     0.3     0.2     0.3     0.4     0.3     0.1    

K       0.5     0.4     0.8     0.7     0.4     0.5     0.9     0.7Coloreado en 0.000 segundos,  usando GeSHi 1.0.8.4

Entonces, con este programa:

Sintáxis: [ Descargar ] [ Ocultar ]

Using perl Syntax Highlighting

#!/usr/bin/perl
use autodie;                    # Mejor morir que regresar con deshonor --Proverbio Klingon
use Data::Dumper;               # Para ver las estructuras complejas
 
### Constantes
my @intervalo = (3.0, 3.6);
 
### Variables
my %estadisticas;               # Estructura bidimensional.
                                # Cada fila está indexada por una clave, que será una letra.
                                # El valor correspondiente es una referencia a un array, que
                                # almacenará los distintos valores de probabilidad según la
                                # posición dentro de la secuencia. Ejemplo
                                #
                                # $estadisticas{'A'}->[3] : probabilidad de 'A' cuando está
                                #                           en cuarta posición
 
 
 
### Lectura de las estadísticas
open my $excel, '<', 'excel.txt';
<$excel>;                               # leemos y despreciamos la primera línea, la de los números
while (<$excel>) {
    chomp;                              # quitamos el fin de línea
    my @columnas = split;               # separamos por los espacios en blanco
 
                                        # Construimos la matriz
    my $letra = shift @columnas;        # La primera columna es la de las letras
    $estadisticas{$letra} = \@columnas; # el resto, las probabilidades
}
close $excel;
 
#print Dumper(\%estadisticas);          # Vemos el aspecto de nuestra criatura
 
### Lectura del fichero fasta
my $nombre_secuencia;
my $secuencia;
 
open my $fasta, '<', 'fasta.txt';
while (my $linea = <$fasta>) {
    chomp $linea;
    
    if ($linea =~ /^>(.+)/) {           # Si es una línea de cabecera
 
        if ($secuencia) {               # Si teníamos una secuencia anterior
            procesa($secuencia, $nombre_secuencia);     # la procesamos
        }
 
        $nombre_secuencia = $1;         # nos quedamos con el nombre de la nueva secuencia
        $secuencia = '';                # y reiniciamos la secuencia a leer
    }
    else {                              # sino, es parte de una secuencia
        $secuencia .= $linea;           # la agregamos como secuencia que estamos leyendo
    }
}
 
if ($secuencia) {                       # en caso de llegar al final del fichero fasta
    procesa($secuencia, $nombre_secuencia);     # procesamos la última secuencia
}
 
close $fasta;
 
sub procesa {
    my ($seq, $nombre) = @_;            # leemos los argumentos
 
    my $total = 0;                      # total acumulado
    my $pos;                            # posición de la letra en la secuencia
 
    for ($pos = 0; $pos < length $seq; $pos++) {        # para toda la secuencia
 
        my $letra = substr $seq, $pos, 1;               # sacamos una letra cada vez
 
        if (not $estadisticas{$letra}) {                # comprobación
            die "ERROR: No tenemos estadísticas para letra $letra\n";
        }
 
        if (not exists $estadisticas{$letra}->[$pos]) { # más comprobaciones
            die "ERROR: No tenemos estadísticas para letra $letra en posición ", $pos+1, "\n";
        }
 
        $total += $estadisticas{$letra}->[$pos];        # acumulamos
    }
 
    if ($total >= $intervalo[0]  and  $total <= $intervalo[1]) {
        print "$nombre_secuencia está dentro del intervalo: $total\n";
    }
    else {
        print "$nombre_secuencia no está dentro del intervalo: $total\n";
    }
}
Coloreado en 0.003 segundos,  usando GeSHi 1.0.8.4

tenemos la salida

Sintáxis: [ Descargar ] [ Ocultar ]

Using text Syntax Highlighting

fgenesh3_pg.4971__1 está dentro del intervalo: 3.4

gw1.611.1.1 no está dentro del intervalo: 4.3

gw1.3814.2.1 está dentro del intervalo: 3.5Coloreado en 0.000 segundos,  usando GeSHi 1.0.8.4

por **pvaldes** » 2012-01-25 05:14 @260

Me daba la impresión, de que había un problema con eso, sí.

La probabilidad de tener ASDFGHJK no es 0.1+ 0.5+0.7+0.7+0.6+0.4+0.3+0.3 = 3.6

Probabilidad de tener A + S = probabilidad de tener A * probabilidad de tener S ... etc, luego

0.1*0.5*0.7*0.7*0.6*0.4*0.3*0.3 = 0.0005292

Si no, podríamos alcanzar probabilidades superiores al 100% fácilmente, (en éste ejemplo el 360%) lo cual no tiene sentido estadístico.

por **explorer** » 2012-01-25 06:49 @326

Pero es que, justamente, el modelo oculto de Márkov, es la suma de las probabilidades de ocurrencia de un determinado evento cuando ocurre otro evento relacionado en un determinado momento o espacio. Las probabilidades ya las ha calculado antes, con la Excel.

Lo interesante para mi sería hacer el cálculo de probabilidades en el mismo programa.

Si oshaoran nos da más detalles del cálculo, lo podríamos intentar resolver.

Y me parece que el ejemplo que puso de la cadena ASDFGHJK, no hace bien la cuenta... el último 0.3 debería ser 0.7, creo.

por **oshaoran** » 2012-01-26 22:09 @964

¡¡Hey!!!

Les agradezco muchísimo, realmente la rutina me fue muy útil, pude completar a la perfección mi trabajo, nuevamente muchas gracias, realmente valoro que aun existan personas, dispuestas a compartir su conocimiento.

Bueno, continuando con ello, lo de hallar las probabilidades, quizá sea algo más complicado. Para hallarlas, tuvimos que hacer un alineamiento de secuencias de unos 30 péptidos antimicrobianos, para descubrir qué posiciones se conservan, y poder sacar las probabilidades. Fue algo como esto:

Imagen

Primero sacamos un promedio de las bases en cada posición, para el alineamiento mostrado sería P(S)=2/16, P(G)= 2/16... En nuestro modelo obviamos los gaps (simbolizados por un guion) pero pues también se podrían incluir: P(gap)= 12/16. Eso sería para posición 1... y así para todas las posiciones sacando la probabilidad de cada aminoácido.

Con solo el promedio no podríamos montar un algoritmo correcto, porque no estaríamos teniendo en cuenta las cadenas de Márkov, que para este caso, como conocemos unas posiciones que se conservan (mírese las C, que son constantes para dichos péptidos), podremos dilucidar por Márkov cuál sería el aminoácido que debería ir antes (esto fundamentado con cuestiones de polaridad de aminoácidos, conformación de proteínas, etc, etc).

Para hallar dichas probabilidades de Márkov, usamos una formula matemática, muy aproximada, demasiado creo yo ¡je,je!... que era sacar el promedio, luego a todos los valores sumarles un valor arbitrario (para evitar que existan ceros) pues luego al valor promedio le sacábamos el logaritmo. En esencia, llenamos nuestra matriz de probabilidades con valores de este calculo. En resumen fue algo así... :lol:

Nuestro trabajo era solo mostrar un prototipo, una aproximación, de ahí que no desarrollamos más lo del modelo Márkov (que, honestamente, para mi es algo complejo).

Siguiendo tu idea pues, el programa debería entonces leer las posiciones de todas las secuencias del alineamiento, ejecutar la fórmula matemática y llenar la matriz que se usaría para los cálculos posteriores...

por **explorer** » 2012-01-27 22:17 @970

Una pregunta... ¿los espacios (gap) se pusieron a mayores? es decir, no estaban en las secuencias originales, ¿verdad?

por **oshaoran** » 2012-01-28 02:04 @128

Nop, los gaps los genera el programa de alineamiento; el archivo con las secuencias en FASTA no los tiene.

por **explorer** » 2012-01-28 19:43 @863

Todo el problema que has comentado en este hilo, parece extraído del libro "Genomic Perl: From Bioinformatics Basics to Working Code".

Quiero decir que en ese libro se comentan y publican los códigos para resolver este problema. Desde el alineamiento de múltiples secuencias usando variantes del algoritmo de Needleman-Wunsch, hasta la construcción de las matrices PAM (Porcentaje de Mutación Aceptada).

Y todo en código Perl

Foro - Perl en Español

Modelos ocultos de Márkov

Modelos ocultos de Márkov

Publicidad

Re: Modelos ocultos de Márkov

Re: Modelos ocultos de Márkov

Re: Modelos ocultos de Márkov

Re: Modelos ocultos de Márkov

Re: Modelos ocultos de Márkov

Re: Modelos ocultos de Márkov

Re: Modelos ocultos de Márkov

Re: Modelos ocultos de Márkov

Re: Modelos ocultos de Márkov

¿Quién está conectado?