Foro - Perl en Español

por **gallinaclueca** » 2012-05-18 10:53 @495

No sé en qué consiste esto del '\s+' :S ¿cómo lo utilizo? Me refiero a que yo quiero que si el archivo tiene la secuencia de texto 'CTT TGA' me haga la condición del if(). ¿Cómo aplico la expresión '\s+' para hacer esto?

Dices que con un solo carácter espacio no te ha funcionado, así que con '\s+' esperamos detectar más de un carácter en blanco (tabuladores y retornos de carro incluidos).

Quizás sería más fácil si nos mandarás un adjunto con unas pocas líneas de cómo es la entrada que quieres procesar. Así veríamos si hay espacios en blanco u otra cosa.

P.D. ¿seguro que lo que buscas está en mayúsculas? A ver si va a ser eso...

por **gallinaclueca** » 2012-05-18 12:00 @541

Sigue sin funcionarme lo que me dices :S pero he conseguido resolverlo mediante concatenación.

He hecho esto:

Sintáxis: [ Descargar ] [ Ocultar ]

Using perl Syntax Highlighting

if ($linea2 =~ "GAC"." "."GAT") {
    print FH3 "Asp\n";
}
Coloreado en 0.001 segundos,  usando GeSHi 1.0.8.4

De este modo sí me imprime Asp en el archivo aminoácidos.

(Aquí te pongo Asp del mismo modo que antes te ponía tenemos Alanina).

El problema no era cuestión de mayúsculas, ¡je,je! Malo fuera que no me hubiese dado cuenta de eso siendo una secuencia de bases nitrogenadas.

Pues va a ser que no funciona lo que acabo de poner pues aunque ponga letras que sé que no aparecen sigue imprimiéndome el resultado :shock:

me estoy desesperando.

Te subo uno de los archivos de los que recogemos las bases para que lo veas a ver si el problema está ahí:

por **gallinaclueca** » 2012-05-18 12:26 @560

Me he dado cuenta de que poniendo entre paréntesis la condición if ($linea2 =~ (....)) solo nos reconoce un triplete (ej: reconoce CGA, pero no CGA ATT).

En cambio si no ponemos paréntesis, siempre nos imprime el resultado, se cumpla o no la condición (ej.: if ($linea2 =~ "CTA"." "."gato" Obviamente gato no está en el archivo pero aún así nos imprime el resultado) No entiendo nada :S

por **explorer** » 2012-05-18 13:07 @588

El problema es el siguiente: el archivo no tiene varias líneas, sino que solo tiene una línea.

Hay que hacer unos cambios...

Sintáxis: [ Descargar ] [ Ocultar ]

Using perl Syntax Highlighting

#!/usr/bin/env perl
# Detector de tripletes de aminoácidos
# Joaquín Ferrero, 20120518
use strict;
use warnings;
use diagnostics;
use autodie;                    # «Es mejor morir que regresar con deshonor» --proverbio Klingon
 
my %tripletes = (
    'CAG TTA' => 'Alanina',
    'CTT TGA' => 'Alanina',
    'GAC GAT' => 'Asp',
);
 
open my $SEQS, '<', 'result1.txt';
 
while (my $linea = readline $SEQS) {                    # para todas las líneas del archivo (si hubieran)
    chomp $linea;
 
    for my $triplete (keys %tripletes) {                # para todos los tripletes que buscamos
 
        my $pos = index $linea, $triplete;
 
        if ($pos != -1) {                               # ¿hay alguno?
 
            print "contiene $tripletes{$triplete} en posición $pos\n";
        }
    }
}
 
close $SEQS;
 
Coloreado en 0.001 segundos,  usando GeSHi 1.0.8.4

Con este programa, sale el siguiente resultado:

Sintáxis: [ Descargar ] [ Ocultar ]

Using text Syntax Highlighting

contiene Asp en posición 7072

contiene Alanina en posición 52Coloreado en 0.000 segundos,  usando GeSHi 1.0.8.4

Usamos un hash para relacionar los tripletes que buscamos con el nombre que queremos imprimir.
Leemos cada línea del archivo de entrada (aunque sabemos que solo hay una), y por cada triplete a buscar, lo hacemos con index(), que nos localiza rápidamente lo que queremos.

Y en cuanto a que te sale una cosa distinta cada vez que pruebas... pues porque Perl es muy liberal en cuanto a lo que admite como sintaxis correcta, pero no siempre lo que escribimos es lo que queremos que Perl haga. Hay que escribir siempre la sintaxis correcta. Y las expresiones regulares tienen sus reglas.

por **gallinaclueca** » 2012-05-20 15:18 @679

La verdad que no consigo entender bien el código que me has puesto. Está por encima del nivel que tengo en Perl que es bastante básico, la verdad. ¿No hay alguna forma más simple de reconocer porciones de texto?

por **explorer** » 2012-05-20 16:50 @743

Solo estaba utilizando un hash para almacenar los tripletes que iba a buscar.

La clave está en el index() de la línea 22. Lo he probado y funciona: sí que localiza los tripletes separados por un espacio. E incluso nos dice en qué posición está.

Usar index() es lo más básico para hacer búsquedas.

Prueba:

Sintáxis: [ Descargar ] [ Ocultar ]

Using perl Syntax Highlighting

open my $SEQS, '<', 'result1.txt';
my $sq=<$SEQS>;
close   $SEQS;
 
$pos = index($sq, 'GAC GAT');
 
if ($pos != -1) {
    print "Encontrada Asp en la secuencia, en posición $pos\n";
}
else {
    print "No se encontró Asp\n";
}
Coloreado en 0.001 segundos,  usando GeSHi 1.0.8.4

Más información sobre los hash en perldoc perldata (traducido)

por **gallinaclueca** » 2012-05-21 10:20 @472

Los hash si que los controlo medianamente bien, y la función index no la conocía pero es sencilla de entender, lo que no entiendo es para que sirve if ($pos != -1)

por **gallinaclueca** » 2012-05-21 10:44 @488

Los hash sí que los controlo medianamente bien, y la función index() no la conocía pero es sencilla de entender. Lo que no entiendo es para qué sirve if ($pos != -1).

Independientemente de que lo entienda o no, he probado con tu código de dos formas distintas, de una me funciona y de otra no, pero hay matices. ¡je,je!

Primera forma:

Sintáxis: [ Descargar ] [ Ocultar ]

Using perl Syntax Highlighting

$contador = 0;
while ( $contador < 20 ) {
    $contador += 1;
    $espermatozoide = "espermatozoide$contador.txt";
    open( FH, "$espermatozoide" ) or die "No se puede abrir";
    open( FH2, " > result$contador.txt" );
    while ( $linea = <FH> ) {
        $codon = substr( $linea, 0, 3 );
        push( @codones, $codon );
        print FH2 "@codones ";
    }
    @codones = ();
}
print "Hecho\n";
close(FH);
close(FH2);
$contador2 = 0;
while ( $contador2 < 20 ) {
    $contador2 += 1;
    $result = "result$contador.txt";
    open( FH2, "$result" ) or die "No se pudo abrir el archivo";
    open( FH3, " > aminoacidos$contador2.txt" );
 
    while ( $linea2 = <FH2> ) {
 
        $ala = index( $linea2, 'TGA GAA TAG TAA' );
        if ( $ala != -1 ) {
            print FH3 "Hay Alanina en la posición $ala\n";
        }
    }
}
 
Coloreado en 0.001 segundos,  usando GeSHi 1.0.8.4

De esta forma no me funciona, es decir, la secuencia 'TGA GAA', etc. está al menos en el archivo result1.txt (hay desde result1 a result20.txt) y no me imprime nada. Con mi siguiente intento creo haber localizado el problema pero solucionándolo creo otros dos.

Segunda forma:

Sintáxis: [ Descargar ] [ Ocultar ]

Using perl Syntax Highlighting

$contador = 0;
while ( $contador < 20 ) {
    $contador += 1;
    $espermatozoide = "espermatozoide$contador.txt";
    open( FH, "$espermatozoide" ) or die "No se puede abrir";
    open( FH2, " > result$contador.txt" );
    while ( $linea = <FH> ) {
        $codon = substr( $linea, 0, 3 );
        push( @codones, $codon );
        print FH2 "@codones ";
    }
    @codones = ();
}
print "Hecho\n";
close(FH);
close(FH2);
$contador2 = 0;
 
while ( $contador2 < 20 ) {
    $contador2 += 1;
    $result = "result1.txt";
    open( FH2, "$result" ) or die "No se pudo abrir el archivo";
    open( FH3, " > aminoacidos$contador2.txt" );
 
    while ( $linea2 = <FH2> ) {
 
        $ala = index( $linea2, 'TGA GAA TAG TAA' );
        if ( $ala != -1 ) {
            print FH3 "Hay Alanina en la posición $ala\n";
        }
    }
}
 
Coloreado en 0.002 segundos,  usando GeSHi 1.0.8.4

De este modo sí que me funciona. El problema es que me limito a un solo archivo result y no solo a los 20. El otro problema es que me lo imprime en todos los archivos aminoácido cuando debería hacerlo solo en el 1. ¿Cómo puedo solucionar esto?

por **explorer** » 2012-05-21 11:58 @540

El valor que devuelve index() es la posición en donde localiza la subcadena, desde el valor 0 hasta la última posición de la cadena. Si no lo encuentra, devuelve -1.

El problema que tienes en el segundo código es que $result siempre vale lo mismo (línea 21).

Y no estás buscando por 'TGA GAA', sino por 'TGA GAA TAG TAA' (los cuatro codones al mismo tiempo y en esas posiciones).

Foro - Perl en Español

Acumulación de texto

Re: Acumulación de texto

Publicidad

Re: Acumulación de texto

Re: Acumulación de texto

Re: Acumulación de texto

Re: Acumulación de texto

Re: Acumulación de texto

Re: Acumulación de texto

Re: Acumulación de texto

Re: Acumulación de texto

Re: Acumulación de texto

¿Quién está conectado?