Foro - Perl en Español

por **Guelu** » 2015-08-10 03:58 @207

Buenos días a todos.

El problema que tengo es que estoy usando una expresión del tipo:

Sintáxis: [ Descargar ] [ Ocultar ]

my @array=split $patron, $secuencia;

Según tengo entendido, mediante esta línea voy metiendo en el array los diferentes elementos resultantes de cortar $secuencia en función de $patron.

Cuando el patrón es, por ejemplo: 'BB' y la secuencia es 'BBBBBB' se produce un error y no se reconoce bien.
Si cojo como patrón 'BI' entonces sí funciona bien: corta 'BI-BBBB' y cuenta la primera letra del fragmento 'BBBB'.

¿Alguien sabe cómo solucionarlo o por qué ocurre?

Os pego el código completo. La secuencia está en un archivo txt que es llamado y es 'BIBBBB'. Si el patrón es 'BB', ¡no cuenta bien!

Sintáxis: [ Descargar ] [ Ocultar ]

Using perl Syntax Highlighting

print "Introduzca el nombre del archivo que contiene la secuencia a analizar: ";
$secuencia = <STDIN>;
chomp $secuencia;
# abrir el archivo
unless(open(ARCHIVOSECUENCIA,$secuencia)){
        print "No podemos abrir ese archivo. Recuerde que debe ser del tipo *.txt!! \n\n";
        exit;
}
 
# leer el archivo con un array
@SECUENCIA = <ARCHIVOSECUENCIA>;
chomp @SECUENCIA;
close ARCHIVOSECUENCIA;
# pasar dicho array a single String para remove newline and white space
$SECUENCIA = join('',@SECUENCIA);
#$SECUENCIA =~s/\s//g;
# volver a pasar este Single String a Array donde cada caracter sea un elemente en el array
#@SECUENCIA= split('',$SECUENCIA);
 
#PASAMOS A DETERMINAR EL PATRÓN A BUSCAR
print "\n\n";
print "¿Qué patrón quieres buscar?";
my $patron=<STDIN>;
chomp $patron;
$patron=~s/\s//g; #removemos los espacio en blanco
 
#cortamos la secuencia por en cada punto donde existe el patrón buscado
print "imprimo el valor de patrón:", "$patron","\n\n";
print "ESTOS SON LOS FRAGMENTOS CORTADOS SEGÚN EL PATRON \n\n";
#------------------------------------------------
 
#--------------------------------------------------
 
my @conjunto=split $patron,$SECUENCIA; #metemos la secuencia del String en un array donde cada elemento es un corte según el patrón
shift(@conjunto); #eliminamos el primer trozo para que no interfiera en el cálculo
#unshift(@conjunto,$patron);
$numero_elementos=scalar(@conjunto);
 
# Crear CUATRO contadores para los diferentes estados que puede tener S,B,I,Error
 $S_count = 0;
 $B_count = 0;
 $I_count = 0;
 $error_count = 0;
 
 
foreach $elemento(@conjunto){    #bucle que recorre toda la secuencia contenida en el array @conjunto
        
        $elemento=$elemento.$patron; # al realizar el corte, la secuencia queda cortada y se elimina el patrón de corte. Con esta 
                                     # línea volvemos a pegar el patrón al final del fragmento cortado para que la secuencia sea fiel a la original
        
        if (length($elemento)<1) {   # Si al realizar el corte hay dos patrones consecutivos son eliminados y el fragmento queda vacío, en ese caso
                                     # decimos que ese fragmento vacío es el patrón
                $elemento=$patron
                
                };
        print $elemento;
        $primer_elemento=substr($elemento,0,1);
        print "   el primer elemento es: ", $primer_elemento, "\n";
        if ($primer_elemento eq 'S'){
                 ++$S_count;
         }elsif($primer_elemento eq 'B'){
                 ++$B_count;
         }elsif($primer_elemento eq 'I'){
                 ++$I_count;
 
         }else{
                 print "!!!!!!!Error - I don\'t recognize this base : $primer_elemento\n";
                 ++$error_count;}
                 }
        
 
print "\n\n";
 
print "LOS RESULTADOS SON LOS SIGUIENTES:\n";
 print"______________________________________\n\n";
 print "Sube = $S_count\n";
 print "Baja = $B_count\n";
 print "Igual = $I_count\n";
 
 print "\n\n";
 
print "SACAMOS LOS PORCENTAJES:\n";
 print"_____________________________\n\n";
 
$total=$S_count+$B_count+$I_count;
if ($total==0) {
        print "No se ha encontrado ninguna concordancia \n";
}else{
        $porcentaje_B=((100*$B_count)/$total);
        $porcentaje_S=((100*$S_count)/$total);
        $porcentaje_I=((100*$I_count)/$total);
        print " Porcentaje de B: ",$porcentaje_B, "%\n";
        print " Porcentaje de S: ",$porcentaje_S, "%\n";
        print " Porcentaje de I: ",$porcentaje_I, "%\n";
}
 
exit;
Coloreado en 0.004 segundos,  usando GeSHi 1.0.8.4

Es que... es un poco raro partir una secuencia usando un delimitador que forma parte de la propia secuencia.

Estaría bien que publicaras un ejemplo completo de qué es lo que quieres conseguir, es decir, según la entrada, cuál debe ser la salida.

Quizás la elección de split() para esta tarea no sea la correcta.

por **Guelu** » 2015-08-10 06:31 @313

explorer escribiste:Es que... es un poco raro partir una secuencia usando un delimitador que forma parte de la propia secuencia.

Estaría bien que publicaras un ejemplo completo de qué es lo que quieres conseguir, es decir, según la entrada, cuál debe ser la salida.

Quizás la elección de split() para esta tarea no sea la correcta.

¡Buenas!
Muchas gracias por contestar tan rápido.

Voy a intentar explicarme: Lo que pretendo hacer es que teniendo una secuencia, por ejemplo ABCDADCCDABCDA, buscar todos los patrones consecutivos que existan en esa secuencia. En nuestro caso: AB, BC, CD, DA, etc., y ver cuál es la siguiente letra en la sucesión que tiene más probabilidades de aparecer. Es decir, si AB en nuestra sucesión ejemplo aparece 2 veces y la siguiente letra es en las dos veces C, la probabilidad de que aparezca es 100 %.

Yo había pensado en cortar (split) la secuencia en base al patrón y estudiar la probabilidad con que aparece para cada patrón la siguiente letra. El problema es que cuando el patrón encuentra una región repetitiva en la secuencia no lo hace: Si la secuencia es ACBBBBBBBACBCDAD y busco el patrón BB el split() no cuenta bien las probabilidades...

No sé si ahora está un poco más claro.

¡Gracias!

por **explorer** » 2015-08-10 13:53 @620

El problema es que no sabemos qué hacer en esos casos... Si vemos 'BBBBB' y el patrón es 'BB', ¿qué se debe hacer? ¿El patrón aparece dos veces o cuatro? O dicho de otra manera: ¿la búsqueda del patrón debe ser justo después del último patrón encontrado o en la letra siguiente del patrón encontrado?

Ejemplo.
Con el siguiente programa:

Sintáxis: [ Descargar ] [ Ocultar ]

Using perl Syntax Highlighting

#!/usr/bin/env perl
use feature 'say';
 
my $seq = 'ABCDADCCDABCDAABBCDDDABABB';
 
my $patron = 'AB';
 
my %siguientes;
my $apariciones;
while ($seq =~ /$patron(.)/g) {
    $siguientes{$1}++;
    $apariciones++;
#    pos($seq) = pos($seq) - 2; # reposicionar la búsqueda justo detrás del patrón
}
 
#use Data::Dumper;
#say Dumper \%siguientes;
 
for my $siguiente (sort keys %siguientes) {
    my $veces = $siguientes{$siguiente};
    printf "%1s %3d %3.2f %%\n", $siguiente, $veces,  $veces / $apariciones * 100;
}
Coloreado en 0.001 segundos,  usando GeSHi 1.0.8.4

La salida es:

Sintáxis: [ Descargar ] [ Ocultar ]

Using text Syntax Highlighting

A   1 25.00 %

B   1 25.00 %

C   2 50.00 %Coloreado en 0.000 segundos,  usando GeSHi 1.0.8.4

Pero... si descomentamos la línea 13, la salida es otra:

Sintáxis: [ Descargar ] [ Ocultar ]

Using text Syntax Highlighting

A   1 20.00 %

B   2 40.00 %

C   2 40.00 %Coloreado en 0.000 segundos,  usando GeSHi 1.0.8.4

Es debido a que en la secuencia hay dos 'AB' seguidos, hacia el final.

Bueno, pues queda por saber qué hacer en esos casos.

Lo dicho: si pones un ejemplo completo (que incluya estos casos), y cuál debe ser la salida, pues será más fácil.

por **Guelu** » 2015-08-10 15:01 @668

¡Buenas noches, explorer! Gracias de nuevo por tu tiempo.

No puedo poner el ejemplo completo porque no lo tengo hecho... Lo tengo en la cabeza. Lo que sí puedo hacer es ponerte lo que debería salir para el caso de que la secuencia fuese BBBBBB y el patrón fuese BB.

En este caso se debería coger de dos en dos con desplazamiento de una unidad. A ver, me explico:

Sintáxis: [ Descargar ] [ Ocultar ]

Using text Syntax Highlighting

Posiciones: 123456

Secuencia   BBBBBBColoreado en 0.000 segundos,  usando GeSHi 1.0.8.4

Se debería cortar la secuencia tal como 12, 23, 34, 45, 56 y 6-.

Y ver una vez hecho ese corte cuál era el siguiente carácter. En este caso sería:

Sintáxis: [ Descargar ] [ Ocultar ]

Using text Syntax Highlighting

12 siguiente carácter B

23 siguiente carácter B

34 siguiente carácter B

45 siguiente carácter B

56 siguiente carácter B

6 nada

total  : 6

total B: 6

total C: 0

total A: 0

porcentaje de B: 100 %Coloreado en 0.000 segundos,  usando GeSHi 1.0.8.4

Espero que ahora haya quedado más fácil.

¡Gracias!

por **explorer** » 2015-08-10 18:59 @832

Bueno, creo que en el ejemplo propuesto, no se puede decir que 'B' aparezca cinco veces, porque en el análisis de 56, no existe una 'B' como "letra siguiente".

Con el siguiente programa, sale la salida propuesta:

Sintáxis: [ Descargar ] [ Ocultar ]

Using perl Syntax Highlighting

#!/usr/bin/env perl
use feature 'say';                                      # activamos 'say'
 
#my $seq = 'ABCDADCCDABCDAABBCDDDABABB';
my $seq = 'BBBBBB';
 
#my $patron = 'AB';
my $patron = 'BB';
 
my $l = length $patron;                                 # largo del patrón, en caracteres
 
my %siguientes;                                         # almacén de valores siguientes al patrón
my $apariciones;                                        # contador de apariciones
 
while ($seq =~ /$patron(.)/g) {                         # mientras sigamos encontrando al $patron, capturamos la letra que le sigue
    my $pos = pos($seq) - ($l + 1) + 1;                 # $pos guardará la posición donde estaba el $patron
                                                        # (+1, para informar al usuario en pantalla, basado en '1')
 
    $apariciones++;                                     # contamos una aparición más
    $siguientes{$1}++;                                  # recordamos qué letra es la siguiente, y contamos una aparición más de ella
                                                        # informamos
    say join('-', $pos, $pos + $l - 1), " siguiente carácter $1";
 
    pos($seq) = $pos + 1 - 1;                           # reiniciar la búsqueda justo detrás del primer carácter del patrón encontrado
                                                        # -1 porque Perl trabaja basado en '0'
}
 
#use Data::Dumper;
#say Dumper \%siguientes;
 
my $maximo_cnt = 0;                                     # récord de apariciones
my $maximo_ltr = '';                                    # qué letra tiene el récord
 
say "total  : $apariciones";
for my $siguiente (sort keys %siguientes) {             # para todas las letras siguientes encontradas, ordenadas alfabéticamente
    my $veces = $siguientes{$siguiente};                # $veces que aparece cada letra
    printf "total %1s:%2d\n", $siguiente, $veces;
 
    if ($maximo_cnt < $veces) {                         # ¿es un máximo local?
        $maximo_cnt = $veces;                           # sí, lo recordamos
        $maximo_ltr = $siguiente;
    }
}
printf "porcentaje de %1s: %5.2f %%\n", $maximo_ltr, $siguientes{$maximo_ltr} / $apariciones * 100;
Coloreado en 0.002 segundos,  usando GeSHi 1.0.8.4

La salida es:

Sintáxis: [ Descargar ] [ Ocultar ]

Using text Syntax Highlighting

1-2 siguiente carácter B

2-3 siguiente carácter B

3-4 siguiente carácter B

4-5 siguiente carácter B

total  : 4

total B: 4

porcentaje de B: 100.00 %Coloreado en 0.000 segundos,  usando GeSHi 1.0.8.4

El programa averigua qué letra es la que más aparece (no tiene en cuenta los empates), y de ella saca el porcentaje de aparición.

La forma de proceder es usando una expresión regular, que nos localizará todas las veces que aparezca el patrón, pero usando el truco de reposicionar el puntero de búsqueda con la función pos(), podemos hacer que la búsqueda sea exhaustiva (a partir del primer carácter del último patrón encontrado).

En el código hay unos cuántos '+1' y '-1', pero es debido a que en Perl el índice de los caracteres dentro de un texto comienza en '0', mientras que en tus ejemplos solicitas que se muestren basados en '1'.

por **Guelu** » 2015-08-11 02:49 @159

Muchas gracias, explorer.

Es justo lo que necesitaba pero estoy verde, verde, verde.
Tengo que estudiar más ya que hay algunas cosas de tu código que no logro entender.

por **explorer** » 2015-08-11 03:11 @174

He reeditado el mensaje y lo he comentado un poco más.

Si hay algo que no entiendes, dímelo.

por **Guelu** » 2015-08-11 04:25 @225

Nuevamente, muchísimas gracias, explorer. ¡¡El valor de este foro no tiene precio!!
Ahora todo está mucho más claro para mí.
¡Un abrazo!

por **explorer** » 2015-08-11 14:22 @640

Hola. Esta es otra opción, usando un patrón de expresión regular de los denominados "aserción posterior de tamaño cero".

Quizás sea algo más sencilla, ya que no es necesario el reposicionar el puntero del motor de exp. reg.

Sintáxis: [ Descargar ] [ Ocultar ]

Using perl Syntax Highlighting

#!/usr/bin/env perl
use feature 'say';
 
#          01234567890123456789012345
#my $seq = 'ABCDADCCDABCDAABBCDDDABABB';
my $seq = 'BBBBBB';
 
#my $patron = 'AB';
my $patron = 'BB';
 
my $l = length $patron;         # largo del patrón
 
my %siguientes;                 # almacén de valores siguientes al patrón
my $apariciones;                # contador de apariciones
 
while ($seq =~ /(?=$patron)/g) {                                        # mientras encontremos 'delante' el $patron
    my $pos = pos($seq);                                                # tenemos su posición de comienzo
    my $sig = substr $seq, $pos + $l, 1;                                # obtenemos la letra que le sigue
    last unless $sig;                                                   # si no hay letra, terminamos bucle
    $apariciones++;                                                     # si la hay, contamos una aparición más
    $siguientes{$sig}++;                                                # contamos una más por la letra encontrada
    say join('-', $pos+1, $pos+1 + $l - 1), " siguiente carácter $sig";
}
 
#use Data::Dumper;
#say Dumper \%siguientes;
 
my $maximo_cnt = 0;
my $maximo_ltr = '';
 
say "total  : $apariciones";
for my $siguiente (sort keys %siguientes) {
    my $veces = $siguientes{$siguiente};
    printf "total %1s:%2d\n", $siguiente, $veces;
    if ($maximo_cnt < $veces) {
        $maximo_cnt = $veces;
        $maximo_ltr = $siguiente;
    }
}
printf "porcentaje de %1s: %5.2f %%\n", $maximo_ltr, $siguientes{$maximo_ltr} / $apariciones * 100;
Coloreado en 0.002 segundos,  usando GeSHi 1.0.8.4

Foro - Perl en Español

Problema split con patrón repetitivo

Problema split con patrón repetitivo

Publicidad

Re: Problema Split con patrón repetitivo

Re: Problema split con patrón repetitivo

Re: Problema split con patrón repetitivo

Re: Problema split con patrón repetitivo

Re: Problema split con patrón repetitivo

Re: Problema split con patrón repetitivo

Re: Problema split con patrón repetitivo

Re: Problema split con patrón repetitivo

Re: Problema split con patrón repetitivo

¿Quién está conectado?