Foro - Perl en Español

por **roxana_** » 2010-11-04 15:21 @681

Tengo un archivo con el siguiente formato:

Sintáxis: [ Descargar ] [ Ocultar ]

Using text Syntax Highlighting

Familia Nombre cobertura resolución

        bovin       0.8         1.2

        human       1           2.5

        ecoli       1           2

        ecoli       0.7         1.5

        mouse       1           3

        human       1           2.7Coloreado en 0.000 segundos,  usando GeSHi 1.0.8.4

Necesito, para cada Familia distinta (1, 2 y 5), la línea con mejor cobertura (número más próximo a 1) y como segundo criterio, mejor resolución (más próximo a cero). La salida deseada sería:

Sintáxis: [ Descargar ] [ Ocultar ]

Using text Syntax Highlighting

Familia  Nombre cobertura resolución 

         ecoli      1            2

         mouse      1            3

         human      1            2.7Coloreado en 0.000 segundos,  usando GeSHi 1.0.8.4

Mi problema es cómo hacer el recorrido, guardar siempre el mejor dato y luego cambiar de familia. ¿Alguna sugerencia?

Bienvenido a los foros de Perl en Español, roxana_.

Deberías explicar un poco lo que significa "más próximo", porque, si tenemos en cuenta a la recta de los reales, 1,1 está más próximo a 1, que 0,7. Deberías indicar el signo de la aproximación. O quizás tienes razón y "más próximo" se refiere a distancia, en cualquiera de los dos sentidos.

En ese caso, a mí me sale un resultado distinto:

Sintáxis: [ Descargar ] [ Ocultar ]

Using text Syntax Highlighting

Familia Nombre cobertura resolución

      bovin   0.8     1.2

      ecoli   0.7     1.5

      human   1       2.7Coloreado en 0.000 segundos,  usando GeSHi 1.0.8.4

por **roxana_** » 2010-11-04 15:51 @702

Por más próximo me refiero al valor más cercano a 1, sería más próximo 1.1 que 0.7, de todas maneras el valor máximo de cobertura es 1.
Aprovecho para aclarar que las Familias están ordenadas, así no volverá a aparecer la familia 1 luego de la 5.
Saludos

por **explorer** » 2010-11-04 16:06 @712

Pero... aquí veo un problema...

Al leer la segunda línea, como es de la familia "1", debo compararla con la primera fila. Resulta que en la cobertura, el valor de la segunda es exactamente 1, PERO su resolución es peor (2,5 está más alejado del 0 que el 1,2 de la primera fila).

Hay que indicar si los criterios se deben aplicar a la vez, o en cascada (aplicar el criterio de resolución en caso de que coincida el valor de cobertura).

por **roxana_** » 2010-11-04 16:13 @717

En cascada, es más importante la cobertura, en caso de que sea igual y como segundo criterio de selección comparar la resolución.

por **explorer** » 2010-11-04 18:15 @802

Bueno, pues este programa resuelve el tema pedido.

Sintáxis: [ Descargar ] [ Ocultar ]

Using perl Syntax Highlighting

#!/usr/bin/perl
use 5.010;
use strict;
use warnings;
use diagnostics;
 
my $cabecera;   # guarda la línea de cabecera
my %familias;   # guarda los registros más probables
 
while (<DATA>) {
    #print;
    chomp;
 
    if ($. == 1) {              # si es el primer registro, se trata de la cabecera
        $cabecera = $_;         # la guardamos
        next;                   # y saltamos a la siguiente línea
    }
 
    # leemos los campos de la línea
    #   0         1        2           3
    my ($familia, $nombre, $cobertura, $resolucion) = split;
 
    # si no existe registro anterior
    #   guardarlo
    #   siguiente línea
    if (!$familias{$familia}) {
        $familias{$familia} = [ $familia, $nombre, $cobertura, $resolucion ];
        next;
    }
 
    # leemos el registro anterior
    my ($cobertura_anterior, $resolucion_anterior) = @{$familias{$familia}}[2,3];
 
    #print "Comparando cobertura $cobertura_anterior : $cobertura\n";
 
    # si la cobertura es distinta de la anterior
    #   si la cobertura es más cercana a 1
    #           guardar registro
    if ($cobertura != $cobertura_anterior) {
        if (abs($cobertura - 1) < abs($cobertura_anterior - 1)) {
            $familias{$familia} = [ $familia, $nombre, $cobertura, $resolucion ];
        }
    }
    
    # si las coberturas son iguales
    #   si la resolución es más cercana a 0
    #           guardar registro
    else {
        #print "Comparando resolucion $resolucion_anterior : $resolucion\n";
        if (abs($resolucion - 0) < abs($resolucion_anterior - 0)) {
            $familias{$familia} = [ $familia, $nombre, $cobertura, $resolucion ];
        }
    }
}
 
# Impresión
say $cabecera;
 
for my $familia (sort {$a <=> $b} keys %familias) {
    say join qq[\t], @{$familias{$familia}};
}
 
__DATA__
Familia Nombre cobertura resolución
1         bovin       0.8         1.2
1         human       1           2.5
1         ecoli       1           2
2         ecoli       0.7         1.5
2         mouse       1           3
5         human       1           2.7
Coloreado en 0.004 segundos,  usando GeSHi 1.0.8.4

Y esta es otra versión, más reducida:

Sintáxis: [ Descargar ] [ Ocultar ]

Using perl Syntax Highlighting

#!/usr/bin/perl 
use 5.010;      
use strict;     
use warnings;   
use diagnostics;
 
my $cabecera;                                   # guarda la línea de cabecera
my %familias;                                   # guarda los registros más probables
my ($cobertura_anterior, $resolucion_anterior); # datos del registro record de cada familia
 
$cabecera = <DATA>;
 
while (<DATA>) {
    chomp;
 
    my ($familia, $nombre, $cobertura, $resolucion) = split;
 
    if (exists $familias{$familia}) {
        ($cobertura_anterior, $resolucion_anterior) = @{$familias{$familia}}[2,3];
    }   
 
    if (
        ! exists($familias{$familia})
    or
        ($cobertura != $cobertura_anterior   and   abs($cobertura - 1) < abs($cobertura_anterior - 1))
    or
        ($cobertura == $cobertura_anterior   and   abs($resolucion   ) < abs($resolucion_anterior   ))
    )
    {
        $familias{$familia} = [ $familia, $nombre, $cobertura, $resolucion ];
    }
}
 
# Impresión
print $cabecera;
 
for my $familia (sort {$a <=> $b} keys %familias) {
    say join qq[\t], @{$familias{$familia}};
}
 
__DATA__
Familia Nombre cobertura resolución  
1         bovin       0.8         1.2
1         human       1           2.5
1         ecoli       1           2  
2         ecoli       0.7         1.5
2         mouse       1           3  
5         human       1           2.7
Coloreado en 0.002 segundos,  usando GeSHi 1.0.8.4

El resultado es:

Sintáxis: [ Descargar ] [ Ocultar ]

Using text Syntax Highlighting

Familia Nombre cobertura resolución

      ecoli   1       2

      mouse   1       3

      human   1       2.7Coloreado en 0.000 segundos,  usando GeSHi 1.0.8.4

por **roxana_** » 2010-11-05 00:16 @053

Muchas gracias, me doy cuenta de lo mucho que me falta por aprender. Tengo una pregunta, ¿cómo puedo hacer para que los datos los tome directamente del archivo? Lo que sucede es que se trata de un archivo grande (más de 5000 líneas). Muchas gracias nuevamente.

por **explorer** » 2010-11-05 06:47 @324

Pues sencillo... solo tienes que abrir el fichero, leer línea a línea, y luego cerrarlo.

Del código anterior, solo tienes que cambiar las siguientes líneas:

Sintáxis: [ Descargar ] [ Ocultar ]

Using perl Syntax Highlighting

open my $fichero, q[<], 'fichero-a-procesar' or die "ERROR: $!\n";
while (<$fichero>) {
Coloreado en 0.001 segundos,  usando GeSHi 1.0.8.4

Sintáxis: [ Descargar ] [ Ocultar ]

Using perl Syntax Highlighting

close $fichero;
Coloreado en 0.001 segundos,  usando GeSHi 1.0.8.4

por **roxana_** » 2010-11-08 12:33 @564

Traté de probar el script pero tengo otro problema: mi versión de Perl es v5.8.8 en Ubuntu 8.04 (Hardy Heron). Hasta donde sé muchos usuarios de Ubuntu tenemos problemas para pasar de la versión de Perl 5.8.8 a la 5.0.10. ¿Se podría adaptar este script para mi versión de Perl?

por **explorer** » 2010-11-08 12:48 @575

¡Respondida!

Foro - Perl en Español

Recorrido comparando varias líneas entre sí

Recorrido comparando varias líneas entre sí

Publicidad

Re: Recorrido comparando varias líneas entre sí

Re: Recorrido comparando varias líneas entre sí

Re: Recorrido comparando varias líneas entre sí

Re: Recorrido comparando varias líneas entre sí

Re: Recorrido comparando varias líneas entre sí

Re: Recorrido comparando varias líneas entre sí

Re: Recorrido comparando varias líneas entre sí

Re: Recorrido comparando varias líneas entre sí

Re: Recorrido comparando varias líneas entre sí

¿Quién está conectado?