Foro - Perl en Español

por **ptahotep** » 2013-08-19 11:15 @510

Hola, tengo un problema, quizás muy básico, pero que no consigo resolver. Y estaba pensando que seguro que existe algún módulo para resolverlo fácilmente.

El problema es el siguiente. Tengo varias líneas con elementos separados por tabuladores:

Sintáxis: [ Descargar ] [ Ocultar ]

Using text Syntax Highlighting

X       Y       Z       W

X1      Y1      Z1      W1

X2              Z2      W2

X3      Y2      Z3

X2              Z4      W2

X2              Z4      W3Coloreado en 0.000 segundos,  usando GeSHi 1.0.8.4

Los ficheros tienen varios megas, pero tienen el formato que muestro en el ejemplo. A veces no se repiten elementos, pero otras veces se repite el mismo elemento de una columna, como ocurre en las últimas filas. Cuando ocurre esto, quisiera agrupar líneas, de la siguiente forma (todo queda igual, excepto que las últimas líneas son unidas a la segunda):

Sintáxis: [ Descargar ] [ Ocultar ]

Using text Syntax Highlighting

X       Y       Z       W

X1      Y1      Z1      W1

X2              Z4,Z2   W3,W2

X3      Y2      Z3Coloreado en 0.000 segundos,  usando GeSHi 1.0.8.4

¿Cómo lo veis? ¿Existe alguna forma fácil de hacerlo sin romperse la cabeza durante horas? Gracias.

#!/usr/bin/perl
use v5.14;
use autodie;
 
my %datos;
 
open my $IN, '<', 'code_35386.txt';
 
my $cabecera = <$IN>;                                   # leemos la cabecera para
my $numero_campos = 1 + ($cabecera =~ tr/\t/\t/);       # saber el número de columnas
#say $numero_campos;
 
#$" = "|";
while (<$IN>) {                                         # leemos el resto de líneas
 
    chomp;
 
    my @campos = split /\t/;
 
#    say "@campos";
 
    for (my $i = 1; $i < $numero_campos; $i++) {     # para todas las columnas posibles
 
        if (not defined $campos[$i]) {               # para el caso de columnas al final de la línea
             $campos[$i] = '';                       # si no están definidas, las ponemos como cadenas vacías
         }
 
        $datos{ $campos[0] }[$i]{$campos[$i]} = 1;   # guardamos la información
    }
}
 
close $IN;
 
#use Data::Dumper;
#say Dumper \%datos;
 
print $cabecera;                                        # salida: sacamos la cabecera original
 
for my $key (sort keys %datos) {                                # para todas las claves encontradas
 
    my @fila = $key;                                            # vamos a construir la nueva línea
 
    for (my $i = 1; $i < $numero_campos; $i++) {                # para todas las columnas posibles
 
        push @fila, join(',', keys %{$datos{$key}[$i]});        # sacamos todos los valores unidos por ','
    }
 
    say join "\t", @fila;                                       # sacamos toda la fila, uniendo las columnas con "\t"
}
Coloreado en 0.003 segundos,  usando GeSHi 1.0.8.4

La estructura tridimensional tiene, en su primera dimensión, el valor de la primera columna, que suponemos que debe ser único (agrupar filas). La segunda dimensión es un índice que recorre el resto de columnas. Y la tercera dimensión es un hash, que recuerda qué valores han salido (según el valor de la primera columna y de la columna en que nos encontremos).

El uso de un array para las columnas nos facilita recorrerlas de forma consecutiva. Y el uso de un hash nos sirve tanto para recordar lo que ha salido, como para simplificar los datos repetidos.

El bucle de la 39 a la 49 puede reducirse a esto, aumentando un poco más la velocidad:

Sintáxis: [ Descargar ] [ Ocultar ]

Using perl Syntax Highlighting

for my $key (sort keys %datos) {                                # para todas las claves encontradas
 
    # sacamos toda la fila, uniendo las columnas con "\t", y cada columna tiene sus valores unidos con ','
    say join "\t", $key, map { join(',', keys %{$datos{$key}[$_]}) } 1 .. $numero_campos-1;
}
Coloreado en 0.001 segundos,  usando GeSHi 1.0.8.4

por **ptahotep** » 2013-08-19 12:47 @574

Muchas gracias, lo probaré a ver qué tal. Lo veo bien, salvo que en la primera columna también suelen repetirse elementos.

por **explorer** » 2013-08-20 09:59 @458

Se supone que el objetivo era ese: agrupar líneas según el valor de la primera columna.

Foro - Perl en Español

Agrupar elementos procedentes de diferentes líneas

Agrupar elementos procedentes de diferentes líneas

Publicidad

Re: Agrupar elementos procedentes de diferentes líneas

Re: Agrupar elementos procedentes de diferentes líneas

Re: Agrupar elementos procedentes de diferentes líneas

¿Quién está conectado?