Foro - Perl en Español

por **Alfumao** » 2016-03-16 04:05 @211

Buenos días.

Aquí sigo con tablas y problemas derivados. Necesito "filtrar" una tabla (texto separado por tabuladores) con miles de filas y decenas de columnas en la que todos los valores de la columna 1 pueden aparecer repetidos en varias filas, y la intención es eliminar esas filas donde se produzca la repetición.

Había pensado en una estructura tipo Hash of Arrays, en la que si la primera columna actúa como referencia para el filtrado. Así, el valor de la primera columna se va introduciendo como clave y luego se busca en los arrays (valores del hash) de las siguientes líneas, y si se encuentra, se elimina esa línea.

Ejemplo reducido de tabla:

Sintáxis: [ Descargar ] [ Ocultar ]

Using text Syntax Highlighting

A_clavatus_280  A_clavatus_280  A_flavus_132    None    None    T_verrucosum_99

A_flavus_413    A_clavatus_280  A_flavus_413    None    None    T_verrucosum_99

C_dubliniensis_121      None    None    C_dubliniensis_121      S_schenckii_304 None

C_dubliniensis_11       None    None    C_dubliniensis_121      S_schenckii_304 None

S_schenckii_70  A_clavatus_20   A_flavus_132    None    S_schenckii_70  T_verrucosum_110

T_verrucosum_14 A_clavatus_251  A_flavus_108    None    S_schenckii_228 T_verrucosum_14

C_dubliniensis_111      None    None    C_dubliniensis_121      None    None
Coloreado en 0.000 segundos,  usando GeSHi 1.0.8.4

No puedo poner un código de muestra, porque como todos me funcionan tan rematadamente mal, prefiero no interferir con un programa que no sirve...

#!/usr/bin/perl
use strict;
use warnings;
use diagnostics;
use Getopt::Long;
use Data::Dumper;
 
#usage:perl TableHoA.pl -p /path_to_table/
 
 
my ($path);
GetOptions(
          'path=s'           => \$path,
        );
 
chdir $path or die "ERROR: Unable to enter $path: $!\n";
opendir (TEMP , ".") || die "ERROR: Unable to open dir: $!\n";
my @nombres = readdir (TEMP);
closedir TEMP;
my %HoA=();
my@TM=();#array para almacenar los datos obtenidos
open  OUT,'>'."tabla_filtrada.tsv" or die "ERROR: $!\n";#archivo para imprimir los datos obtenidos
 
 
#Lees cada línea.
for $_ (@nombres) {
 
       if (/(\w+\.tab)$/){# salta si no es una extensión que buscamos
              $target=$1;
              print"Table:$target\n";
              
              open (INFILE, "$target") || die ("can´t open input file");
              chomp(my @data = <INFILE>);
              
              #Repetir para todas las filas.
              for my $line(@data){
                #Extraes la primera columna.
                my($columna1,@resto)== split(/\t/, $_);
                $HoA{$columna1}=@resto;
                #push(@{$HoA{$key}},$col1 );
                #Si ya existe $hash{$columna1}, entonces es que ya viste esa fila, así que saltas a leer la siguiente.
                if (exists $HoA{$columna1}){
                    next;
                #Si no existe, guardas la fila (en un archivo, en un array), y pones $hash{$columna1} = 1;    
                }else{
                    
                    $HoA{$columna1} = 1;
                    push @TM,"$line\n";
                    print OUT"$line\n";
                }
            }
        }
    }       
Coloreado en 0.003 segundos,  usando GeSHi 1.0.8.4

Ya me dirás si lo he hecho muy mal... Y qué me sugieres.

por **explorer** » 2016-03-16 18:00 @792

Humm... interesante...

Yo lo que haría sería ir agregando las claves de las primeras columnas a una exp. reg., para hacerla coincidir con la siguiente línea. Si hay coincidencia, pues saltamos a la siguiente, y si no, agregamos la primera columna, y repetimos.

A ver si mañana tengo un rato...

por **Alfumao** » 2016-03-17 03:17 @179

¿Te refieres a algo como esto?
(Pongo unicamente el fragmento referido a mi interpretacion de tu propuesta en forma de subrutina que es como lo pretendo utilizar).

Sintáxis: [ Descargar ] [ Ocultar ]

Using perl Syntax Highlighting

sub hoa_table{
       
    my($target,$HoA)=@_;#paso el hash como referencia a la subrutina-> &hoa_table($target,\%HoA);
 
    print"HoA file $target\n";
    my($name,$exte)= split(/\./, $target);
 
    open  SALIDA,'>'."$name.tsv" or die "ERROR: $!\n";
 
    my@arrkeys= keys %HoA;#creo array con las claves del hash ¿esta bien de-referenciar el hash asi?
 
       foreach my $ak (@arrkeys){
            
            my@arrline=@{$HoA{$ak}};#extraigo el array relacionado con la clave
            my @sorted_arrline = sort @arrline;#lo ordeno (esto es por conveniencia personal)
            my $sorted_print=join "\t",@sorted_arrline;#genero un string para buscar en el
                        
             unless($sorted_print=~/$ak/){
                print SALIDA "$ak\t "; #imprimo la clave en el fichero de salida
                print SALIDA"$sorted_print\n";#si no aparece la clave,imprimo el array en el fichero de salida
                }
            }
}
Coloreado en 0.002 segundos,  usando GeSHi 1.0.8.4

por **explorer** » 2016-03-17 03:44 @197

Esta es una posible solución:

Sintáxis: [ Descargar ] [ Ocultar ]

Using perl Syntax Highlighting

#!/usr/bin/env perl
use autodie;
 
open my $ENTRADA, '<', 'code_39344.txt';
open my $SALIDA,  '>', 'salida.txt';
 
 
my $linea = <$ENTRADA>;                 # leemos la primera línea
my($columna1) = split " ", $linea, 2;
my $ya_vista = $columna1;
 
print $SALIDA $linea;                           # sacamos la primera línea
 
 
while (my $linea = <$ENTRADA>) {                # para el resto de líneas
 
    next if $linea =~ /$ya_vista/;              # saltamos a la siguiente si $ya_vista
 
    my($columna1) = split " ", $linea, 2;       # no, entonces sacamos la primera columna
 
    $ya_vista .= "|$columna1";                  # y la agregamos como opción al 
 
    print $SALIDA $linea;
}
 
close $ENTRADA;
close $SALIDA;
 
__END__
Coloreado en 0.002 segundos,  usando GeSHi 1.0.8.4

Dado el archivo indicado antes, la salida ahora es:

Sintáxis: [ Descargar ] [ Ocultar ]

Using text Syntax Highlighting

A_clavatus_280  A_clavatus_280  A_flavus_132    None    None    T_verrucosum_99

C_dubliniensis_121      None    None    C_dubliniensis_121      S_schenckii_304 None

S_schenckii_70  A_clavatus_20   A_flavus_132    None    S_schenckii_70  T_verrucosum_110

T_verrucosum_14 A_clavatus_251  A_flavus_108    None    S_schenckii_228 T_verrucosum_14Coloreado en 0.000 segundos,  usando GeSHi 1.0.8.4

por **Alfumao** » 2016-03-17 04:30 @229

Hola, explorer.

El programa que planteas funciona con el ejemplo, pero en este caso:

- Tenemos miles de filas que recorrer
- Cada "$ya_vista" se puede encontrar en cualquiera de ellas
- Necesitamos que los miles de identificadores presentes en la columna 1 se revisen secuencialmente para seleccionar solo las filas sin repeticiones de los valores de la columna 1
- Además la primera vez que aparece dicho identificador en la columna 1, hace que este no pueda volver a aparecer en las siguientes líneas inspeccionadas
- Esto me hace pensar que hay que almacenar las líneas seleccionadas en algún tipo de array que una vez hecho todo el rastreo, podamos imprimir, ya que si imprimimos una línea cada vez, no sé si íbamos a filtrar la tabla correctamente...

¿Qué opinas?

por **explorer** » 2016-03-18 04:18 @220

Alfumao escribiste:- Tenemos miles de filas que recorrer
- Cada "$ya_vista" se puede encontrar en cualquiera de ellas
- Necesitamos que los miles de identificadores presentes en la columna 1 se revisen secuencialmente para seleccionar solo las filas sin repeticiones de los valores de la columna 1
- Además la primera vez que aparece dicho identificador en la columna 1, hace que este no pueda volver a aparecer en las siguientes líneas inspeccionadas
- Esto me hace pensar que hay que almacenar las líneas seleccionadas en algún tipo de array que una vez hecho todo el rastreo, podamos imprimir, ya que si imprimimos una línea cada vez, no sé si íbamos a filtrar la tabla correctamente...

A ver... te explico mi solución, a ver si así se ajusta a lo que pedías.

Voy leyendo línea por línea, extrayendo la primera columna, y agregando ese campo al patrón $ya_vista.

Esto tiene el siguiente efecto (adecuando las respuesta a tus cuestiones):
- El archivo se lee una sola vez, así que no importa su tamaño
- Los identificadores se leen una vez y se buscan en cada nueva línea. Si esa línea contiene alguno de los identificadores leídos antes, se salta (pero puede ocurrir un error, leer más abajo)
- Si un identificador se vuelve a repetir en las siguientes líneas, se salta (porque está en el patrón $ya_vista)
- El patrón $ya_vista tiene esta forma: campo1x|campo1y|campo1z|...|campo1N, que es como un array, pero en forma de patrón de exp. reg.

Esto realiza el filtrado tal como lo queremos, PERO fallará en el siguiente caso:

Supongamos que la línea X contiene un campo -distinto del primero- llamado 'campoXY'.

Si... más adelante... leemos la línea Y, y resulta que su primer campo es justamente 'campoXY', la línea X leída antes no es filtrada (porque entonces no se sabía que existiera una línea Y).

Entonces... si la regla básica es que hay que filtrar todas las líneas para extraer aquellas que contengan cualquiera de los primeros campos de todas las líneas, no queda más remedio que hacer dos pasadas:

- En la primera pasada, nos hacemos con todos los campos1, y creamos el patrón
- En la segunda pasada, filtramos las líneas que coinciden con el patrón, EXCEPTO si el patrón coincide con el primer campo de la línea. Si la línea no coincide con todo esto, grabamos la línea en el archivo resultado

por **Alfumao** » 2016-03-21 09:39 @444

¡Gracias, explorer!

Consideraré cuidadosamente lo que has expuesto en tu última respuesta para plantear el programa.

Foro - Perl en Español

Eliminar datos redundantes de una tabla

Eliminar datos redundantes de una tabla

Publicidad

Re: Eliminar datos redundantes de una tabla

Re: Eliminar datos redundantes de una tabla

Re: Eliminar datos redundantes de una tabla

Re: Eliminar datos redundantes de una tabla

Re: Eliminar datos redundantes de una tabla

Re: Eliminar datos redundantes de una tabla

Re: Eliminar datos redundantes de una tabla

Re: Eliminar datos redundantes de una tabla

¿Quién está conectado?