Foro - Perl en Español

por **abraham03** » 2018-05-31 17:43 @780

Hola, buenos días a todos.

Tengo un archivo delimitado por tabs, algo similar a esto:

Sintáxis: [ Descargar ] [ Ocultar ]

Using text Syntax Highlighting

data    S1  S2  S3  S4  S5  S6
data1   0   0   0   0   0   0
data2   0   5   3   5   0.1 0.9
data3   0   3   9   3   0   0.01
data4   0   0   4   4   0   0
data5   2   5   11  7   5   0.2
data6   0   0   0   8.  0   0
data7   0   1   5   2   06  0.04
Coloreado en 0.000 segundos,  usando GeSHi 1.0.8.4

En realidad es un poco más complicado, pero sirve para simplificar la pregunta.

Son datos de metagenómica, algo así:
D_0__Archaea;D_1__Euryarchaeota;D_2__Thermoplasmata;D_3__Thermoplasmatales;D_4__Marine Group II;D_5__uncultured archaeon 0 0 0 0 0 0 0 0 0.0035 0.00293 0.00834 0

de: D_0__ to D_5__ = primera columna
cada número representa de la columna 2 en adelante (ejemplo: S3=0)

Lo que quiero es extraer siempre la primera columna (data) con una de las columnas S, e imprimirla en un txt con el nombre de la columna S.

Suponiendo que quiero extraer la columna s3 y s6, sería algo así:

Sintáxis: [ Descargar ] [ Ocultar ]

Using text Syntax Highlighting

S3_file.txt: #nombre del archivo
 
   data1
   data2
   data3
   data4
  data5
   data6
   data7
 
y 
 
S6_file.txt:
 
   data1
9  data2
01 data3
   data4
2  data5
   data6
04 data7
Coloreado en 0.000 segundos,  usando GeSHi 1.0.8.4

El código que he hecho es el siguiente. Solo que no sé exactamente en qué parte poner un array que me extraiga siempre la primera columna y agregarle a su vez la columna deseada (que en el caso del ejemplo son la columna data y s3 = @array = data, s3), luego la siguiente ( @array = data, s6 ) y esos dos elementos usarlos en la sección del hash %row para extraerlo de dos en dos, y hacer el print OUTPUT "s3\tdata".

Sintáxis: [ Descargar ] [ Ocultar ]

Using perl Syntax Highlighting

#!/usr/bin/env perl
use strict;
use warnings;
use List::MoreUtils qw(uniq);
use Data::Dumper qw(Dumper);
use Getopt::Long;
use List::Util qw(sum);
 
 
my ($infile_taxon, $search_label, $output_file, $help, $help_desc, $options, $options_desc, $keep_file);
 
GetOptions (
    't=s'       =>\$infile_taxon,
    's=s'       =>\$search_label,
    'kf'        =>\$keep_file,
    'o=s'       =>\$output_file,
    'h'         =>\$help,
    'op'        =>\$options
);
 
#---------------------------Subrutin to clean the selected Taxon  --------------------
sub Taxon_Clean {
    my (@clean_result);
    foreach (@_){
        chomp;
        if ($_ =~ s/D_0__//g | s/;D_\d__/\t/g | s/;/\t/g){
            push @clean_result, $_;
        }
    }
 
    return @clean_result;
}
 
#------------------------------------------------------ Open Files-------------------
open INFILE_TAXONOMY, '<', "$infile_taxon" or die $!;
 
my (@taxon, @sample_names);
 
#------------------------------------------------------ Taxon -----------------------
my ( @header, @label_match, @not_match, @taxon_filter);
while (<INFILE_TAXONOMY>){
    chomp;
    if ($_=~ m/^$|Constructed from biom file/g)  {
        next;
    }
    elsif ($_=~ s/OTU ID/Taxon/g){
        chomp ( @header = split '\t', $_ );
 
#------------------------------------------------------ Search Label ----------------
        if ($search_label){
            my @label_wanted= split (/\,/, $search_label); 
            unshift @label_wanted, '#Taxon';
            @label_wanted = uniq (@label_wanted);
            foreach (@label_wanted){
                my $unit =$_;
                chomp $unit;
                if (my @match_wanted= grep (/$unit/, @header)){
                    push (@label_match, @match_wanted);
                }
                else {
                    push (@not_match, $unit);
                }
            }
 
        # creo que en esta sección es en donde debo hacer un loop foreach para anexar siempre la primera columna, con cada una de las deseadas 
 
        # aunque no sé exactamente cómo ligarlo con el %hash
 
 
#                                --------- Check Point ---------
 
            push (my @defined_elements, @label_match);
            shift @defined_elements;
 
            if (! @defined_elements){
                print "\n\tNON of the Search Samples \" $search_label \" "
                  . "Were Found in \" $infile_taxon \" File !!!\n\n";
                exit;
            }
 
            elsif (grep {defined($_)} @defined_elements){  
                if (grep {defined($_)} @not_match){
                    print "\n\tSamples No Found: @not_match\n\n";
                }
            }
        }
    }
    elsif ($_=~ m/^#/g){
        next;
    }
 
    elsif ($search_label) {  
        my %row;
        @row{@header} = split '\t'; 
        my @filter= join "\t", @row{@label_match}, "\n";
        push (@taxon_filter, @filter);
        #print Dumper (\%row);
    }
    else {
        push (@taxon, $_); 
    }
}
 
 
# La siguiente sección es para extraer todos los elementos buscados, pero hasta ahora ¡¡ el código imprime todos en un mismo archivo !! 
 
open OUTPUT, '>', "Taxonomic_results_file.txt", or die "can't create the output file";
 
foreach (@taxon_filter){
    chomp $_;
    my ($tax, @values) = split '\t', $_;
    my $unit_val = join("\t", map { $_ } @values);
    my $sum_elements = sum (@values);
    if ($sum_elements == 0){
        next;
    }
    else {
        push (my @tx, $tax);
        @tx = Taxon_Clean (@tx);
        print OUTPUT "$unit_val\t@tx\n";
    }
}
 
 
close INFILE_TAXONOMY;
close OUTPUT;
exit;
Coloreado en 0.007 segundos,  usando GeSHi 1.0.8.4

Muchas gracias.

#!/usr/bin/env perl
use v5.20;
use feature ':5.20';
use autodie;                            # No regresar con deshonor --Proverbio Kinglon
 
# Leemos el archivo de datos
# (aquí usaremos el espacio <DATA>, al final del programa)
 
my $cabecera = <DATA>;                  # leemos la primera línea donde está la cabecera
chomp $cabecera;
my @nombres_col = split " ", $cabecera;
 
my @tabla_data;
 
while (<DATA>) {                        # resto de líneas
    chomp;
 
    my(@campos) = split;                # suponemos que los espacios en blanco separan las columnas
    
    push @tabla_data, [ @campos ];      # las guardamos como filas en una matriz (array de arrays)
}
 
# Resultado
 
for my $i ( 1 .. $#nombres_col ) {      # recorremos los índices de las columnas
 
    my $nombre_col = $nombres_col[$i] . "_file.txt";
 
    say $nombre_col;
    #open my $FH, '>', $nombre_col;
 
    for my $j ( 0 .. $#tabla_data ) {   # recorremos los indices de las filas
 
        say "$tabla_data[$j][$i]\t$tabla_data[$j][0]";
    }
 
    #close $FH;
}
 
__DATA__
data    S1  S2  S3  S4  S5  S6
data1   0   0   0   0   0   0
data2   0   5   3   5   0.1 0.9
data3   0   3   9   3   0   0.01
data4   0   0   4   4   0   0
data5   2   5   11  7   5   0.2
data6   0   0   0   8.  0   0
data7   0   1   5   2   06  0.04
Coloreado en 0.001 segundos,  usando GeSHi 1.0.8.4

La salida es:

Sintáxis: [ Descargar ] [ Ocultar ]

Using text Syntax Highlighting

S1_file.txt

      data1

      data2

      data3

      data4

      data5

      data6

      data7

S2_file.txt

      data1

      data2

      data3

      data4

      data5

      data6

      data7

S3_file.txt

      data1

      data2

      data3

      data4

11      data5

      data6

      data7

S4_file.txt

      data1

      data2

      data3

      data4

      data5

      data6

      data7

S5_file.txt

      data1

1     data2

      data3

      data4

      data5

      data6

06      data7

S6_file.txt

      data1

9     data2

01    data3

      data4

2     data5

      data6

04    data7Coloreado en 0.000 segundos,  usando GeSHi 1.0.8.4

Como ves, no usa hashes, sino solo un array que almacena una matriz. Solo es cuestión de recorrer la matriz de forma adecuada.

Más información, en tu propio ordenador con el comando perldoc perllol, y en la Web (traducido al español).

El truco... es que recorro toda la matriz. Si solo necesitaras unas columnas específicas, entones... se podría poner control dentro del bucle para localizar qué columna me interesa extraer. O usar hashes, para guardar los valores por columnas.

Si lo quieres hacer con hashes, en que las claves sean los nombres de las columnas, podemos hacerlo de esta manera:

Sintáxis: [ Descargar ] [ Ocultar ]

Using perl Syntax Highlighting

#!/usr/bin/env perl
use v5.20;
use feature ':5.20';
use autodie;                            # No regresar con deshonor --Proverbio Kinglon
 
# Leemos el archivo de datos
# Aquí usamos el campo DATA
 
my $cabecera = <DATA>;                  # leemos la primera línea donde está la cabecera
chomp $cabecera;
my @nombres_col = split " ", $cabecera;
 
my %tabla_data;
 
my $col1 = $nombres_col[0];             # titular de la primera columna. Es la clave de la primera columna
 
while (<DATA>) {
    chomp;
 
    my(@campos) = split;                # suponemos que los espacios en blanco separan las columnas
   
    for my $col (@nombres_col) {        # recorremos las columnas
 
        push @{ $tabla_data{$col} }, shift @campos;     # guardamos cada campo en la columna indexada por nombre
    }
}
 
my $num_filas = @{ $tabla_data{$col1} };
 
# aspecto de la estructura creada
#use Data::Dumper;
#say Dumper \%tabla_data;
#exit;
 
# Resultado
 
# Archivos a sacar
my @archivos = qw( S3 S6 );
 
for my $archivo (@archivos) {
 
    my $nombre_archivo = "${archivo}_file.txt";
    say $nombre_archivo;
 
    for my $fila ( 0 .. $num_filas-1 ) {
 
        say "$tabla_data{$archivo}[$fila]\t$tabla_data{$col1}[$fila]";
    }
}
 
 
__DATA__
data    S1  S2  S3  S4  S5  S6
data1   0   0   0   0   0   0
data2   0   5   3   5   0.1 0.9
data3   0   3   9   3   0   0.01
data4   0   0   4   4   0   0
data5   2   5   11  7   5   0.2
data6   0   0   0   8.  0   0
data7   0   1   5   2   06  0.04
 
Coloreado en 0.002 segundos,  usando GeSHi 1.0.8.4

Salida:

Sintáxis: [ Descargar ] [ Ocultar ]

Using text Syntax Highlighting

S3_file.txt

      data1

      data2

      data3

      data4

11      data5

      data6

      data7

S6_file.txt

      data1

9     data2

01    data3

      data4

2     data5

      data6

04    data7Coloreado en 0.000 segundos,  usando GeSHi 1.0.8.4

por **abraham03** » 2018-06-01 17:04 @752

Hola, gracias por la respuesta.

El formato del archivo es como este (adjunto un archivo completo):

Sintáxis: (otu_table_L6.txt) [ Descargar ] [ Ocultar ]

Using text Syntax Highlighting

# Constructed from biom file
#OTU ID sample2 sample3 sample1 sample4
D_0__Archaea;D_1__Aenigmarchaeota;D_2__Deep Sea Euryarchaeotic Group(DSEG);Ambiguous_taxa;D_4__;D_5__   0.0     0.00014961101137        0.0     0.0
D_0__Archaea;D_1__Aenigmarchaeota;D_2__Deep Sea Euryarchaeotic Group(DSEG);D_3__uncultured archaeon;D_4__;D_5__ 0.0     0.0     0.0     0.000150738619234
D_0__Archaea;D_1__Aenigmarchaeota;D_2__Deep Sea Euryarchaeotic Group(DSEG);D_3__uncultured archaeon 'KTK 18A';D_4__;D_5__       0.0     0.00014961101137        0.0     0.0
D_0__Archaea;D_1__Aigarchaeota;D_2__Aigarchaeota Incertae Sedis;D_3__Unknown Order;D_4__Unknown Family;D_5__Candidatus Caldiarchaeum    0.000449977501125       0.00014961101137        0.000443262411348       0.0
D_0__Archaea;D_1__Aigarchaeota;D_2__Terrestrial Hot Spring Gp(THSCG);Ambiguous_taxa;D_4__;D_5__ 0.000149992500375       0.00014961101137        0.0     0.0
D_0__Archaea;D_1__Aigarchaeota;D_2__Terrestrial Hot Spring Gp(THSCG);D_3__uncultured archaeon;D_4__;D_5__       0.0     0.000299222022741       0.000886524822695       0.000452215857703
D_0__Archaea;D_1__Ancient Archaeal Group(AAG);D_2__uncultured archaeon;D_3__;D_4__;D_5__        0.0     0.00014961101137        0.0     0.0
D_0__Archaea;D_1__Bathyarchaeota;Ambiguous_taxa;D_3__;D_4__;D_5__       0.000749962501875       0.000897666068223       0.00103427895981        0.000904431715405
D_0__Archaea;D_1__Bathyarchaeota;D_2__uncultured archaeon;D_3__;D_4__;D_5__     0.000449977501125       0.000598444045482       0.00147754137116        0.00105517033464
D_0__Archaea;D_1__Bathyarchaeota;D_2__uncultured crenarchaeote;D_3__;D_4__;D_5__        0.0     0.0     0.000295508274232       0.000301477238468
D_0__Archaea;D_1__Candidate division YNPFFA;Ambiguous_taxa;D_3__;D_4__;D_5__    0.0     0.0     0.000147754137116       0.000150738619234
D_0__Archaea;D_1__Crenarchaeota;D_2__Thermoprotei;D_3__Acidilobales;Ambiguous_taxa;Ambiguous_taxa       0.0     0.0     0.000147754137116       0.000150738619234
D_0__Archaea;D_1__Crenarchaeota;D_2__Thermoprotei;D_3__Acidilobales;D_4__Caldisphaeraceae;D_5__Caldisphaera     0.0     0.0     0.000147754137116       0.000150738619234
Coloreado en 0.000 segundos,  usando GeSHi 1.0.8.4

Y suponiendo que partimos del archivo anexo quiero que la muestra sample1 generara algo así (¡¡todo los que contienen ceros son omitidos !!):

Sintáxis: [ Descargar ] [ Ocultar ]

Using text Syntax Highlighting

000443262411348       Archaea Aigarchaeota    Aigarchaeota Incertae Sedis     Unknown Order   Unknown Family  Candidatus Caldiarchaeum
000886524822695       Archaea Aigarchaeota    Terrestrial Hot Spring Gp(THSCG)        uncultured archaeon             
00103427895981        Archaea Bathyarchaeota  Ambiguous_taxa                  
00147754137116        Archaea Bathyarchaeota  uncultured archaeon                     
000295508274232       Archaea Bathyarchaeota  uncultured crenarchaeote                        
000147754137116       Archaea Candidate division YNPFFA       Ambiguous_taxa                  
000147754137116       Archaea Crenarchaeota   Thermoprotei    Acidilobales
Coloreado en 0.000 segundos,  usando GeSHi 1.0.8.4

Si es una muestra no hay problema, pero si yo quisiera dos o más (para este caso fueron las 4), lo que obtengo hasta donde está escrito mi código es esto:

Sintáxis: [ Descargar ] [ Ocultar ]

Using text Syntax Highlighting

0     0.00014961101137        0.0     0.0     Archaea Aenigmarchaeota Deep Sea Euryarchaeotic Group(DSEG)     Ambiguous_taxa          
0     0.0     0.0     0.000150738619234       Archaea Aenigmarchaeota Deep Sea Euryarchaeotic Group(DSEG)     uncultured archaeon             
0     0.00014961101137        0.0     0.0     Archaea Aenigmarchaeota Deep Sea Euryarchaeotic Group(DSEG)     uncultured archaeon 'KTK 18A'           
000449977501125       0.00014961101137        0.000443262411348       0.0     Archaea Aigarchaeota    Aigarchaeota Incertae Sedis     Unknown Order   Unknown Family  Candidatus Caldiarchaeum
000149992500375       0.00014961101137        0.0     0.0     Archaea Aigarchaeota    Terrestrial Hot Spring Gp(THSCG)        Ambiguous_taxa          
0     0.000299222022741       0.000886524822695       0.000452215857703       Archaea Aigarchaeota    Terrestrial Hot Spring Gp(THSCG)        uncultured archaeon             
0     0.00014961101137        0.0     0.0     Archaea Ancient Archaeal Group(AAG)     uncultured archaeon                     
000749962501875       0.000897666068223       0.00103427895981        0.000904431715405       Archaea Bathyarchaeota  Ambiguous_taxa                  
000449977501125       0.000598444045482       0.00147754137116        0.00105517033464        Archaea Bathyarchaeota  uncultured archaeon
Coloreado en 0.000 segundos,  usando GeSHi 1.0.8.4

Sin embargo requiero que cada muestra (sample) salga su columna de valores más toda la clasificación de bacterias (Archaea Aigarchaeota Terrestrial Hot Spring, etc.) y se imprima en tu archivo txt, es decir en el archivo adjunto hay 4 muestras, si yo escojo solo 3 (sample1, sample3, sample4), obtendría 3 archivos txt (sample1.txt, sample3.txt, sample4.txt), todos tendrían sección de clasificación de bacterias (Archaea Aigarchaeota Terrestrial Hot Spring, etc.) pero ¡¡¡su correspondiente columna de valores para cada sample!!!

¡¡¡ Muchas gracias por todos los consejos !!!

Saludos

por **explorer** » 2018-06-09 11:19 @513

Esta es la solución más corta y cómodo que se me ocurre.

Se trata de guardar toda la información inicial en forma de tabla (un array de filas, que cada fila es otro array).
Además, las cabeceras de las columnas las usaremos para buscar luego qué columna sacar. Para esto usaremos un hash, que nos transformará la etiqueta al número de columna dentro de la tabla. Por ejemplo, si el usuario nos pide la columna "sample1", sabemos que se trata de la columna número 3.

Sintáxis: [ Descargar ] [ Ocultar ]

Using perl Syntax Highlighting

#!/usr/bin/env perl
use v5.20;
use feature ':5.20';
use strict;
use warnings;
 
use autodie;                            # No regresar con deshonor --Proverbio Kinglon
use Getopt::Long;
 
# Interpretar las opciones -----------------------------------------------------
my ($help, $infile_taxon, @search_label);
 
GetOptions (
    't=s'       => \$infile_taxon,
    's=s'       => \@search_label,      # admite varios valores
    'h'         => \$help,
);
 
if ($help or not $infile_taxon) {
    die "Uso: $0 [-h|-t <archivo taxon>|-s <etiqueta1> [-s <etiqueta2> ...]]\n";
}
 
# Leemos el archivo de datos ---------------------------------------------------
open my $INFILE_TAXONOMY, '<', $infile_taxon;
 
my %header;
my @tabla;
 
while (<$INFILE_TAXONOMY>) {
    chomp;
 
    if (/^#OTU ID\s+(.+)/) {            # detectada cabecera
        my @cols = split "\t", $1;
        my $i = 1;                      # creamos un mapa de nombre de columna a número de columna
        for (@cols) {
            $header{$_} = $i++;         # spam2 => 0, spam3 => 1, ...
        }
    }
 
    next if /^#/;                       # los comentarios no interesan
 
    my($data, @cols) = split "\t";
 
    $data =~ y/;/ /;                    # transformación de la primera columna
    $data =~ s/D_\d__//g;
    $data =~ s/ +$//;
 
    push @tabla, [ $data, @cols ];      # la estructura es un array de array
}
 
close $INFILE_TAXONOMY;
 
# Buscar etiqueta --------------------------------------------------------------
for my $column (@search_label) {
 
    if (not exists $header{$column}) {
        die "ERROR: la columna [$column] no existe en el archivo Taxon\n";
    }
 
    my $i = $header{$column};
 
    my $archivo = "$column.txt";
    open my $SALIDA, '>', $archivo;
    say "Salida hacia el archivo $archivo";
 
    for my $fila_ref (@tabla) {
        next if $fila_ref->[$i] == 0;
 
        # salida de la columa i-ésima y la primera columna
        say $SALIDA "$fila_ref->[$i]\t$fila_ref->[0]";
    }
 
    close $SALIDA;
}
Coloreado en 0.003 segundos,  usando GeSHi 1.0.8.4

Si lo ejecutamos con esta línea:

perl metagenomica.pl -t otu_table_L6.txt -s sample1 -s sample2

y obtenemos el resultado pedido (dos archivos, con las líneas que sean distintas de cero, de las columnas leídas antes).

Foro - Perl en Español

Extraer columnas de un hash

Extraer columnas de un hash

Publicidad

Re: Extraer columnas de un hash

Re: Extraer columnas de un hash

Re: Extraer columnas de un hash

¿Quién está conectado?