Foro - Perl en Español

por **3mgcantarero** » 2018-05-22 06:29 @312

Hola.

Estoy intentando crear un script que me permita sumar los valores de abundancia (emPAI) de proteínas que pertenecen a un mismo género bacteriano.

El archivo de partida es un texto separado por tabuladores, de forma que la primera columna es el accesion number de la proteína, la segunda el valor a sumar (emPAI), la tercera el valor normalizado (nemPAI), la cuarta el Género y la quinta la familia.

He empezado con un hash pero no sé realmente que estoy sumando... ¿Alguna ayuda? Adjunto lo que llevo de script y un trozo de archivo de ejemplo.

Muchas gracias.

Mónica

Dos cosillas...

Los números en la tabla vienen con coma (,), por lo que Perl no puede sumarlos, ya que Perl sigue (por defecto) la notación anglosajona de separar los decimales con punto (por cierto, en la última ortografía de la RAE (diciembre 2010) se aconseja usar esta notación).

Así que hay que hacer una breve transformación de comas a puntos.

Y la acumulación por género, pues para eso, acertadamente, usamos un hash, indexado por el género.

Lo que pasa es que no haces la acumulación mientras vas leyendo la tabla, cosa que sí puedes hacer como te pongo más abajo. Solo te faltaría hacer un bucle final -que sí tienes- para recorrer las claves y sacarlas al archivo resultado.

Esta es mi versión:

Sintáxis: [ Descargar ] [ Ocultar ]

Using perl Syntax Highlighting

#!/usr/bin/perl
use v5.14;                                              # activa modo estricto y say()
 
my $archivo = 'BASAL_11 Families.txt';
 
my %generos;                                            # aquí haremos las sumas, por género
 
open my $IN,  '<', $archivo        or  die "No puedo leer [$archivo]: $!\n";
 
while (<$IN>) {
    chomp;
 
    my($protein, $emPAI, $nemPAI, $genus, $family) = split /\t/;
 
    next if not $emPAI or $emPAI !~ /^[0-9.,]+$/;       # saltamos a la siguiente línea si no tenemos un número
 
    $emPAI =~ s/[,]/./;                                 # lo pasamos a notación de punto decimal
    $emPAI += 0;                                        # nos aseguramos que es un número
 
    $generos{ $genus } += $emPAI;                       # acumulamos $emPAI segun el $genus al que pertenece
}
 
close $IN;
 
#use Data::Dumper;
#say Dumper \%generos;
 
open my $OUT, '>', 'Resultado.txt' or  die "No puedo escribir [Resultado.txt]: $!\n";
 
for my $genus (sort keys %generos) {
    say $OUT "$genus $generos{$genus}";
}
 
close $OUT;
Coloreado en 0.003 segundos,  usando GeSHi 1.0.8.4

Esta es la salida que obtengo:

Sintáxis: [ Descargar ] [ Ocultar ]

Using text Syntax Highlighting

Achromobacter 0.63

Acidaminococcus 1.27

Actinobacillus 0.21

Actinomyces 0.08

Aeromonas 0.14

Aggregatibacter 0.08

Akkermansia 0.23

Alistipes 4.03

Anaerococcus 0.32

Anaerofustis 2.17Coloreado en 0.000 segundos,  usando GeSHi 1.0.8.4

Foro - Perl en Español

Sumar los valores de abundancia de proteínas

Sumar los valores de abundancia de proteínas

Publicidad

Re: Sumar los valores de abundancia de proteínas

¿Quién está conectado?