Foro - Perl en Español

por **K-lixto** » 2011-08-16 11:15 @510

Hola, he visto otros temas relacionados y los he revisado con detenimiento pero no logro usar estos antecedentes para resolver mi problema:

Tengo un archivo (tabulado) de varios gigabytes y otro no tan grande. Quiero comparar "string" que están en las columnas 2 de cada uno de ellos, y si es positivo, imprimir las columnas 1,2,3 del archivo primero y las columnas 1,2,3 del archivo segundo.

Dejo el código que tengo desarrollado para ver si me ayudan en su elaboración.
Gracias de antemano.

Sintáxis: [ Descargar ] [ Ocultar ]

Using perl Syntax Highlighting

#! /usr/bin/env perl 
use warnings;
use strict;
my %hash;
my @arr1;
my @arr;
my $uniprot;
my $arr;
my @allhit;
 
open( FH,     "<archivo1.txt" );
open( OUTPUT, ">Annot_cDNA_Uniprot_GOA.txt" );
while (<FH>) {
    my @arr = split( "\t", $_ );
    $hash{GOA} = $arr[1];
 
    #print $hash{GOA};
}
close(FH);
 
open( FH1, "<archivo2.txt" );
while (<FH1>) {
    my @arr = split( "\t", $_ );
    $uniprot = $arr[1];
    if ( exists( $hash{GOA} ) ) {
        push( @allhit, $arr[1], $arr[3], $arr[7] );
 
        #my $allhit = join("\t", $hash{GOA}[1], @arr);
        print OUTPUT @allhit;
    }
    else { next; }
}
close(FH1);
Coloreado en 0.003 segundos,  usando GeSHi 1.0.8.4

#!/usr/bin/perl
use 5.010;
use autodie;
 
my %archivo2;
my $n_lineas;
 
open my $ARCHIVO2, q[<], 'archivo2.txt';
 
while (<$ARCHIVO2>) {
    chomp;
    my @campos = split;                             # suponemos que los campos están separados por espacios
#    next if @campos < 3;                            # seguimos con la siguiente línea si hay menos de 3 campos
    $archivo2{$campos[1]} = [ @campos[ 0 .. 2 ] ];
    $n_lineas++;
}
 
close $ARCHIVO2;
 
say "Número de líneas leídas: $n_lineas. Número de claves leídas: ", scalar keys %archivo2;
Coloreado en 0.001 segundos,  usando GeSHi 1.0.8.4

Dices que tienes 2Gb de memoria RAM, pero no nos has dicho cuánto ocupa el fichero más pequeño, ni en qué sistema operativo estás.

por **K-lixto** » 2011-08-16 13:19 @596

El archivo más chico contiene 800 kb, el mayor 15 Gb, el cual intento poner dentro de un hash. Trabajo con MACosx.

El archivo de 800 kb es la salida de un blast, formato tabla. El segundo archivo es una tabla de una base de datos de clasificación de proteínas. Intento poder extraer los identificadores de la salida del blast que están en la base de datos (segundo archivo), agregando al archivo de salida algunas columnas del archivo primero (digamos columnas 1,2 y 3) y algunas columnas del segundo archivo (bases de datos).

por **explorer** » 2011-08-16 15:59 @708

No nos dices si has ejecutado mi programa o no, pero siendo 800Kb, yo creo que no habrá problemas. Tampoco sabemos si los campos número 2 pueden aparecer más de una vez en el fichero. Pero en fin, quizás se pueda resolver de forma inversa, es decir: leer el fichero blast en memoria, y luego ir leyendo la base de datos.

No lo he probado, pero debería ser algo así:

Sintáxis: [ Descargar ] [ Ocultar ]

Using perl Syntax Highlighting

#!/usr/bin/perl
use autodie;
     
my %blast;
my $n_lineas;
     
open my $BLAST, q[<], 'blast.txt';
while (<$BLAST>) {
    chomp;
    my @campos = split;                             # suponemos que los campos están separados por espacios
    #next if @campos < 3;                            # seguimos con la siguiente línea si hay menos de 3 campos
    push @{ $blast{$campos[1]} } , @campos[ 0, 1, 3 .. 5 ];
    $n_lineas++;
}
close $BLAST;
     
print "BLAST: Número de líneas leídas: $n_lineas. Número de claves leídas: ", scalar(keys %blast), "\n";
 
$n_lineas = 0;
open my $DB, q[<], 'base_datos.txt';
while (<$DB>) {
    chomp;
    my @campos = split;                             # suponemos que los campos están separados por espacios
    #next if @campos < 3;                            # seguimos con la siguiente línea si hay menos de 3 campos
 
    if (exists $blast{ $campos[1] } ) {             # ¿Tenemos información del blast en la base de datos?
        push @{$blast{ $campos[1] }}, @campos[ 2 .. 3 ];
        $n_lineas++;
    }
}
close $DB;
 
print "Encontradas $n_lineas líneas en la base de datos.\n";
 
open my $SALIDA, q[>], 'Annot_cDNA_Uniprot_GOA.txt';
for my $valor (values %blast) {
    print $SALIDA join("\t", @{$valor}), "\n";
}
close $SALIDA;
 
Coloreado en 0.002 segundos,  usando GeSHi 1.0.8.4

por **K-lixto** » 2011-08-16 17:48 @783

Gracias explorer y disculpa la demora. No pude correr el código para probar la capacidad de mi computador y es que no tengo la versión 10.5 de Perl, debería instalarla.

Estoy corriendo ahora el último código, con modificaciones por lo de la versión antigua que tengo, se demora en dar la salida.

Dejaré una línea tipo de la salida del blast:

Sintáxis: [ Descargar ] [ Ocultar ]

Using text Syntax Highlighting

118150550 A0JPF5 CA063227 gi|118150550 81.89   127     23      0Coloreado en 0.000 segundos,  usando GeSHi 1.0.8.4

y una línea tipo del archivo de la base de datos:

Sintáxis: [ Descargar ] [ Ocultar ]

Using text Syntax Highlighting

UniProtKB A0JPF5  moeD5  GO:0005524Coloreado en 0.000 segundos,  usando GeSHi 1.0.8.4

y mi necesidad es detectar si la segunda columna del primer archivo está en la segunda del segundo (en este caso coinciden con "A0JPF5") y luego generar una salida que incluya parte de ambos archivos, como por ejemplo:

Sintáxis: [ Descargar ] [ Ocultar ]

Using text Syntax Highlighting

118150550 A0JPF5 gi|118150550 81.89   127 moeD5  GO:0005524...Coloreado en 0.000 segundos,  usando GeSHi 1.0.8.4

por **explorer** » 2011-08-16 18:56 @830

Ya está modificado el programa para que funcione con versiones Perl de hace cinco años

Y también están ajustados los campos que quieres guardar.

Una forma de saber por dónde va es modificar la línea 28, para que nos pinte por qué línea va procesando, cada diez mil líneas, por ejemplo:

Sintáxis: [ Descargar ] [ Ocultar ]

Using perl Syntax Highlighting

        print "$n_lineas líneas...\n" if not $n_lineas++ % 10_000;
Coloreado en 0.001 segundos,  usando GeSHi 1.0.8.4

por **salva** » 2011-08-17 03:22 @182

K-lixto escribiste:Tengo un archivo (tabulado) de varios gigabytes y otro no tan grande. Quiero comparar "string" que están en las columnas 2 de cada uno de ellos, y si es positivo, imprimir las columnas 1,2,3 del archivo primero y las columnas 1,2,3 del archivo segundo.

Como te comenta explorer, si tienes memoria suficiente para leer el archivo pequeño en un hash, esa es la solución más fácil y rápida.

Si no, la solución clásica a este problema es ordenar los dos ficheros en disco por el campo clave (usando la utilidad sort o el módulo Sort::External, por ejemplo) para luego leer los dos ficheros ordenados en paralelo buscando coincidencias.

Foro - Perl en Español

Comparar columnas de dos archivos muy pesados

Comparar columnas de dos archivos muy pesados

Publicidad

Re: Comparar columnas de dos archivos muy pesados

Re: Comparar columnas de dos archivos muy pesados

Re: Comparar columnas de dos archivos muy pesados

Re: Comparar columnas de dos archivos muy pesados

Re: Comparar columnas de dos archivos muy pesados

Re: Comparar columnas de dos archivos muy pesados

Re: Comparar columnas de dos archivos muy pesados

Re: Comparar columnas de dos archivos muy pesados

¿Quién está conectado?