Foro - Perl en Español

por **pubafra** » 2016-06-24 09:49 @451

Hola, grupo. Solicito de su ayuda para resolver un problema. Espero explicar bien el problema para que puedan ayudar a la solución.

Resulta que tengo la siguiente lista de genes abreviados:

Sintáxis: [ Descargar ] [ Ocultar ]

Using text Syntax Highlighting

ACY1

RNA5S1

USP12-AS1

TRAJ23

ZFATColoreado en 0.000 segundos,  usando GeSHi 1.0.8.4

Y deseo buscar cada uno en el siguiente archivo de nombres:

Sintáxis: [ Descargar ] [ Ocultar ]

Using text Syntax Highlighting

Approved Symbol Approved Name

A2MP1   alpha-2-macroglobulin pseudogene 1

ACY1    aminoacylase 1

SLIT2   slit guidance ligand 2

RN7SL843P       RNA, 7SL, cytoplasmic 843, pseudogene

SP9YP24 ubiquitin specific peptidase 9, Y-linked pseudogene 24

USP12-AS1       USP12 antisense RNA 1

ZFAT    zinc finger and AT-hook domain containing

ZIC5    Zic family member 5Coloreado en 0.000 segundos,  usando GeSHi 1.0.8.4

El resultado que necesito es el siguiente:

Sintáxis: [ Descargar ] [ Ocultar ]

Using text Syntax Highlighting

ACY1    aminoacylase 1

RNA5S1  -

USP12-AS1       USP12 antisense RNA 1

TRAJ23  -

ZFAT    zinc finger and AT-hook domain containingColoreado en 0.000 segundos,  usando GeSHi 1.0.8.4

Como se observa, RNA5S1 y TRAJ23 no se encuentran en el archivo de nombres por lo cual su resultado es "-".

Presento el script que escribí:

Sintáxis: [ Descargar ] [ Ocultar ]

Using perl Syntax Highlighting

use warnings;
 
open (ABREFILE, "Abrevlist.txt"); #Abre la lista de abreviaturas
while (<ABREFILE>){     #Lee cada línea
        chomp;
        $abrev = $_;
        ind_sec();      #Envia la primer línea (abreviatura) a la subrutina
        }
 
sub ind_sec{
open (NOMBREFILE2, "NombreFile.txt");   #Abre el archivo con nombres
        while ($line = <NOMBREFILE2>){
                        if ($line =~ m/^$abrev\s/g){    #Buscar la abreviatura en la cada línea del archivo con nombres
                                print "$line";  #si la sentencia se cumple imprime la línea
                        }                                       #
                        else{   #si la abreviatura no se encuentra 
                                print "\t-"; # quiero que imprima la abreviatura con - por delante
                        }
                
        }
}
close(ABREFILE);
close(NOMBREFILE2);
Coloreado en 0.002 segundos,  usando GeSHi 1.0.8.4

El resultado que consigo es el siguiente:

Sintáxis: [ Descargar ] [ Ocultar ]

Using text Syntax Highlighting

ACY1    aminoacylase 1

USP12-AS1       USP12 antisense RNA 1

ZFAT    zinc finger and AT-hook domain containingColoreado en 0.000 segundos,  usando GeSHi 1.0.8.4

el cual no incluye RNA5S1 y TRAJ23. Además el problema se complica cuando la lista de abreviaturas es más grande al igual que el archivo de nombres.

Mi principal dolor de cabeza es en la sentencia else{} porque me da respuesta para cada una de las líneas del archivo de nombres y solo quiero que responda solo una vez para todas esas líneas con un simple "-".

Espero contar con su apoyo. Saludos.

El error está en que vuelves a leer todo el archivo de definiciones por cada abreviatura a procesar, o sea, lees NxM líneas, cuando, realmente, este problema solo es necesario procesar N+M líneas. En archivos pequeños no se nota, pero mucho cuando empiezan a crecer.

Entonces, lo que se suele hacer en estos casos, es leer en memoria uno de los archivos (normalmente a un hash) y luego recorrer todas las líneas del segundo, grabando al mismo tiempo el resultado.

En este caso, es claro que tenemos que leer el archivo de definiciones, y luego vamos procesando por cada línea de el de las abreviaturas.

Sintáxis: [ Descargar ] [ Ocultar ]

Using perl Syntax Highlighting

#!/usr/bin/env perl
use v5.20;
use utf8;
use autodie;
 
# leemos el archivo de definiciones de abreviaturas
my %definiciones;
open my $DEFINICIONES, '<', 'NombreFile.txt';
while (my $def = <$DEFINICIONES>) {
    chomp $def;
 
    my($abreviatura, $definición) = split " ", $def, 2;                # suponemos que son dos columnas separadas por espacios
 
    $definiciones{$abreviatura} = $definición;                 # guardamos la $definición de la $abreviatura, en %definiciones
}
close $DEFINICIONES;
 
#use Data::Dumper;
#say Dumper \%definiciones;
 
# Procesamos todas las líneas de abreviaturas
open my $ABREVIATURAS, '<', 'Abrevlist.txt';
while (my $abbr = <$ABREVIATURAS>) {
    chomp $abbr;
    print "$abbr\t";
    if (exists $definiciones{$abbr}) {
        print $definiciones{$abbr};
    }
    else {
        print '-';
    }
    print "\n";
}
close $ABREVIATURAS;
Coloreado en 0.002 segundos,  usando GeSHi 1.0.8.4

Este problema, el de buscar una información de un archivo en las líneas de otro, es un tema frecuente. Bueno, quiero decir que se ha tratado varias veces. Por ejemplo, Extracción de líneas coincidentes.

Foro - Perl en Español

Ayuda buscar en y lista de resultado

Ayuda buscar en y lista de resultado

Publicidad

Re: Ayuda buscar en y lista de resultado

¿Quién está conectado?