Foro - Perl en Español

por **asegurac** » 2009-11-30 16:08 @714

Hola a todos,

Les escribo para lo siguiente: tengo que procesar una base de datos, para ello dispongo de un par de archivos.

El archivo 1 contiene un listado de palabras que deseo buscar en el archivo 2 (base de datos). El archivo 1 tiene la siguiente estructura (solo es un fragmento):

Sintáxis: [ Descargar ] [ Ocultar ]

Using text Syntax Highlighting

zf-C2H2 

WD40 

I-set 

Ank 

fn3 

Cadherin 

7tm_1 

V-set 

Collagen 

LRR_1 

Pkinase 

Sushi 

EGF_CA 

RRM_1 

KRAB 

C1-setColoreado en 0.000 segundos,  usando GeSHi 1.0.8.4

Ahora el archivo 2, que es mi base de datos, tiene la siguiente estructura:

Sintáxis: [ Descargar ] [ Ocultar ]

Using text Syntax Highlighting

1-cysPrx_C      1-cysPrx_C

1-cysPrx_C      AhpC-TSA

14-3-3  14-3-3

14-3-3  Acetyltransf_1

14-3-3  LIG_14-3-3_1

14-3-3  LIG_14-3-3_2

14-3-3  LIG_14-3-3_3

14-3-3  LIG_14-3-3_none

2-Hacid_dh      2-Hacid_dh

2-Hacid_dh      2-Hacid_dh_C

2-Hacid_dh      ACT

2-Hacid_dh      LIG_CtBP

2-Hacid_dh_C    2-Hacid_dh

2-Hacid_dh_C    2-Hacid_dh_C

2-oxoacid_dh    2-oxoacid_dh

2-ph_phosp      2-ph_phosp

2OG-FeII_Oxy    2OG-FeII_Oxy

2_5_RNA_ligase  2_5_RNA_ligase

3-alpha MOSC

3-dmu-9_3-mt    3-dmu-9_3-mtColoreado en 0.000 segundos,  usando GeSHi 1.0.8.4

Contiene un par de columnas separadas por "\t". Lo que deseo hacer es buscar para cada miembro de la lista del archivo 1 su ocurrencia en cualquiera de las dos columnas en el archivo 2, y que en cada ocurrencia que encuentre imprima ambas columnas.
Para ello he escrito el siguiente código, solo que no he logrado hacerlo funcionar, y cuando lo he logrado me duplica la información; supongo que tengo algún error en la forma como estoy utilizando los bucles. Agradecería que pudieran ayudarme,
Saludos.

Código:

Sintáxis: [ Descargar ] [ Ocultar ]

Using perl Syntax Highlighting

#! /usr/bin/perl 
 
open (FILE1, "only_domains_human_proteome.txt");
open (FILE2, "only_interfaces3did.txt");
 
my @firstdb=<FILE1>;
my @seconddb=<FILE2>;
 
foreach $query (@firstdb){
chomp $query;
        for ($i=0;$i<scalar(@seconddb);$i++){
        
        my @domaint = split ("\t", $seconddb[$i]);
                
                chomp $domaint[1];
        
                if ($domaint[0] =~ $query){
                        print "$domaint[0]\t$domaint[1]\n";
 
                }
 
        }
                                
}
 
close FILE1;
close FILE2;
Coloreado en 0.002 segundos,  usando GeSHi 1.0.8.4

#!/usr/bin/perl
use strict;
use warnings;
use diagnostics;
 
open (FILE1, "only_domains_human_proteome.txt");
open (FILE2, "only_interfaces3did.txt");
 
my @firstdb  = <FILE1>;
my @seconddb = <FILE2>;
 
chomp @firstdb;
chomp @seconddb;
 
close FILE1;
close FILE2;
 
foreach my $query (@firstdb) {
    for my $second (@seconddb) {
        if ($second =~ /$query/) {
            print "$second\n";
        }
    }
}
 
__END__
Coloreado en 0.002 segundos,  usando GeSHi 1.0.8.4

por **asegurac** » 2009-11-30 17:36 @775

Hola, muchas gracias por tu respuesta; he hecho las modificaciones al código, pero al ejecutarlo no imprime nada.

por **explorer** » 2009-11-30 18:24 @808

Según los dos ficheros de entrada que has puesto... no debería salir nada... ¿o qué debería salir?

por **asegurac** » 2009-11-30 18:36 @816

Hola,

Perdón, con el texto que puse del archivo 1 no aplicaría para un buen ejemplo, así que a continuación coloco un segmento que podría ejemplificar mejor lo que quiero hacer.

Archivo 1 (el nuevo):

Sintáxis: [ Descargar ] [ Ocultar ]

Using text Syntax Highlighting

1-cysPrx_C 

DUF1193 

IMS_C 

P53_tetramer

3-alpha

CoA_binding 

Pyrophosphatase 

Paralemmin 

UPF0027 

Crystallin 

Exostosin 

FYRN 

FYRC 

Sox_NColoreado en 0.000 segundos,  usando GeSHi 1.0.8.4

Entonces cuando se haga el match entre cada uno de los elementos de archivo 1 con los elementos de las columnas de archivo 2 debería imprimir lo siguiente:

Sintáxis: [ Descargar ] [ Ocultar ]

Using text Syntax Highlighting

1-cysPrx_C      1-cysPrx_C

1-cysPrx_C      AhpC-TSA

3-alpha         MOSCColoreado en 0.000 segundos,  usando GeSHi 1.0.8.4

por **explorer** » 2009-11-30 18:50 @826

Pues a mí me funciona, con el programa que te he puesto antes.

Publica tu código y vemos dónde está el fallo.

por **asegurac** » 2009-11-30 19:14 @843

Hola,

El código está bien; revisé el formato de la lista en el archivo 1 original y me di cuenta de que al final de cada elemento existen dos espacios, así que con "chop()" "chop()" ¡funciona perfecto!

¡Muchas gracias!

por **explorer** » 2009-12-01 04:12 @216

Pero la cuestión planteada al principio no decía nada de reescribir las líneas, solo hablaba de buscar coincidencias...

Foro - Perl en Español

Procesando texto

Procesando texto

Publicidad

Re: Procesando texto

Re: Procesando texto

Re: Procesando texto

Re: Procesando texto

Re: Procesando texto

Re: Procesando texto

Re: Procesando texto

¿Quién está conectado?