Foro - Perl en Español

por **alemanmd** » 2012-01-31 11:27 @518

Hola a todos, tengo un programa que hice para extraer las secuencias FASTA a partir de una lista, lo que necesito es que el programa use los id de la lista 1 y los compare contra una sección del encabezado de mi archivo FASTA. Si el id de la lista 1 existe entonces imprimir el nombre del archivo FASTA y las secuencias. Además en un archivo adicional imprime el id de la lista 1 con el correspondiente GI. Por último, me gustaría que un archivo adicional me imprimiera los id que no fueron encontrados en el fichero FASTA para poder hacer las búsquedas en otro archivo.

El programa hace correctamente las comparaciones e imprime lo que estoy buscando e inclusive me cuenta cuántos id encontró, pero no puedo hacer que recupere las secuencias pues solo me imprime la cabecera.

Espero me puedan dar un consejo de por dónde puedo irme. Enseguida les dejo mi código y un ejemplo de los archivos de entrada así como un ejemplo de cómo debería ser el archivo de salida.

Sintáxis: [ Descargar ] [ Ocultar ]

Using perl Syntax Highlighting

########################################################################################################
# Este programa fue creado para extraer las secuencias FASTA resultado de una comparación de diferentes#
# identificadores; si el id de la lista existe en el fichero FASTA, imprime el nombre con su secuencia #
# correspondiente, al mismo tiempo cree un archivo adicional donde imprime el Gi, id y JGI comparados  #
########################################################################################################
 
#!/usr/bin/perl
use strict;
use warnings;
 
my $file  = $ARGV[0] or die "Uso: $0 <lista de ID>\n";
my $file2 = $ARGV[1] or die "Uso: $1 <fichero FASTA>\n";
 
my $DIR = 'effectors_NCBI';
 
if ( !-d $DIR ) {                      # si no existe ese directorio
    mkdir($DIR);                       # lo creamos
}
 
open( LISTA, "$file" ) || die("No puedo abrir $file\n");    #abre el archivo file1 que es una lista
 
my %filas;
my $n = 0;
my $numero1;
 
while ( my $linea = <LISTA> ) {
    chomp($linea);
    if ( $linea =~ /(\d+)/ ) {         # este patrón se puede cambiar para adaptarse a las necesidades
        $numero1 = $1;
        $filas{$numero1} = 0;
        $n++;
 
        #print ("$numero1\n");
    }
}
 
open( MIA, "<$file2" )                       or die("ERROR: No puedo abrir $file: $!\n");
open( ROB, ">$DIR/Ta_effectors.ncbi.fasta" ) or die("ERROR: No puedo abrir Ta_effectors.ncbi.fasta: $!\n");
open( RAB, ">$DIR/Ta_ID.ncbi.txt" )          or die("ERROR: No puedo abrir Ta_effectors.ncbi.fasta: $!\n");
 
print RAB "\t\tGI\t\t\tID\t\t\tJGI\n";
 
my $i = 0;
my $g = 0;
my %filas2;
my $effector;
my $gi;
 
while ( my $linea = <MIA> ) {
    chomp($linea);
    if ( $linea =~ /\>/ ) {
        $linea =~ s/\,//g;
        $linea =~ s/\s/\_/g;
 
        #print "$linea\n";
        my @a = split( /\_/, $linea );
        $gi       = $a[0];
        $effector = $a[4];
        if ( $effector =~ /([\d]+)/ ) {
            $filas2{$effector} = $1;
            $i++;
 
            #print "$1\n";
            if ( exists $filas{$1} ) { ##aquí pregunto si la comparación existe, también se puede adaptar
                $g++;
                print ROB "$linea\n";
                print RAB "$gi\t$1\tTa\n";
            }
        }
    }
}
 
print RAB "\n\n";
print "tienes $n jgi en tu archivo\n";
print "tienes $i gi en tu archivo\n";
print "encontre $g jgi en tu archivo de gi\n";
print RAB "tienes $n jgi en tu archivo\n";
print RAB "tienes $i gi en tu archivo\n";
print RAB "encontre$g jgi en tu archivo de gi\n";
 
close ROB;
close RAB;
 
Coloreado en 0.004 segundos,  usando GeSHi 1.0.8.4

Lista de ID a buscar
186317
232175
232182
62551
92071
211744

Archivo FASTA a buscar:

>gi|358401874|gb|EHK51157.1| hypothetical protein TRIATDRAFT_186317 [Trichoderma atroviride IMI 206040]
MSLTLVLFLIGILGFVFNRKNIILMLISIEIMLLSITFLILVSSINLDDIIGQTYAIYIIVVAGAESAIG
LAILVAFYRLRGSIAIEYK

>gi|358401873|gb|EHK51156.1| hypothetical protein TRIATDRAFT_232175 [Trichoderma atroviride IMI 206040]
MSSVTLLFIIVSIIALLFLALNFILAPHNPYQEKYSIFECGFHSFLGQNRSQFGVKFFIFALVYLLLDLE
ILLIYPYGMSIYENGLYGLIIMLIFTFIITAGFVFELGKSALKIDSRQSYTYFYKSQKFINTFIENK

>gi|358401870|gb|EHK51155.1| hypothetical protein TRIATDRAFT_232182, partial [Trichoderma atroviride IMI 206040]
MRLLEFSDTKFSFTKDLQDKNIPQYAILSHTWGLDTEEVTYKDLIDGTGMNKAGFKKLQFCGEQAMQDGL
QYFWIDTCCIDKSNSTELNEAITSMFRWYQNATRCYVYLSDVSFPTFDSLQQFNPEVDTIFRASRWFTRG
WTLQELIAPFSVEFFTKEGKLIGNKKSLEQQIHEVTKVAIQALRGESLSEFDIEERFNWADGRQTSREED
LAYCLFGIFDVSIAALYGEGKDKAFRRLRKDI

>gi|358401869|gb|EHK51154.1| hypothetical protein TRIATDRAFT_94382 [Trichoderma atroviride IMI 206040]
MCTMRTAQAITRMVDTGISIIDSAEQIRNSEDSLSQYLDNLLKEVAQEREALSKLGNKLDSDMKKRLNPL
IEKLKQLCDKLLVSPGLKMQRQGKFKIAESAIKDKLDEEDKKSEYTVMRKEFIAFKQELMASKLDNILEI
VANKTKRTYQKLQSLDQLEANYNLIKWNDFTQRSPDEFDELSQRVATLIARLNLGFDFKGQKFDNTEQAA
YGTFDWMVRFDSSIACSTRKLEEKEEEVYKRHNEENLERRAEATHQFRSFLKDDRRVYMVLGKPGSGKST
LMKSLVESPQVKYELESWALEQKKRLIKAHFFFSVTFGSGGLQTEEAMCRDILIQGRADSKRQDQHRL

>gi|358401866|gb|EHK51153.1| hypothetical protein TRIATDRAFT_303121 [Trichoderma atroviride IMI 206040]
MDDNSTLDYVYKRRKIEDTSAQLGADEGTYKKRLRLNDDNDCEHRHKRQKPESPTACITSHASSSSSSSS
LQQLEGENVAEDGTVYILGVGSVRQTALSYHLNLGLRSQ

Archivo de salida 1 (secuencias FASTA identificadas):

>gi|358401874|gb|EHK51157.1| hypothetical protein TRIATDRAFT_186317 [Trichoderma atroviride IMI 206040]
MSLTLVLFLIGILGFVFNRKNIILMLISIEIMLLSITFLILVSSINLDDIIGQTYAIYIIVVAGAESAIG
LAILVAFYRLRGSIAIEYK

>gi|358401873|gb|EHK51156.1| hypothetical protein TRIATDRAFT_232175 [Trichoderma atroviride IMI 206040]
MSSVTLLFIIVSIIALLFLALNFILAPHNPYQEKYSIFECGFHSFLGQNRSQFGVKFFIFALVYLLLDLE
ILLIYPYGMSIYENGLYGLIIMLIFTFIITAGFVFELGKSALKIDSRQSYTYFYKSQKFINTFIENK

>gi|358401870|gb|EHK51155.1| hypothetical protein TRIATDRAFT_232182, partial [Trichoderma atroviride IMI 206040]
MRLLEFSDTKFSFTKDLQDKNIPQYAILSHTWGLDTEEVTYKDLIDGTGMNKAGFKKLQFCGEQAMQDGL
QYFWIDTCCIDKSNSTELNEAITSMFRWYQNATRCYVYLSDVSFPTFDSLQQFNPEVDTIFRASRWFTRG
WTLQELIAPFSVEFFTKEGKLIGNKKSLEQQIHEVTKVAIQALRGESLSEFDIEERFNWADGRQTSREED
LAYCLFGIFDVSIAALYGEGKDKAFRRLRKDI

Archivo de salida 2 (comparación de id que sí existen):

Sintáxis: [ Descargar ] [ Ocultar ]

Using text Syntax Highlighting

    GI             ID_NCBI               JGI

358401874          EHK51157.1           186317

358401870          EHK51155.1           232182Coloreado en 0.000 segundos,  usando GeSHi 1.0.8.4

Archivo de salida 3 (comparación de id que no existen):

Sintáxis: [ Descargar ] [ Ocultar ]

Using text Syntax Highlighting

tienes $numero JGI que no existen en tu fichero FASTA

92071

211744Coloreado en 0.000 segundos,  usando GeSHi 1.0.8.4

#!/usr/bin/perl
# Joaquín Ferrero. 20120201
#
# Extractor de secuencias FASTA entre un fichero con id y un fichero FASTA.
# Las secuencias con id coincidente son escritas en un nuevo archivo, así
# como los id coincidentes, en otro archivo. Las secuencias no coincidentes
# son grabadas en un tercer archivo.
#
 
use Modern::Perl;               # Somos modernos
use utf8::all;                  # Turn on UTF-8. All of it.
 
use autodie;                    # es mejor morir que regresar con deshonor (proverbio Klingon)
use File::Slurp;
 
#### Argumentos #############################################################
@ARGV == 2  or  die "Uso: $0 <archivo con id a buscar> <archivo FASTA>\n";
 
my($nombre_archivo_id, $nombre_archivo_fasta) = @ARGV;
 
-f $nombre_archivo_id     or  die "ERROR: No puedo leer el archivo $nombre_archivo_id: $!\n";
-f $nombre_archivo_fasta  or  die "ERROR: No puedo leer el archivo $nombre_archivo_fasta: $!\n";
 
 
#### Inicialización #########################################################
my $DIR = 'effectors_NCBI';
-d $DIR  or  mkdir($DIR);
 
 
#### Proceso ################################################################
### Lectura de los id
my @id = read_file($nombre_archivo_id, {chomp => 1});
 
 
### Apertura de ficheros ####################################################
open my $FASTA  , '<', $nombre_archivo_fasta;
open my $NCBI_EF, '>', "$DIR/Ta_effectors.ncbi.fasta";
open my $NCBI_ID, '>', "$DIR/Ta_ID.ncbi.txt";
open my $NCBI_NO, '>', "$DIR/Ta_NOeffectors.ncbi.fasta";
 
print $NCBI_ID "GI\tID\tJGI\n";
 
 
### Lectura del fichero FASTA y Escritura del resultado #####################
my($cabecera, $secuencia);
while (my $línea = <$FASTA>) {
 
    if ($línea =~ /^>/  or  eof $FASTA) {
        if ($cabecera   or  eof $FASTA) {
            # >gi|358401874|gb|EHK51157.1| hypothetical protein TRIATDRAFT_186317 [Trichoderma atroviride IMI 206040]
            my(undef, $gi, undef, $id_ncbi, $nombre) = split /\|/, $cabecera;
            my($jgi) = $nombre =~ /_(\d+)/;
 
            if ($jgi ~~ @id) {                          # Si coincide con algún id que buscamos
                print $NCBI_ID "$gi\t$id_ncbi\t$jgi\n";
                print $NCBI_EF $cabecera;
                print $NCBI_EF $secuencia;
                @id = grep { ! /^$jgi$/ } @id;          # Lo quitamos de la lista
            }
        }
 
        $cabecera  = $línea;
        $secuencia = '';
    }
    else {
        $secuencia .= $línea;
    }
}
 
### Escritura de las secuencias no coincidentes ############################
print $NCBI_NO "Tienes ", scalar(@id), " JGI que no existen en tu fichero FASTA\n";
for my $id (@id) {
    print $NCBI_NO "$id\n";
}
 
 
### Cierre de ficheros ######################################################
close $FASTA;
close $NCBI_EF;
close $NCBI_ID;
close $NCBI_NO;
 
__END__
Coloreado en 0.004 segundos,  usando GeSHi 1.0.8.4

por **alemanmd** » 2012-02-02 16:29 @728

Hola, explorer. Te comento que sí logré recuperar la información que necesitaba con el consejo que me diste. Después vi tu versión del código, y está genial, es más rápida y me gusta más como lo propones tu. Respecto a las librerías que usas (espero que se les llame así), ¿¿¿ son módulos de Bioperl ??? ¿¿¿ Cómo puedo saber qué módulos usar y algún consejo para empezar a utilizar esta herramienta ???

¡¡ Saludos y gracias de nuevo !!
¡¡ Cada vez disfruto más lo que hago gracias a sus consejos y ayuda !!

por **explorer** » 2012-02-02 16:56 @747

No, no son módulos de BioPerl, son módulos normales y corrientes.

Los módulos los puedes encontrar en CPAN.org. El problema es que hay decenas de miles. Por eso, hay que usar el sistema de búsqueda. Y saber cuáles tienes que usar... pues lo más cómodo y rápido es ver código de otros programadores. Por estos foros hay multitud de códigos de los que se puede aprender mucho. Y si no, siempre puedes ir al foro Módulos y preguntar por alguno que haga algo específico.

Para instalarlos en tu sistema, depende un poco del sistema operativo en que te encuentres, pero hay un procedimiento general para hacerlo.

por **vliholl** » 2016-02-09 18:40 @819

Hola, recupero este tema ya que tengo un problema relacionado con esto.

En mi caso tengo dos archivos: uno de ellos contiene dos columnas; la primera con un código asociado a un grupo de elementos; la segunda son estos elementos separados por '|'.

El segundo archivo es uno tipo fasta donde están las secuencias de cada uno de los elementos mostrados en la columna 2 del archivo 1.

La intención es imprimir el ID de cada grupo, seguido de los elementos de ese grupo y a continuación el código y función de cada uno de ellos, esta última información procedente del archivo 2.

En primer lugar, he separado el archivo 1 en dos, una variable que contiene todas las ID y un hash que contiene los grupos asociados a cada ID.

A continuación intento comparar estos grupos con el archivo2 para imprimir las similitudes junto con la ID y el grupo completo pero no lo consigo.

Soy totalmente novato en esto y no se me ocurre dónde puede estar el error. Os adjunto el código que llevo preparado:

Sintáxis: [ Descargar ] [ Ocultar ]

Using perl Syntax Highlighting

#!/usr/bin/perl
 
open( IN, "archivo1.txt" );
while (<IN>) {
    chomp;
    my ( $cluster, $proteinas ) = split( /:/, $_ );
 
    #print "$proteinas\n";
    @listaprot = split( /\|/, $proteinas );
 
    #print "@listaprot\n";
    $prots{$cluster} = $proteinas;
}
 
open( IN, "archivo2.fasta" );
while (<IN>) {
    chomp;
    $linea = <IN>;
    if ( $linea =~ /^>.+/ ) {
        foreach $p ( values %prots ) {
 
            #print "$p-$linea\n";
            if ( $p =~ /$linea/ ) {
                print "$cluster\t$prots{$cluster}\t$linea\n";
            }
        }
    }
}
 
Coloreado en 0.002 segundos,  usando GeSHi 1.0.8.4

A ver si podéis echarme una mano. Gracias.

por **explorer** » 2016-08-01 04:22 @224

Al código, en principio, no veo problemas, pero sería interesante ver un ejemplo de los archivos que procesa.

¿Puedes publicar un ejemplo de los dos, reducidos a unas pocas líneas?

Foro - Perl en Español

Programa para comparar dos ID y recuperar FASTA

Programa para comparar dos ID y recuperar FASTA

Publicidad

Re: Programa para comparar dos ID y recuperar FASTA

Re: Programa para comparar dos ID y recuperar FASTA

Re: Programa para comparar dos ID y recuperar FASTA

Re: Programa para comparar dos ID y recuperar FASTA

Re: Programa para comparar dos ID y recuperar FASTA

Re: Programa para comparar dos ID y recuperar FASTA

Re: Programa para comparar dos ID y recuperar FASTA

Re: Programa para comparar dos ID y recuperar FASTA

Re: Programa para comparar dos ID y recuperar FASTA

¿Quién está conectado?