• Publicidad

Archivo Genbank

Perl aplicado a la bioinformática

Archivo Genbank

Notapor wampaier » 2008-08-12 13:06 @588

Hola, tengo un problema... con un archivo de Genbank... quiero extraer la parte donde dice /translation="(y viene la secuencia de la proteína)... quisiera saber cómo le podría hacer... para poder extraer ese fragmento. Gracias.

Código: Seleccionar todo
LOCUS       ntkv01_1             5709761 bp    DNA     linear       22-JUL-2008
DEFINITION  Klebsiella variicola strain CCG (AE) chromosome Chromosome.
ACCESSION   
VERSION
KEYWORDS    .
SOURCE      Klebsiella variicola
  ORGANISM  Klebsiella variicola
            Unclassified.
REFERENCE   1  (bases 1 to 5709761)
  AUTHORS   Davidsen,T.M., Beck,E., Galinsky,K.J. and Sutton,G.
  TITLE     Annotation Engine Genome
  JOURNAL   Unpublished
REFERENCE   2  (bases 1 to 5709761)
  AUTHORS   Davidsen,T.M., White,O. and Yang,Q.
  TITLE     Direct Submission
  JOURNAL   Submitted (22-JUL-2008) J. Craig Venter Institute, 9712 Medical
            Center Dr, Rockville, MD 20850, USA
FEATURES             Location/Qualifiers
     source          1..5709761
                     /organism="Klebsiella variicola"
                     /mol_type="genomic DNA"
                     /strain="CCG (AE)"
                     /chromosome="Chromosome"
     gene            52..456
                     /locus_tag="NT01KV0001"
     CDS             52..456
                     /locus_tag="NT01KV0001"
                     /codon_start=1
                     /transl_table=11
                     /product="FipA"
                     /protein_id="tigr:NT01KV0001"
                     /translation="MKEHEMDGADYPLSLASDMVLPWPWSLQRFINNVSRIGSYKGKP
                     WKQDNSNHYVELWLPWRIGFVGGGNHSITAGILAGEGTLIPEHVYDMSWLFELVRTDG
                     NHWFVDDHKVEAVKSGRSAAVFEIGRLLVEGA"
     gene            complement(504..2357)
                     /locus_tag="NT01KV0002"
     CDS             complement(504..2357)
                     /locus_tag="NT01KV0002"
                     /note="identified by match to protein family HMM PF01526"
                     /codon_start=1
                     /transl_table=11
                     /product="transposase"
                     /protein_id="tigr:NT01KV0002"
                     /translation="MVEQYGRVKRFLPAMLRDLHFQSAPAGENTLSAIHYLAELSGSK
                     KRLLENAPEQIITGPWKRLVYDSEGRIQRAGYSLCLLERLQDSLRRRDIWLENSDRWG
                     DPRQKFLQGKEWQAQRIAVCRALGHPTDGGNAVKQLATELDETWKTVASRFELNAAVS
                     ICHQGKYPSLTISSLEKLEEPQPLILLNSRVRQLVPPVDLTELLLEIDARTGFTREFT
                     HVSESEARAQDLNISLCAVLLAEACNIGHEPLIKHSIPALTRHRLSWVKQNYIRAETL
                     VSANARLVDFQSTLELSERWGGGEVASADGMRFVTPVKTLNSGPNRKYFGSGRGITWY
                     NFVSDQYSGFHGIVIPGTLRDSIFVLEGLLEQQTGLNPVEIMTDTGGSSDIIFGLFWL
                     LGYQFSPRLADAGEAVFWRADKNANYGVLDELARGCVELSKIETQWDEMMRVSGSLKL
                     GTVHASELVGSLLKSSRPSGLAQAIMEVGRVNKTLYLLNYIDDEEYRRRILTQLNRGE
                     GRHAVARAICYGQRGEIRKRYREGQEDQLGALGLVTNAVVLWNTLYMQEALSHLRSAG
                     EIPEDEHISRLSPLMYGHINMLGHYTFTLPENILKGELRPLNFNSNNELLP"
     gene            complement(2441..4294)
                     /locus_tag="NT01KV0003"
     CDS             complement(2441..4294)
                     /locus_tag="NT01KV0003"
                     /note="identified by match to protein family HMM PF01526"
                     /codon_start=1
                     /transl_table=11
                     /product="transposase"
                     /protein_id="tigr:NT01KV0003"
                     /translation="MVEQYGRVRRFLPHLLNTVKFSSAPAGVTTLNACDYLSREFSSR
                     RQFFDDAPTEIISRSWKRLVINKEKHITRRGYTLCFLSKLQDSLRRRDVYVTGSNRWG
                     DPRARLLQGADWQANRIKVYRSLGHPTDPQEAIKSLGHQLDSRYRQVAARLGENEAVE
                     LDVSGPKPRLTISPLASLDEPDSLKRLSKMISDLLPPVDLTELLLEINAHTGFADEFF
                     HASEASARVDDLPVSISAVLMAEACNIGLEPLIRSNVPALTRHRLNWTKANYLRAETI
                     TSANARLVDFQATLPLAQIWGGGEVASADGMRFVTPVRTINAGPNRKYFGNNRGITWY
                     NFVSDQYSGFHGIVIPGTLRDSIFVLEGLLEQETGLNPTEIMTDTAGTSELVFGLFWL
                     LGYQFSPRLADAGASVFWRMGHDANYGVLNDIARGQSDPRKIVLQWDEMIRTAGSLKL
                     GKVQASVLVRSLLKSERPSGLTQAIIEVGRINKTLYLLNYIDDEDYRRRILTQLNRGE
                     SRHAVARAICHGQKGEIRKRYTDGQEDQLGALGLVTNAVVLWNTMYMQAALDHLRAQG
                     ETLNDEDIARLSPLCHGHINMLGHYSFTLAELVTKGHLRPLKEASEVENVA"
     gene            complement(4659..5663)
                     /locus_tag="NT01KV0004"
     CDS             complement(4659..5663)
                     /locus_tag="NT01KV0004"
                     /note="identified by match to protein family HMM PF02371"
                     /codon_start=1
                     /transl_table=11
                     /product="transposase for insertion sequence element"
                     /protein_id="tigr:NT01KV0004"
                     /translation="MENIALIGIDLGKNSFHIHCQDHRGKAVYRKKFTRPKLIEFLAT
                     CPATTIAMEACGGSHFMARKLAELGHFPKLISPQFVRPFVKSNKNDFVDAEAICEAAS
                     RPSMRFVQPRTESQQAMRALHRVRESLVQDKVKTTNQMHAFLLEFGISVPRGAAVISR
                     LSTLLEDSSLPLYLSQLLLKLQQHYHYLVEQIKDLESQLKRKLDEDEVGQRLLSIPCV
                     GTLTASTISTEIGDGKQYASSRDFAAATGLVPRQYSTGGRTTLLGISKRGNKKIRTLL
                     VQCARVFIQKLEHQSGKLADWVRELLCRKSNFVVTCALANKLARIAWALTARQQTYEA"
     gene            complement(5742..6554)
                     /locus_tag="NT01KV0005"
     CDS             complement(5742..6554)
                     /locus_tag="NT01KV0005"
                     /note="identified by match to protein family HMM PF01526"
                     /codon_start=1
                     /transl_table=11
                     /product="transposase"
                     /protein_id="tigr:NT01KV0005"
                     /translation="MPRRSILSAAERESLLALPDTKDELIRHYTFSESDLSIIRQRRG
                     PANRLGFAVQLCYLRFPGVILGADEPPFPPLLRLVANQLKVGIESWDEYGQREQTRRE
                     HLVELQTVFGFQPFTIGHYRQAVQLLTELAMQTDKGIVLARALIEHLRRQSVIVPALN
                     AVERASAEAITRAVFFNRLGEIRDRSFEQQRYRASGLNLVTAAIVLWNTVYLERAANA
                     LRGHGQAVDDGLLQYL
wampaier
Perlero nuevo
Perlero nuevo
 
Mensajes: 66
Registrado: 2008-08-12 12:50 @576

Publicidad

Notapor explorer » 2008-08-12 13:25 @600

Bienvenido a los foros de Perl en Español, wampaier.

En estos foros hay un hilo con un tema parecido.

No extrae la parte de translation, sino la parte de la secuencia.
JF^D Perl programming & Raku programming. Grupo en Telegram: https://t.me/Perl_ES
Avatar de Usuario
explorer
Administrador
Administrador
 
Mensajes: 14476
Registrado: 2005-07-24 18:12 @800
Ubicación: Valladolid, España

Notapor explorer » 2008-08-12 13:43 @613

Aquí tienes un ejemplo sencillo que lo resuelve:
Sintáxis: [ Descargar ] [ Ocultar ]
Using perl Syntax Highlighting
#!/usr/bin/perl
use strict;
use warnings;
use diagnostics;

## Abrimos el fichero y leemos todas las líneas GenBank
my $fichero_nombre = 'variicola.gen';
open FICHERO, "<$fichero_nombre" or die "ERROR: No encuentro $fichero_nombre: $!\n";

my $fichero;
while (my $linea = <FICHERO>) {
    $fichero .= $linea;
}

close FICHERO;

## Extraemos las partes de translation
while ( $fichero =~ m/ \/translation=" (.*?) " /simogx ) {
    my $translation =                  $1;

    ## Quitamos los espacios en blanco y retornos de carro
    $translation =~ s/\s//simog;

    print "[$translation]\n";
}
Coloreado en 0.002 segundos, usando GeSHi 1.0.8.4
Última edición por explorer el 2008-08-12 15:40 @694, editado 1 vez en total
JF^D Perl programming & Raku programming. Grupo en Telegram: https://t.me/Perl_ES
Avatar de Usuario
explorer
Administrador
Administrador
 
Mensajes: 14476
Registrado: 2005-07-24 18:12 @800
Ubicación: Valladolid, España

Notapor wampaier » 2008-08-12 15:08 @672

ok... si... de hecho, como vi el ejemplo anterior... es por eso que me decidí preguntar...
wampaier
Perlero nuevo
Perlero nuevo
 
Mensajes: 66
Registrado: 2008-08-12 12:50 @576

Notapor wampaier » 2008-08-12 15:14 @676

Pero si lo quisiera en tipo fasta... es que por ejemplo, esto es solo un ejemplo de un genoma completo... porque también lo que quiero extraer es el product y el protein_id por ejemplo:
Código: Seleccionar todo
>FipA|NT01KV0001
MKEHEMDGADYPLSLASDMVLPWPWSLQRFINNVSRIGSYKGKP
WKQDNSNHYVELWLPWRIGFVGGGNHSITAGILAGEGTLIPEHVY
DMSWLFELVRTDGNHWFVDDHKVEAVKSGRSAAVFEIGRLLVEGA
wampaier
Perlero nuevo
Perlero nuevo
 
Mensajes: 66
Registrado: 2008-08-12 12:50 @576

Notapor explorer » 2008-08-12 15:46 @698

Según veo, si sustituyes /translation por /product y luego por /protein_id en el programa que te he dado, sí que salen...

Otra cosa es el formato fasta... no indicaste en la pregunta en qué formato querías la salida.

Quizás debas plantear tu problema desde cero, otra vez, para saber qué es lo que quieres hacer.
JF^D Perl programming & Raku programming. Grupo en Telegram: https://t.me/Perl_ES
Avatar de Usuario
explorer
Administrador
Administrador
 
Mensajes: 14476
Registrado: 2005-07-24 18:12 @800
Ubicación: Valladolid, España

Notapor wampaier » 2008-08-12 22:13 @967

No, no, mira... tal vez no me expliqué muy bien... así como me lo explicaste lo de la secuencia de proteína.... está bien... solo que me interesa también extraer el product y el protein_id. Lo del formato fasta... eso no lo tomes en cuenta... disculpa si te enredé las cosas...
wampaier
Perlero nuevo
Perlero nuevo
 
Mensajes: 66
Registrado: 2008-08-12 12:50 @576

Notapor explorer » 2008-08-13 04:57 @248

¿Y la salida, tiene que ser de alguna forma? ¿o sin más, salir los datos a medida de que se encuentran?
JF^D Perl programming & Raku programming. Grupo en Telegram: https://t.me/Perl_ES
Avatar de Usuario
explorer
Administrador
Administrador
 
Mensajes: 14476
Registrado: 2005-07-24 18:12 @800
Ubicación: Valladolid, España


Volver a Bioinformática

¿Quién está conectado?

Usuarios navegando por este Foro: No hay usuarios registrados visitando el Foro y 1 invitado