Foro - Perl en Español

por **explorer** » 2010-01-14 20:39 @902

Ejercicio a presentar en la convocatoria de Enero de 2010.
Informática - Biotecnología. Universidad de Salamanca.

Construir el programa pep2dna.pl que se ejecutará con la siguiente sintaxis:

perl pep2dna.pl fichin1 fichin2 fichout linesize

Funcionamiento
El programa pep2dna.pl recibirá como primer argumento un nombre de fichero (fichin1) que contendrá un número variable de secuencias de DNA, seguidas de su traducción a secuencia de aminoácidos, siguiendo el formato que puede verse en los ficheros de ejemplo en Studium, y que coincide con un conjunto de secuencias en formato FASTA concatenadas. Del análisis en conjunto de todos los registros FASTA que aparecen en ese fichero se obtendrá el codón que se utiliza más frecuentemente para codificar cada aminoácido.

Una vez obtenida esa información se leerá el contenido del fichero que se le pasa como segundo argumento (fichin2) que contendrá información biológica real extraída de una base de datos y correspondiente a una proteína. Este fichero contiene la secuencia de nucleótidos en formato FASTA, seguida de la secuencia de aminoácidos también en formato FASTA almacenada en dicha base de datos. La secuencia de aminoácidos presente en ese fichero se traducirá a una secuencia de nucleótidos, utilizando para cada aminoácido el codón correspondiente más frecuente que se ha encontrado en el paso anterior.

El resultado se escribirá en un fichero (fichout), compuesto por líneas del tamaño que se indica como cuarto argumento (linesize) y que será obligatoriamente múltiplo de 12. En cada línea aparecerá la secuencia almacenada en fichin2, junto con la traducción de proteína a nucleótido que se ha obtenido utilizando para ello el codón más frecuente encontrado en fichin1, y los puntos marcados con el símbolo "*" en que se ha producido una variación en la traducción. Para cada línea se antepondrá la posición de comienzo y se escribirán bloques de 12 en 12 nucleótidos con un espacio separando cada uno de ellos (ver fichero de salida en los ejemplos de la página web). Anteriormente se dará el número de nucleótidos que varían de la traducción de proteína a nucleótido hecha con los codones más frecuentes y la real encontrada en la base de datos.

El fichero de entrada es el siguiente:

Sintáxis: [ Descargar ] [ Ocultar ]

Using text Syntax Highlighting

>DNA1

atggggttttctaaaatagcacttttttctttattcgcgctcttcggcct

tcctacctctcttgctaaaagcagtgaggaatggcgcgaccgtatcattt

accaggtcataactgacagatttgccgttgactctgataatacacccgat

tgctccttcgatgatagttcttattgcggtggtacatggagcggtattcg

ttctaaactcgactacatccaaggaatgggattcaacgccatctggatct

ctcctgtcgaaaagaatcttgagggttcttacggtagtgatggtgaagct

taccatggttattggaataccgatttcactcaattaaacgagcattttgg

ttcggaggatgatctcatcgatttaatcactgatatgcacaatcgtgaca

tgtggatcatgtttgacgcgttggccaactcaatggccattccaggaccc

accgataacatcagctactcgaatcttgtgccttttaatgactcatccta

cttccatccttactgttggattgactatggcagtaacaataatacagata

ttgaggattgttggactggtgatgacaatgtcatccttgccgatttagac

attgagtccacgaatgttgctgattatttgcatgaacatattcacgatat

ggtcgagcgttatcagattgatggaattcgtatcgatgcagttaaacaaa

tgaatcccgaatttttccccaactacacttctgctgctggtgtttttgct

attggcgaaatgtttagttacgatcccaatgtctcttgttcagtgcgtaa

ttatctcgacagcattaccagctatcccattcgtcaaggaattgaatttg

catttaattatactggtgctgcatttgaatatcttcaggagattgatacg

caattccagcaagcttgtgagggacaagatatgtcggttatcggaaactt

tttggagaaccatgaccttccccgttacacctctattaccaatgatacct

cacaagatattggcgccattgttttcctccttctgcatactggcattccc

attatttattatggagaagaacaacgcttgcctggtggctctgatacccc

ggaaaaccgtgccgccttgtggaattacggctatgacactgatgcaaatt

attaccaaaccattcgcactgctattgctctacgaaaacaagctataagt

gacagtgattcttggaccacagattctcactcttatttggactacgatct

gcgccatgctgtggtaagaaaaggtgatgttttgggagtttacacaaact

acgagtcaagttctgacaacgttacttatgatgtctcctctaattttgat

gatggtactgttttgcgcgaggttttgagcaatactactacgaccgttgg

ctcaagtggagcattgcacgttactgttgtaagcggtctacctcaggtct

attatcctgaggctagtttgacttcctttggaaacttcctaggaacggcc

acaagttattcttctgcctcggcgagctatccttctacttcgatgagtgc

ttcgctttcatctgtgcatacatcatctgccacatcaagctccaagtcta

gctctagctctagctccaggtccggctctagttcaagttcaagctccagg

tccggttcgacttcttctagcggctctagccataccatcacttctacttc

tcaaagtgtgcacacgagtggatcgtcgacatctactagtagtgtagcgg

tcacttccacggcatacagtagtagttctagctcgtcttcctcaagcagt

attgaaagttctgctaatgctgttcgtgtatctatccttggcgttgcagc

attcattgctatcgttctattcatttag

>PROT1

MGFSKIALFSLFALFGLPTSLAKSSEEWRDRIIYQVITDR

FAVDSDNTPDCSFDDSSYCGGTWSGIRSKLDYIQGMGFNA

IWISPVEKNLEGSYGSDGEAYHGYWNTDFTQLNEHFGSED

DLIDLITDMHNRDMWIMFDALANSMAIPGPTDNISYSNLV

PFNDSSYFHPYCWIDYGSNNNTDIEDCWTGDDNVILADLD

IESTNVADYLHEHIHDMVERYQIDGIRIDAVKQMNPEFFP

NYTSAAGVFAIGEMFSYDPNVSCSVRNYLDSITSYPIRQG

IEFAFNYTGAAFEYLQEIDTQFQQACEGQDMSVIGNFLEN

HDLPRYTSITNDTSQDIGAIVFLLLHTGIPIIYYGEEQRL

PGGSDTPENRAALWNYGYDTDANYYQTIRTAIALRKQAIS

DSDSWTTDSHSYLDYDLRHAVVRKGDVLGVYTNYESSSDN

VTYDVSSNFDDGTVLREVLSNTTTTVGSSGALHVTVVSGL

PQVYYPEASLTSFGNFLGTATSYSSASASYPSTSMSASLS

SVHTSSATSSSKSSSSSSSRSGSSSSSSSRSGSTSSSGSS

HTITSTSQSVHTSGSSTSTSSVAVTSTAYSSSSSSSSSSS

IESSANAVRVSILGVAAFIAIVLFI_

>DNA2

atgagcactacgaccgaaacagtgacatggagtcagtataaacctcagga

aactcaaagacgactttcacgttcaagcactatcactcctagtgtatcag

aatatcgatctggtttctcaaaaactgcttttggaaatattgaactggag

gaaattcctgataaacaaggcaacattacacgtgctacaagcaatctcga

aagcaattcatatccgaaagcattagatcctgatgcttgtcctcctaaac

gatcaattgcacttgtattactcaacaatctcatgtctgaaatgtctttg

actattgcgttgccaatttcggctgcatacactgaaattttgggaggtac

tgatgctttctcaggtcttgttattggtattcctactatgatttcactag

tttgcttatatccaatgcttcggtttgcgaatccaaagtctgccaatgga

tatacgctctactttcgaccactgattgtttcctgcatttctcaaataat

aggccatttactgtattcactagcgtaccgtgcacaatggctgtatttaa

ttcttatcggtcgtatgtgcagtggtgttggttttaccatgtttctgtat

cataaaacttacttgacagataaaaactttgttggacaaaatcgatccac

atttttggctactctaaacattttggcccagattttagggtccatggcag

gtgcctttctgggtggtatattagcgaaggcttctatgcacttgacagac

ccaatttggaatcaatatactgcaggatcttggtttatgctatttatctg

gatcgtatattcaatctttttgtctatcttttttaaagaagttcgggttg

gcaacactgcaaccaatgttcgaaaacccgaatccttcaccggaaaaacg

gctccactgtccttcaagcaaaagtttatgttgtgttttctgtctatggc

tgctttcatttctatctttaatgttgccggttatcaaaccagtgtaccta

tttacgctaaagcactatatcattacaatccttttcaatctggtaacttc

ctttctctttcatctttggttattgctccttttgtattttttagcacatt

tctatccaagtggttagaagataggcagatcatgctctacggattcatga

tgggtatagtggccttaatagttcatttagtattggatgctgttcacaaa

atccccgtacagccctattttgttttatattccataatgcaatttggatt

tagcgttggttcggctccgttggtgtctcttgctaccaagcagttgcatc

caaaataccatatgattactggtgtcgtagtacaagttggtatttcgatt

ggagaaacagttggctctatttgtggaggtgccatttttgatataactac

tgttggctttattgctatgaatttgggtattgccttactggtttttattc

agctcctctacttatggacctttattaaaaccaagactggttaa

>PROT2

MSTTTETVTWSQYKPQETQRRLSRSSTITPSVSEYRSGFS

KTAFGNIELEEIPDKQGNITRATSNLESNSYPKALDPDAC

PPKRSIALVLLNNLMSEMSLTIALPISAAYTEILGGTDAF

SGLVIGIPTMISLVCLYPMLRFANPKSANGYTLYFRPLIV

SCISQIIGHLLYSLAYRAQWLYLILIGRMCSGVGFTMFLY

HKTYLTDKNFVGQNRSTFLATLNILAQILGSMAGAFLGGI

LAKASMHLTDPIWNQYTAGSWFMLFIWIVYSIFLSIFFKE

VRVGNTATNVRKPESFTGKTAPLSFKQKFMLCFLSMAAFI

SIFNVAGYQTSVPIYAKALYHYNPFQSGNFLSLSSLVIAP

FVFFSTFLSKWLEDRQIMLYGFMMGIVALIVHLVLDAVHK

IPVQPYFVLYSIMQFGFSVGSAPLVSLATKQLHPKYHMIT

GVVVQVGISIGETVGSICGGAIFDITTVGFIAMNLGIALL

VFIQLLYLWTFIKTKTG_

>DNA3

atgagcatcagtattgaaacaattacgaaacgaaatcaatatagagttga

tcagcctcaaaggcagccttctcgcttgagtactgtagctagtatttcag

aataccaatccgattactcaaagactgtctttgaagaaattgaactagag

gtgatacctaacaaacagaatatctctacacggagttttagaaatgatgg

aaatgactcagatccgcaaacattggaccccgacgcgtacccacccaaga

gatctattgcatttgtcctgcttaacagtattctctcagatatgtccatg

tcaactgcgttaccaatttcggctgcatacactgaaattttgggaggtac

tgatgctttttcaggtcttgttattggtattcctactatgatttcactag

tttgcttatatccaatgcttcggtttgcgaatccaaagtctgccaatgga

tatacgctctactttcgaccactgattgtttcctgcatttctcaaataat

aggccatttactgtattcactagcgtaccgtgcacaatggctgtatttaa

ttcttatcggtcgtatgtgtaatggtgttggttttaccatgtttctgtac

cataaaaagtatttgacagataagcacttcgtggggcaaaatcgttctac

tttccttgcgacgcttaatattctcgcgcaaacagtaggtttcatggccg

gttcatttttaggtggtttgctggccaaggcatgcatgcacttgacaaac

ccaatttggaaccagtatactgttgggtcttggtttatgcttttcgcttg

gtgcatatacggtatcctattgtctatcttttttaaagaaattcgagccg

atggcaatgactcgtcagctcgaaagcccgaaaacttcaatggacaagcg

gttaagcttagctatacgcataaatttatgctagtcttccttagtatggt

tgcatttatctcatacttcaacatagcagggtatcaagctagcgttccca

tttatgctaaagagctttatcattacaatgcctttcaatctggtaacttt

ctttcactttctgctcttgtaatagctccacttgtgtttttgagcacgtt

tttgtctaaatgggcagaagatagagatatgatgctttatggctttatat

tgggaatactggctcttgttgtacatcttgttttagacgttcttcacaag

gttcgcgtgcagccatactttgttttgtactctgccatgcagtttgggtt

tagtatcggttccgcaccattaatttcacttgctactaaacaattgcatc

cgaaatatcatatccttgtcggcattattgttcaaattggtatatctgct

gcagatacagttggtgctatctgtggaggcgctatatttgatataaccac

agttggatttatcgcattaaatttgggtattgctgtactggtgtttattc

aattgttgttcttgtggaatagcatcaagactaagactggctaa

>PROT3

MSISIETITKRNQYRVDQPQRQPSRLSTVASISEYQSDYS

KTVFEEIELEVIPNKQNISTRSFRNDGNDSDPQTLDPDAY

PPKRSIAFVLLNSILSDMSMSTALPISAAYTEILGGTDAF

SGLVIGIPTMISLVCLYPMLRFANPKSANGYTLYFRPLIV

SCISQIIGHLLYSLAYRAQWLYLILIGRMCNGVGFTMFLY

HKKYLTDKHFVGQNRSTFLATLNILAQTVGFMAGSFLGGL

LAKACMHLTNPIWNQYTVGSWFMLFAWCIYGILLSIFFKE

IRADGNDSSARKPENFNGQAVKLSYTHKFMLVFLSMVAFI

SYFNIAGYQASVPIYAKELYHYNAFQSGNFLSLSALVIAP

LVFLSTFLSKWAEDRDMMLYGFILGILALVVHLVLDVLHK

VRVQPYFVLYSAMQFGFSIGSAPLISLATKQLHPKYHILV

GIIVQIGISAADTVGAICGGAIFDITTVGFIALNLGIAVL

VFIQLLFLWNSIKTKTG_

>DNA4

atgaagttttctaccgtagggtttttgttttcaacaattttattcaaaag

tgcgtttgcaggatggatggatacacacatgaaagatgaacatcacattg

ataagtacacagatgaatctttttttcgtcttcacgatttaggaaaaaag

ggatactggtcagatcaagatatacttagtttatatggattatttgaaaa

tgatgaggtcccattcgtcaaaaagaatgaggttttggttgatgttctaa

aaaaatgcgatccatcgggcaatcgccggataacacttgatgaatttctt

gcatttcgtaaaaatggaggagagttaacggattttggatttccagggca

ccatggtgatgaggaagaggaatttgaaatgcatcatgtggaaaaatatc

acccagctggcctcgatgaaccagatgaaaactggaatcatcctgaagat

atcgaacattttcaaaaacacgatgagatatttcatggtgataagaaacc

tgaggaacgacgcaaacattttgtaaaatacaataatatccctgacaagt

atcgtcgtgtgagcatttaa

>PROT4

MKFSTVGFLFSTILFKSAFAGWMDTHMKDEHHIDKYTDES

FFRLHDLGKKGYWSDQDILSLYGLFENDEVPFVKKNEVLV

DVLKKCDPSGNRRITLDEFLAFRKNGGELTDFGFPGHHGD

EEEEFEMHHVEKYHPAGLDEPDENWNHPEDIEHFQKHDEI

FHGDKKPEERRKHFVKYNNIPDKYRRVSI_

>DNA5

atgggccgcgatatttacaaggacgagacattgacgatccctgagggcgt

ttcagttgacatcaaggctcgtttggtgactgtaaaaggccctcgtggtg

ttttgaagcaaaacttgcgccgtgtggatattgagttgaagaagcaaggc

aacactatcaagtttattgtctggcatggctctcgtaagcataatgcttg

cattcgtaccgcctattccatcatcaataacatgatcattggcgttaccc

aaggtttccgctacaagatgcgtcttgtctatgctcactttcccatcaac

atcaatttgactgagaacggaaccgttgttgagatccgtaactttttggg

cgaacgtattactcgtgtcatcaagtgtttgcctggcgttaccgtttcca

tttcttctgccgtcaaggatgagattataattgaaggtaactccttggag

aatgtttctcaatccgctgccaacatcaagcaaatttgcaatgtccgcaa

caaggatatccgtaagttcttggatggtatctatgtttctgaacgtggta

acatcgaggagttggaatag

>PROT5

MGRDIYKDETLTIPEGVSVDIKARLVTVKGPRGVLKQNLR

RVDIELKKQGNTIKFIVWHGSRKHNACIRTAYSIINNMII

GVTQGFRYKMRLVYAHFPININLTENGTVVEIRNFLGERI

TRVIKCLPGVTVSISSAVKDEIIIEGNSLENVSQSAANIK

QICNVRNKDIRKFLDGIYVSERGNIEELE_

>DNA6

atggatgcacaggatgaagataatccatttacgaatcttgaaactactgt

agacgtcacagaagaaattcaagattggagatttttatcaaatgtcgaaa

aagaccaagggacatacactatcccaaaacgtggacaaaaagactttgaa

ccagatggcaccaataagcaacattctgctctcgacttgagcaggaaggc

gatgtttgatgccctttcagtggagagattaatatcggccaaacatgcaa

taatagctacttggaatgcccaaaatgggatgtcttgtgttgaaaaggca

catggacctttgtttaaaaccatgggtactgctgactctcaaaatcgcat

gtggttacttccagaggagactttgtatcttgttgaacgtggatcgatgg

aatgctggtcagaagaaggattgccaatgagtttgcaagcagtttactca

gcctctattcctttatgtggtagcttagaaaattatcttgtttatgctca

tttacggagatgtggtttttcggttatacgttcaaacctagttccagtaa

aagaagatgaatatcgatgcgattcgaaaattatgaatttcaaggattta

ttgtttttaggattgggaaaggcttcacaaatattacaaacatttaactt

tcggaaactagcttttccattttcaaagcggaggaggcagtctatcctct

tacatgatacattttatacatacgaagaagtgtatcatgatttgcaaatt

gtccgcggttatgttccaatcgcttgtaatcttataacatcttcagattc

attatttcaaatcacatttcacgcatacaaaccttcagcttcattcaaaa

aatcggccttatcagagcctgattttaggatatgtgtggttagctctcag

gatacattattacctactatttttgagattgatgcgcttttttcaagtac

tcctcttcgacaaaacatgccacagcatatgtttcaaagactaaaggaag

ggtacagaaacattattattgcaattgtagattatggagttataagctac

attcggctatcggatgtttgttttgaagaaaaagtttatacagacttctc

taaaaagggatctaaaaggaaaagggtgagtaaaaaatttcaacaattgg

tctaa

>PROT6

MDAQDEDNPFTNLETTVDVTEEIQDWRFLSNVEKDQGTYT

IPKRGQKDFEPDGTNKQHSALDLSRKAMFDALSVERLISA

KHAIIATWNAQNGMSCVEKAHGPLFKTMGTADSQNRMWLL

PEETLYLVERGSMECWSEEGLPMSLQAVYSASIPLCGSLE

NYLVYAHLRRCGFSVIRSNLVPVKEDEYRCDSKIMNFKDL

LFLGLGKASQILQTFNFRKLAFPFSKRRRQSILLHDTFYT

YEEVYHDLQIVRGYVPIACNLITSSDSLFQITFHAYKPSA

SFKKSALSEPDFRICVVSSQDTLLPTIFEIDALFSSTPLR

QNMPQHMFQRLKEGYRNIIIAIVDYGVISYIRLSDVCFEE

KVYTDFSKKGSKRKRVSKKFQQLV_Coloreado en 0.002 segundos,  usando GeSHi 1.0.8.4

Ejemplo del fichero segundo, con la información de la proteína:

Sintáxis: [ Descargar ] [ Ocultar ]

Using text Syntax Highlighting

>DNA1

atgcctaccattctcgtcatcaatccaaactcttccaccttcatcacaac

atccatggaagaaaaactcgttcccctagtgccttcagatgtaaagttgc

gctttctaacttgtcctcaacccggtgctgctgtcatcgactccatcaca

gaggcaaccttgacagctgctctagtcttccaagccctaactcctagtgt

cttggatggtgtcgatgctatagctgttgcctgttattcccccactcctc

tagtcgacatgattcgtgagtcatttgctttaccctgcatgggcattgtg

caagcgtctgtcctcagtgccttatcggttggtcagcgcatcggcatcct

tacaagtacatatcgttccgaatgtttgctttacgaattactcgattctt

ttggtgtttcgcgcactcgagtggccgccattgcttctacaggtcgcaca

gttttgcaactttcgcaaatgccttcacaagagcgtgaaacccttcttgt

ccaaaaggcccaagaactggcaaacacaaagggtgcagatgtcatttgtt

taggtggtgctgctttagcagctattcgtgatcagattcaggttgccgta

ggtcccaatattcccatcattgatggtgtacatgcggctgttgagttact

tgctggcctagctcgtcaaaatcttcatacatcaaagtttggcatctata

cgtatccataa

>PROT1

MPTILVINPNSSTFITTSMEEKLVPLVPSDVKLRFLTCPQ

PGAAVIDSITEATLTAALVFQALTPSVLDGVDAIAVACYS

PTPLVDMIRESFALPCMGIVQASVLSALSVGQRIGILTST

YRSECLLYELLDSFGVSRTRVAAIASTGRTVLQLSQMPSQ

ERETLLVQKAQELANTKGADVICLGGAALAAIRDQIQVAV

GPNIPIIDGVHAAVELLAGLARQNLHTSKFGIYTYP_Coloreado en 0.000 segundos,  usando GeSHi 1.0.8.4

Con los dos ficheros anteriores, la salida sería así:

Sintáxis: [ Descargar ] [ Ocultar ]

Using text Syntax Highlighting

En total hay 147 cambios

   1 ATGCCTACCATT CTCGTCATCAAT CCAAACTCTTCC ACCTTCATCACA

   1         *    * *  *  *      *  *     *   *  *  *  *

   1 ATGCCTACTATT TTGGTTATTAAT CCTAATTCTTCT ACTTTTATTACT

  49 ACATCCATGGAA GAAAAACTCGTT CCCCTAGTGCCT TCAGATGTAAAG

  49   *  *             * *      ** *  *      *     *  *

  49 ACTTCTATGGAA GAAAAATTGGTT CCTTTGGTTCCT TCTGATGTTAAA

  97 TTGCGCTTTCTA ACTTGTCCTCAA CCCGGTGCTGCT GTCATCGACTCC

  97      *   * *                *            *  *  *  *

  97 TTGCGTTTTTTG ACTTGTCCTCAA CCTGGTGCTGCT GTTATTGATTCT

 145 ATCACAGAGGCA ACCTTGACAGCT GCTCTAGTCTTC CAAGCCCTAACT

 145   *  *  *  *   *     *       * *  *  *      ** *    

 145 ATTACTGAAGCT ACTTTGACTGCT GCTTTGGTTTTT CAAGCTTTGACT

 193 CCTAGTGTCTTG GATGGTGTCGAT GCTATAGCTGTT GCCTGTTATTCC

 193    **   *            *         *         *        *

 193 CCTTCTGTTTTG GATGGTGTTGAT GCTATTGCTGTT GCTTGTTATTCT

 241 CCCACTCCTCTA GTCGACATGATT CGTGAGTCATTT GCTTTACCCTGC

 241   *      * *   *  *            *  *         *  *  *

 241 CCTACTCCTTTG GTTGATATGATT CGTGAATCTTTT GCTTTGCCTTGT

 289 ATGGGCATTGTG CAAGCGTCTGTC CTCAGTGCCTTA TCGGTTGGTCAG

 289      *     *      *     * * ***   *  *   *        *

 289 ATGGGTATTGTT CAAGCTTCTGTT TTGTCTGCTTTG TCTGTTGGTCAA

 337 CGCATCGGCATC CTTACAAGTACA TATCGTTCCGAA TGTTTGCTTTAC

 337   *  *  *  * * *  ***   *         *          * *  *

 337 CGTATTGGTATT TTGACTTCTACT TATCGTTCTGAA TGTTTGTTGTAT

 385 GAATTACTCGAT TCTTTTGGTGTT TCGCGCACTCGA GTGGCCGCCATT

 385      ** *                   *  *     *   *  *  *    

 385 GAATTGTTGGAT TCTTTTGGTGTT TCTCGTACTCGT GTTGCTGCTATT

 433 GCTTCTACAGGT CGCACAGTTTTG CAACTTTCGCAA ATGCCTTCACAA

 433         *      *  *          * *  *            *    

 433 GCTTCTACTGGT CGTACTGTTTTG CAATTGTCTCAA ATGCCTTCTCAA

 481 GAGCGTGAAACC CTTCTTGTCCAA AAGGCCCAAGAA CTGGCAAACACA

 481   *        * * ** *  *      *  *       *    *  *  *

 481 GAACGTGAAACT TTGTTGGTTCAA AAAGCTCAAGAA TTGGCTAATACT

 529 AAGGGTGCAGAT GTCATTTGTTTA GGTGGTGCTGCT TTAGCAGCTATT

 529   *     *      *        *                *  *      

 529 AAAGGTGCTGAT GTTATTTGTTTG GGTGGTGCTGCT TTGGCTGCTATT

 577 CGTGATCAGATT CAGGTTGCCGTA GGTCCCAATATT CCCATCATTGAT

 577         *      *     *  *      *         *  *      

 577 CGTGATCAAATT CAAGTTGCTGTT GGTCCTAATATT CCTATTATTGAT

 625 GGTGTACATGCG GCTGTTGAGTTA CTTGCTGGCCTA GCTCGTCAAAAT

 625      *     *         *  * * *     ** *              

 625 GGTGTTCATGCT GCTGTTGAATTG TTGGCTGGTTTG GCTCGTCAAAAT

 673 CTTCATACATCA AAGTTTGGCATC TATACGTATCCA TAA

 673 * *     *  *   *     *  *      *     *    

 673 TTGCATACTTCT AAATTTGGTATT TATACTTATCCT TAA
Coloreado en 0.001 segundos,  usando GeSHi 1.0.8.4

Límite de plazo de entrega: 15 de enero de 2010.
Defensa del programa: 18 de enero de 2010.

#!/usr/bin/perl
#
# Programa
#   pep2dna.pl
#
# Autor
#   Joaquín Ferrero
#
# Versión
#   20100130 : Cambios cosméticos y arreglo de errores de salida
#   20091231 : Primera versión
#
# Entrada
#   Ninguna.
#
# Salida
#   Ninguna.
#   El estado del resultado será:
#       0 : no hubo errores
#       1 : hubo algún error
#
# Argumentos
#   <fichero1> :  Fichero FASTA con secuencias de donde sacar estadísticas de
#                 uso del codón más frecuente para cada aminoácido
#   <fichero2> :  Fichero FASTA de una proteína
#   <salida>   :  Fichero de salida del informe
#   <ancho>    :  Indica el ancho de la salida del informe
#
# Ejemplo
#
#   pep2dna.pl <fichero1> <fichero2> <salida> <ancho>
#
# Errores
#   El programa termina inmediatamente si:
#       * Los ficheros no pueden ser leídos
#       * El fichero de salida no puede ser creado o no se puede escribir en él
#       * Los ficheros no están bien conformados. Deben cumplir:
#           + Número par de secuencias
#           + De cada par, la primera es la secuencia de nucleótidos
#           + la segunda, la misma secuencia, pero codificada en aminoácidos
#
# Descripción
#   Del primer fichero pasado como argumento se extraerá una estadística,
#   consistente en saber qué codones codifican con más frecuencia a sus
#   correspondientes aminoácidos.
#
#   Del segundo fichero se extraerá una secuencia, correspondiente a una
#   proteína. De la parte de aminoácidos, hay que crear una nueva secuencia de
#   nucleótidos, pero usando los codones que con más frecuencia aparecieron en
#   el primer fichero.
#
#   De la secuencia generada, compararla con la secuencia de nucleótidos de la
#   proteína, marcando las diferencias con un '*'.
#
#   En el fichero de salida, hay que indicar:
#
#   Primero, informar del número de diferencias que hay entre la secuencia de
#   nucleótidos de la proteína y la generada.
#
#   Segundo, mostrar las secuencias de nucleótidos de la proteína, diferencias,
#   y generada, en líneas de ancho indicadas por el argumento <ancho>.
#
#   Las secuencias aparecerán en conjuntos de 3 líneas, separadas por una línea
#   en blanco. Cada uno de esos conjuntos estarán formados por:
#   Una línea con parte de la secuencia de nucleótidos de la proteína.
#   Una línea con la diferencia entre las dos secuencias.
#   Una línea con parte de la secuencia de nucleótidos generada.
#   Las líneas van precedidas por el número de posición de las partes dentro de
#   la secuencia, como un número entero de 4 posiciones.
#
#   Entre el número de posición y cada 12 nucleótidos (valor fijo), insertar un
#   espacio en blanco.
#
#   Ejemplo:
#      +--------------------------------------------------------
#      |En total hay 147 cambios
#      |
#      |   1 ATGCCTACCATT CTCGTCATCAAT CCAAACTCTTCC ACCTTCATCACA
#      |   1         *    * *  *  *      *  *     *   *  *  *  *
#      |   1 ATGCCTACTATT TTGGTTATTAAT CCTAATTCTTCT ACTTTTATTACT
#      |
#      |  49 ACATCCATGGAA GAAAAACTCGTT CCCCTAGTGCCT TCAGATGTAAAG
#      |  49   *  *             * *      ** *  *      *     *  *
#      |  49 ACTTCTATGGAA GAAAAATTGGTT CCTTTGGTTCCT TCTGATGTTAAA
#      |
#
#
# Errores del programa no resueltos
#   El programa fallará si las secuencias del primer fichero de entrada no
#   codifican a todos los aminoácidos presentes más tarde en la secuencia de la
#   proteína.
#
#   Una opción sería la de terminar el programa con un mensaje de error, en caso
#   de que no dispongamos de todos los aminoácidos.
#
#   Una posible solución sería la de asignar codones típicos a esos aminoácidos.
#
#   De momento, ahora lo que se hace es crear un codón ficticio: 'EEE'.
#
################################################################################
 
 
### Pragmas de desarrollo ######################################################
#use strict;
#use warnings;
#use diagnostics;
 
### Pragmas de funcionamiento ##################################################
use integer;
 
 
### Módulos ####################################################################
 
 
 
### Constantes #################################################################
# Ancho de los bloques de nucleótidos a mostrar
my $ANCHOSEQ = 12;
 
# Diccionario codones -> aminoácido
my %AMINOACIDO = (
    'AAA' => 'K',    # Lisina
    'AAC' => 'N',    # Asparagina
    'AAG' => 'K',    # Lisina
    'AAT' => 'N',    # Asparagina
    'ACA' => 'T',    # Treonina
    'ACC' => 'T',    # Treonina
    'ACG' => 'T',    # Treonina
    'ACT' => 'T',    # Treonina
    'AGA' => 'R',    # Arginina
    'AGC' => 'S',    # Serina
    'AGG' => 'R',    # Arginina
    'AGT' => 'S',    # Serina
    'ATA' => 'I',    # Isoleucina
    'ATC' => 'I',    # Isoleucina
    'ATG' => 'M',    # Metionina
    'ATT' => 'I',    # Isoleucina
    'CAA' => 'Q',    # Glutamina
    'CAC' => 'H',    # Histidina
    'CAG' => 'Q',    # Glutamina
    'CAT' => 'H',    # Histidina
    'CCA' => 'P',    # Prolina
    'CCC' => 'P',    # Prolina
    'CCG' => 'P',    # Prolina
    'CCT' => 'P',    # Prolina
    'CGA' => 'R',    # Arginina
    'CGC' => 'R',    # Arginina
    'CGG' => 'R',    # Arginina
    'CGT' => 'R',    # Arginina
    'CTA' => 'L',    # Leucina
    'CTC' => 'L',    # Leucina
    'CTG' => 'L',    # Leucina
    'CTT' => 'L',    # Leucina
    'GAA' => 'E',    # Ácido glutámico
    'GAC' => 'D',    # Ácido aspártico
    'GAG' => 'E',    # Ácido glutámico
    'GAT' => 'D',    # Ácido aspártico
    'GCA' => 'A',    # Alanina
    'GCC' => 'A',    # Alanina
    'GCG' => 'A',    # Alanina
    'GCT' => 'A',    # Alanina
    'GGA' => 'G',    # Glicina
    'GGC' => 'G',    # Glicina
    'GGG' => 'G',    # Glicina
    'GGT' => 'G',    # Glicina
    'GTA' => 'V',    # Valina
    'GTC' => 'V',    # Valina
    'GTG' => 'V',    # Valina
    'GTT' => 'V',    # Valina
    'TAA' => '_',    # Stop
    'TAC' => 'Y',    # Tirosina
    'TAG' => '_',    # Stop
    'TAT' => 'Y',    # Tirosina
    'TCA' => 'S',    # Serina
    'TCC' => 'S',    # Serina
    'TCG' => 'S',    # Serina
    'TCT' => 'S',    # Serina
    'TGA' => '_',    # Stop
    'TGC' => 'C',    # Cisteina
    'TGG' => 'W',    # Triptófano
    'TGT' => 'C',    # Cisteina
    'TTA' => 'L',    # Leucina
    'TTC' => 'F',    # Fenilalanina
    'TTG' => 'L',    # Leucina
    'TTT' => 'F',    # Fenilalanina
);
 
 
 
### Variables ##################################################################
my $fichero1;                           # Fichero para estadísticas
my $fichero2;                           # Fichero de la proteína
my $fichero_salida;                     # Fichero de salida con el informe
my $ancho;                              # Ancho de salida del informe
 
my %codones_populares;                  # Qué codones son más frecuentes,
                                        # por cada aminoácido
 
 
### Argumentos de entrada ######################################################
@ARGV == 4 or die "Uso: $0 <fichero 1> <fichero 2> <fichero salida> <ancho>\n";
 
($fichero1, $fichero2, $fichero_salida, $ancho) = @ARGV;
 
$ancho % $ANCHOSEQ == 0 or die "ERROR: El ancho no es múltiplo de $ANCHOSEQ\n";
-f $fichero1            or die "ERROR: No encuentro el primer fichero\n";
-f $fichero2            or die "ERROR: No encuentro el segundo fichero\n";
 
 
 
### Leer fichero 1 #############################################################
my ($secuencia_nucleotidos,             # Secuencias de nucleótidos
    $secuencia_aminoacidos)             # Secuencias de aminoácidos
    = leer_fichero_FASTA($fichero1)     # Leemos el primer fichero
    ;
 
 
# Los codones son conjuntos de tres nucleótidos.
# Pasamos los codones, desde una secuencia en una cadena de caracteres, a un arreglo
my @secuencia_codones = $secuencia_nucleotidos =~ /(...)/g;
 
 
# La secuencia de aminoácidos consta de letras, individuales
my @secuencia_aminoacidos = split //, $secuencia_aminoacidos;
 
 
### Cálculo del codón que más veces codifica cada aminoácido ###################
#
# Guardaremos las estadísticas en una estructura de un hash de hash:
#
#   $codones_populares{aminoacido}->{codón que lo codifica} = veces que lo hace
#
for (my $i = 0; $i < @secuencia_codones; $i++ ) {
    my $codon_leido      = $secuencia_codones    [$i];
    my $aminoacido_leido = $secuencia_aminoacidos[$i] || '';
 
    # Comprobamos que los codones leídos corresponden a sus aminoácidos
#    if ($AMINOACIDO{$codon_leido} ne $aminoacido_leido) {
#        die "ERROR: No corresponde la secuencia de codones con la de aminoácidos.\n"
#          . "ERROR: Fallo en el codón [$codon_leido] correspondiente al aminoácido de la posición [$i].\n"
#          . "ERROR: Leído [$aminoacido_leido]. Debería ser [$AMINOACIDO{$codon_leido}]\n"
#          ;
#    }
 
    # Estadística:
    # Sumamos una aparición más al codón que codifica al aminoácido
    $codones_populares{$aminoacido_leido}{$codon_leido}++;
}
 
 
### Filtrado ###################################################################
#
# Nos quedamos con el codón más popular, por cada aminoácido
#
# Modificamos la estructura del propio hash, para que guarde solo la del codón
# más popular (la de uso más frecuente)
#
for my $aminoacido (keys %codones_populares) {  # Para todos los encontrados
 
    my $mas_popular;                            # Nombre del codón más frecuente
    my $record = 0;                             # Número de veces que aparece
 
                                                # Vemos todos los codones
    while (my ($codon, $veces) = each %{$codones_populares{$aminoacido}}) {
 
        if ($veces > $record) {                 # Encontrado uno más popular
            $mas_popular = $codon;
            $record      = $veces;
        }
    }
 
    # Modificamos la estructura, a un simple hash,
    # guardando solo el nombre del codón con más frecuencia
    $codones_populares{$aminoacido} = $mas_popular;
}
 
 
 
### Leer fichero 2 #############################################################
my ($proteina_nucleotidos,                      # Secuencia de nucleótidos
    $proteina_aminoacidos)                      # Correspondientes aminoácidos
    = leer_fichero_FASTA($fichero2)             # Leer del segundo fichero
    ;
 
 
### Obtención de la proteína usando los codones más populares ##################
my $proteina_sintetica
    = join '',                                  # Unimos los codones
      map  { $codones_populares{$_} || 'EEE' }  # mas populares que corresponden
      split //,                                 # a cada
      $proteina_aminoacidos                     # aminoácido
    ;
 
 
### Creación de la secuencia de diferencias entre las dos ######################
#
# Un poco de matemáticas: hacemos la operación OR-exclusivo entre las dos.
# El resultado es \0 (cero) en las posiciones que sean iguales y distinto de \0
# en las diferentes.
#
my $proteina_diferencias = $proteina_sintetica ^ $proteina_nucleotidos;
 
# Los nucleótidos diferentes de cero los marcamos con un asterisco
my $numero_diferencias = $proteina_diferencias =~ tr/\0/*/c;
 
# Los demás, a espacio en blanco
$proteina_diferencias =~ tr/\0/ /;
 
 
 
### Salida #####################################################################
#
# Un fichero de texto, hacia el fichero con nombre $fichero_salida.
# El $ancho indica el ancho de la fila a mostrar, que será dividida en bloques
# de $ANCHOSEQ nucleótidos.
# La presentación será: 3 líneas por cada bloque de $ancho nucleótidos:
# * La parte de la secuencia del segundo fichero
# * Las diferencias
# * La parte de la secuencia del segundo fichero generada con las frecuencias de
# codones del primero.
# Las líneas serán precedidas por el índice de la posición de comienzo de la
# secuencia.
#
open my $REPORT, q[>], $fichero_salida
    or die "ERROR: No puedo escribir en $fichero_salida: $!\n";
 
# Cabecera
if ($numero_diferencias) {
    print $REPORT "En total hay $numero_diferencias cambios\n\n";
}
else {
    print $REPORT "No hay ningún cambio\n\n";
}
 
# Formato de las líneas de salida
my $formato_salida = "%4d %s\n";
 
# Toda la secuencia de nucleótidos, la dividimos en partes de tamaño $ancho
for (my $i = 0; $i < length $proteina_nucleotidos; $i += $ancho) {
 
    # Partes de la secuencias a mostrar, en cada línea
    my $parte_nucleotidos = substr($proteina_nucleotidos, $i, $ancho);
    my $parte_diferencias = substr($proteina_diferencias, $i, $ancho);
    my $parte_sintetica   = substr($proteina_sintetica,   $i, $ancho);
 
    # Insertar espacios cada $ANCHOSEQ caracteres para aumentar la legibilidad
    # Calculamos la posición del último espacio, hacia la derecha, y vamos
    # retrocediendo en $ANCHOSEQ posiciones, hacia la izquierda
    for (my $j = ($ancho/$ANCHOSEQ-1)*$ANCHOSEQ; $j; $j -= $ANCHOSEQ) {
        substr($parte_nucleotidos, $j, 0) = ' ';
        substr($parte_diferencias, $j, 0) = ' ';
        substr($parte_sintetica,   $j, 0) = ' ';
    }
 
    # Imprimir
    printf $REPORT $formato_salida, $i+1, $parte_nucleotidos;
    printf $REPORT $formato_salida, $i+1, $parte_diferencias;
    printf $REPORT $formato_salida, $i+1, $parte_sintetica;
 
    print $REPORT "\n";
}
 
 
close $REPORT;
 
### Fin del programa
 
 
### Subrutinas #################################################################
sub leer_fichero_FASTA {
    ## Lectura de un fichero FASTA
    # Argumentos de entrada
    my $fichero = shift;                # Nombre del fichero a leer
    #
    # Salida
    #   Secuencias de nucleótidos y de aminoácidos leídas del fichero
 
    ### Lectura del fichero
    # Se supone que el fichero sigue la estructura siguiente:
    # Pares de secuencias, en formato FASTA, de las cuales
    #   la primera secuencia del par es la representación en codones
    #   la segunda secuencia del par es la representación en aminoácidos
    #
    # Se producirá un error si
    #   No hay un número par de secuencias
    #
    my $en_seccion_aminoacidos = 1; # Indica el tipo de secuencia que estamos
                                    # leyendo: 0 para codones, 1 para aminoac.
                                    # Empieza en 1 porque la primera sec. será
                                    # con codones, por lo que hacemos creer que
                                    # venimos de una sección de aminoácidos
 
    my $secuencia_nucleotidos;      # Aquí, los nucleótidos
    my $secuencia_aminoacidos;      # Aquí, los aminoácidos
 
 
    open my $FASTA, q[<], $fichero
        or die "ERROR: No puedo abrir el fichero $fichero: $!\n";
 
    while (my $linea = <$FASTA>) {
        chomp $linea;
 
        # Nueva sección
        if ($linea =~ /^>/) {
            $en_seccion_aminoacidos = not $en_seccion_aminoacidos;
            next;
        }
 
        # Secuencia normal
        if ($en_seccion_aminoacidos) {
            $secuencia_aminoacidos .= $linea;
        }
        else {
            $secuencia_nucleotidos .= $linea;
        }
    }
 
    close $FASTA;
 
    # Última comprobación
    if (not $en_seccion_aminoacidos) {
        die "ERROR: No hay un número par de secuencias en el fichero $fichero\n";
    }
 
    # Cosmética: todo mayúsculas
    $secuencia_nucleotidos = uc $secuencia_nucleotidos;
    $secuencia_aminoacidos = uc $secuencia_aminoacidos;
 
    # Resultado
    return $secuencia_nucleotidos, $secuencia_aminoacidos;
}
 
 
### Fin del código
 
__END__
Coloreado en 0.017 segundos,  usando GeSHi 1.0.8.4

Foro - Perl en Español

Bioinformática: comparación de aminoácidos, por codones

Bioinformática: comparación de aminoácidos, por codones

Publicidad

Re: Bioinformática: comparación de aminoácidos, por codones

¿Quién está conectado?