Traducción de secuencia y su complementaria
Publicado: 2013-04-19 21:24 @933
Hola, soy nuevo en esto del Perl y llevo días documentándome y buscando pero no consigo hacer un programa. Tengo que hacer un programa con Perl que me abra un fichero en formato FASTA, me traduzca una secuencia de proteína a DNA y después buscar la complementaria. También me tendría que buscar la ID de la secuencia.
Un ejemplo del archivo FASTA que tendría sería:
De momento lo que he hecho es borrar los 4 primeros caracteres (>sp|) pero no sé cómo hacerlo para borrar lo siguiente... del símbolo '|' a un número, en este caso el 1, pero podría ser otro número (>sp|P22607|FGFR3_HUMAN Fibroblast growth factor receptor 3 OS=Homo sapiens GN=FGFR3 PE=1 SV=1).
Una vez hecho esto tendría que poner la palabra "ID" delante de cada código de la proteína... Ej.: ID: P22607
Sé que para pasar a DNA y hacer la complementaria tendría que hacer algo así:
$_=~ s/I/auu/g;
$_=~ s/a/t/g;
También me piden que para cada aminoácido haga un porcentaje; me explico: si por ejemplo el aminoácido I se puede traducir a auu, aau y aaa tendría que salirme al azar de por ejemplo una probabilidad de que salgan auu, 10 %; aau, 40 %; y aaa, 50 %.
Espero haberme explicado y con solo alguna ayuda ya intentaré hacerlo yo.
Gracias.
Un ejemplo del archivo FASTA que tendría sería:
Using text Syntax Highlighting
>sp|P22607|FGFR3_HUMAN Fibroblast growth factor receptor 3 OS=Homo sapiens GN=FGFR3 PE=1 SV=1
MGAPACALALCVAVAIVAGASSESLGTEQRVVGRAAEVPGPEPGQQEQLVFGSGDAVELS
CPPPGGGPMGPTVWVKDGTGLVPSERVLVGPQRLQVLNASHEDSGAYSCRQRLTQRVLCH
FSVRVTDAPSSGDDEDGEDEAEDTGVDTGAPYWTRPERMDKKLLAVPAANTVRFRCPAAG
NPTPSISWLKNGREFRGEHRIGGIKLRHQQWSLVMESVVPSDRGNYTCVVENKFGSIRQT
YTLDVLERSPHRPILQAGLPANQTAVLGSDVEFHCKVYSDAQPHIQWLKHVEVNGSKVGP
DGTPYVTVLKTAGANTTDKELEVLSLHNVTFEDAGEYTCLAGNSIGFSHHSAWLVVLPAE
EELVEADEAGSVYAGILSYGVGFFLFILVVAAVTLCRLRSPPKKGLGSPTVHKISRFPLK
RQVSLESNASMSSNTPLVRIARLSSGEGPTLANVSELELPADPKWELSRARLTLGKPLGE
GCFGQVVMAEAIGIDKDRAAKPVTVAVKMLKDDATDKDLSDLVSEMEMMKMIGKHKNIIN
LLGACTQGGPLYVLVEYAAKGNLREFLRARRPPGLDYSFDTCKPPEEQLTFKDLVSCAYQ
VARGMEYLASQKCIHRDLAARNVLVTEDNVMKIADFGLARDVHNLDYYKKTTNGRLPVKW
MAPEALFDRVYTHQSDVWSFGVLLWEIFTLGGSPYPGIPVEELFKLLKEGHRMDKPANCT
HDLYMIMRECWHAAPSQRPTFKQLVEDLDRVLTVTSTDEYLDLSAPFEQYSPGGQDTPSS
SSSGDDSVFAHDLLPPAPPSSGGSRT
>sp|Q9I8X3|FGFR3_DANRE Fibroblast growth factor receptor 3 OS=Danio rerio GN=fgfr3 PE=2 SV=1
MVPLCLLLYLATLVFPPVYSAHLLSPEPTDWVSSEVEVFLEDYVAGVGDTVVLSCTPQDF
LLPIVWQKDGDAVSSSNRTRVGQKALRIINVSYEDSGVYSCRHAHKSMLLSNYTVKVIDS
LSSGDDEDYDEDEDEAGNGNAEAPYWTRSDRMEKKLLAVPAANTVKFRCPAAGNPTPSIH
WLKNGKEFKGEQRMGGIKLRHQQWSLVMESAVPSDRGNYTCVVQNKYGSIKHTYQLDVLE
RSPHRPILQAGLPANQTVVVGSDVEFHCKVYSDAQPHIQWLKHIEVNGSQYGPNGAPYVN
VLKTAGINTTDKELEILYLTNVSFEDAGQYTCLAGNSIGYNHHSAWLTVLPAVEMEREDD
YADILIYVTSCVLFILTMVIIILCRMWINTQKTLPAPPVQKLSKFPLKRQVSLESNSSMN
SNTPLVRIARLSSSDGPMLPNVSELELPSDPKWEFTRTKLTLGKPLGEGCFGQVVMAEAI
GIDKEKPNKPLTVAVKMLKDDGTDKDLSDLVSEMEMMKMIGKHKNIINLLGACTQDGPLY
VLVEYASKGNLREYLRARRPPGMDYSFDTCKIPNETLTFKDLVSCAYQVARGMEYLASKK
CIHRDPAARNVLVTEDNVMKIADFGLARDVHNIDYYKKTTNGRLPVKWMAPEALFDRVYT
HQSDVWSYGVLLWEIFTLGGSPYPGIPVEELFKLLKEGHRMDKPANCTHELYMIMRECWH
AVPSQRPTFRQLVEDHDRVLSMTSTDEYLDLSVPFEQYSPTCPDSNSTCSSGDDSVFAHD
PLPEEPCLPKHHHSNGVIRT
>sp|Q91287|FGFR3_PLEWA Fibroblast growth factor receptor 3 OS=Pleurodeles waltl GN=FGFR3 PE=2 SV=1
MLVWLCGLCLVTLAGGRSAARLPLTEGRPTADFLPGDASLVEELLFGTGDTIELSCTTPG
SSVSVVWFKDGISVDPPTWSHTGQKLLKIINVSYDDSGVYSCKARQSSEVLRNVTVRVTD
SPSSGDDEDDDEESESANAPKFTRPEWMEKKLLAVPAANTVRFRCPAAGKPTPSITWLKN
GKEFKGEHRIGGIKLRHQQWSLVMESVVPSDRGNYTCVVANKYGTIRETYTLDVLERTPH
RPILQAGFRSNKTVVVGSDVEFHCKVYSDAQPHIQWLKHVEVNGSKFGPDGNPYVTVLKT
AGVNTSDKELEIQFLRNVTFEDAGEYTCLAGNSIGYSHHSAWLTVLPPAEPVPDVDTSVS
ILAAAGCVAVVILVVIIIFTYKMKMPSKKTMNTATVHKVSKFPLKRQVSLESNSSMNSNT
PLVRITRLSSSDGPMLANVSELELPADPKWELSRSRLTLGKPLGEGCFGQVVMADAVGIE
KDKPNKATSVAVKMLKDDATDKDLSDLVSEMEMMKMIGKHKNIINLLGACTQDGPLYVLV
EYASKGNLREYLRARRPPGMDYSFDTCKLPEEQLTFKDLVSCAYQVARGMEYLASQKCIH
RDLAARNVLVTDDNVMKIADFGLARDVHNIDYYKKTTNGRLPVKWMAPEALFDRVYTHQS
DVWSFGVLLWEIFTLGGSPYPGIPVEELFKLLKEGHRMDKPANCTHELYMIMRECWHAVP
SQRPTFKQLVEDLDRVLTVTSTDEYLDLSVPFEQYSPACPDSHSSCSSGDDSVFAHDLPE
EPCLPKHQQYNGVIRT
>sp|O42127|FGFR3_XENLA Fibroblast growth factor receptor 3 OS=Xenopus laevis GN=fgfr3 PE=2 SV=1
MVSVNGVPAARLPVTLPGEDRASRKAPDYLMVEQPPFDELMYTIGETIELSCAAEDASTT
TKWCKDGIGIVPNNRTSTRQGLLKIINVSSDDSGIYSCRLWHSTEILRNFTIRVTDLPSS
GDDEDDDDDDDDETEDREPPRWTQPERMEKKLIAVPAANTIRFRCPAAGNPTPTIHWLKN
GKEFRGEHRIGGIKLRHQQWSLVMESVVPSDKGNYTCVVENKYGSIRQTYQLDVLERSSH
RPILQAGLPGNQTVVLGSDVEFHCKVYSDAQPHIQWLKHVEVNGSKYGPDGDPYVSVLQS
FINGTEVDSTLSLKNVTETNEGQYVCRANNFIGVAEASFWLHIYKPAPAEPVEKALTTSS
SSITVLIVVTSTIVFILLVIIVITHLMKVPSKKSMTAPPVHKVSKFPLKRQQVSLESNSS
MNSNTPLVRITHLSSSDGTMLANVSELGLPLDPKWELLRSRLTLGKPLGEGCFGQVVMAE
AIGIDKERPNKPATVAVKMLKDDATDKDLSDLVSEMEMMKMIGKHKNIINLLGACTQDGP
LYVLVEYASKGSLREYLKARRPPGMDYSFDACKIPAEQLTFKDLVSCAYQVARGMEYLAS
QKCIHRDLAARNVLVTDDNVMKIADFGLARDIHNIDYYKKTTNGRLPVKWMAPEALFDRI
YTHHSDVWSYGVLLWEIFTLGGSPYPGIPVEELFKLLKEGHRMDKPANCTHELYMIMREC
WHAVPSQRPAFKQLVEDLDRVLTVTSTNEYLDLSVAFEQYSPPSQDSHSTCSSGDDSVFA
HDILPDEPCLPKHQQHNGAIPT
>sp|Q61851|FGFR3_MOUSE Fibroblast growth factor receptor 3 OS=Mus musculus GN=Fgfr3 PE=1 SV=1
MVVPACVLVFCVAVVAGATSEPPGPEQRVVRRAAEVPGPEPSQQEQVAFGSGDTVELSCH
PPGGAPTGPTVWAKDGTGLVASHRILVGPQRLQVLNASHEDAGVYSCQHRLTRRVLCHFS
VRVTDAPSSGDDEDGEDVAEDTGAPYWTRPERMDKKLLAVPAANTVRFRCPAAGNPTPSI
SWLKNGKEFRGEHRIGGIKLRHQQWSLVMESVVPSDRGNYTCVVENKFGSIRQTYTLDVL
ERSPHRPILQAGLPANQTAILGSDVEFHCKVYSDAQPHIQWLKHVEVNGSKVGPDGTPYV
TVLKTAGANTTDKELEVLSLHNVTFEDAGEYTCLAGNSIGFSHHSAWLVVLPAEEELMET
DEAGSVYAGVLSYGVVFFLFILVVAAVILCRLRSPPKKGLGSPTVHKVSRFPLKRQVSLE
SNSSMNSNTPLVRIARLSSGEGPVLANVSELELPADPKWELSRTRLTLGKPLGEGCFGQV
VMAEAIGIDKDRTAKPVTVAVKMLKDDATDKDLSDLVSEMEMMKMIGKHKNIINLLGACT
QGGPLYVLVEYAAKGNLREFLRARRPPGMDYSFDACRLPEEQLTCKDLVSCAYQVARGME
YLASQKCIHRDLAARNVLVTEDNVMKIADFGLARDVHNLDYYKKTTNGRLPVKWMAPEAL
FDRVYTHQSDVWSFGVLLWEIFTPGGPSPYPGIPVEELFKLLKEGHRMDKPASCTHDLYM
IMRECWHAVPSQRPTFKQLVEDLDRILTVTSTDEYLDLSVPFEQYSPGGQDTPSSSSSGD
DSVFTHDLLPPGPPSNGGPRT
>sp|P18460|FGFR3_CHICK Fibroblast growth factor receptor 3 OS=Gallus gallus GN=FGFR3 PE=2 SV=1
MRAAWGSVWCLCLAAAVGALPAARRRGAERSGGQAAEYLRSETAFLEELVFGSGDTIELS
CNTQSSSVSVFWFKDGIGIAPSNRTHIGQKLLKIINVSYDDSGLYSCKPRHSNEVLGNFT
VRVTDSPSSGDDEDDDDESEDTGVPFWTRPDKMEKKLLAVPAANTVRFRCPAGGNPTPTI
YWLKNGKEFKGEHRIGGIKLRHQQWSLVMESVVPSDRGNYTCVVENKYGNIRHTYQLDVL
ERSPHRPILQAGLPANQTVVVGSNVEFHCKVYSDAQPHIQWLKHVEVNGSKYGPDGTPYV
TVLKTAGVNTTDKELEILYLRNVTFEDAGEYTCLAGNSIGFSHHSAWLTVLPAEELMEMD
DSGSVYAGILSYGTGLVLFILVLVIVIICRMKMPNKKAMNTTTVQKVSKFPLKRQQVSLE
SNSSMNSNTPLVRITRLSSSDGPMLANVSELELPPDPKWELARSRLTLGKPLGEGCFGQV
VMAEAIGIDKDKPNKAITVAVKMLKDDATDKDLSDLVSEMEMMKMIGKHKNIINLLGACT
QDGPLYVLVEYASKGNLREYLRARRPPGMDYSFDTCKLPEEQLTFKDLVSCAYQVARGME
YLASQKCIHRDLAARNVLVTEDNVMKIADFGLARDVHNIDYYKKTTNGRLPVKWMAPEAL
FDRVYTHQSDVWSFGVLLWEIFTLGGSPYPGIPVEELFKLLKEGHRMDKPANCTHDLYMI
MRECWHAVPSQRPTFKQLVEDLDRVLTMTSTDEYLDLSVPFEQYSPAGQDTHSTCSSGDD
SVFAHDLLPDEPCLPKHVPCNGVIRT
MGAPACALALCVAVAIVAGASSESLGTEQRVVGRAAEVPGPEPGQQEQLVFGSGDAVELS
CPPPGGGPMGPTVWVKDGTGLVPSERVLVGPQRLQVLNASHEDSGAYSCRQRLTQRVLCH
FSVRVTDAPSSGDDEDGEDEAEDTGVDTGAPYWTRPERMDKKLLAVPAANTVRFRCPAAG
NPTPSISWLKNGREFRGEHRIGGIKLRHQQWSLVMESVVPSDRGNYTCVVENKFGSIRQT
YTLDVLERSPHRPILQAGLPANQTAVLGSDVEFHCKVYSDAQPHIQWLKHVEVNGSKVGP
DGTPYVTVLKTAGANTTDKELEVLSLHNVTFEDAGEYTCLAGNSIGFSHHSAWLVVLPAE
EELVEADEAGSVYAGILSYGVGFFLFILVVAAVTLCRLRSPPKKGLGSPTVHKISRFPLK
RQVSLESNASMSSNTPLVRIARLSSGEGPTLANVSELELPADPKWELSRARLTLGKPLGE
GCFGQVVMAEAIGIDKDRAAKPVTVAVKMLKDDATDKDLSDLVSEMEMMKMIGKHKNIIN
LLGACTQGGPLYVLVEYAAKGNLREFLRARRPPGLDYSFDTCKPPEEQLTFKDLVSCAYQ
VARGMEYLASQKCIHRDLAARNVLVTEDNVMKIADFGLARDVHNLDYYKKTTNGRLPVKW
MAPEALFDRVYTHQSDVWSFGVLLWEIFTLGGSPYPGIPVEELFKLLKEGHRMDKPANCT
HDLYMIMRECWHAAPSQRPTFKQLVEDLDRVLTVTSTDEYLDLSAPFEQYSPGGQDTPSS
SSSGDDSVFAHDLLPPAPPSSGGSRT
>sp|Q9I8X3|FGFR3_DANRE Fibroblast growth factor receptor 3 OS=Danio rerio GN=fgfr3 PE=2 SV=1
MVPLCLLLYLATLVFPPVYSAHLLSPEPTDWVSSEVEVFLEDYVAGVGDTVVLSCTPQDF
LLPIVWQKDGDAVSSSNRTRVGQKALRIINVSYEDSGVYSCRHAHKSMLLSNYTVKVIDS
LSSGDDEDYDEDEDEAGNGNAEAPYWTRSDRMEKKLLAVPAANTVKFRCPAAGNPTPSIH
WLKNGKEFKGEQRMGGIKLRHQQWSLVMESAVPSDRGNYTCVVQNKYGSIKHTYQLDVLE
RSPHRPILQAGLPANQTVVVGSDVEFHCKVYSDAQPHIQWLKHIEVNGSQYGPNGAPYVN
VLKTAGINTTDKELEILYLTNVSFEDAGQYTCLAGNSIGYNHHSAWLTVLPAVEMEREDD
YADILIYVTSCVLFILTMVIIILCRMWINTQKTLPAPPVQKLSKFPLKRQVSLESNSSMN
SNTPLVRIARLSSSDGPMLPNVSELELPSDPKWEFTRTKLTLGKPLGEGCFGQVVMAEAI
GIDKEKPNKPLTVAVKMLKDDGTDKDLSDLVSEMEMMKMIGKHKNIINLLGACTQDGPLY
VLVEYASKGNLREYLRARRPPGMDYSFDTCKIPNETLTFKDLVSCAYQVARGMEYLASKK
CIHRDPAARNVLVTEDNVMKIADFGLARDVHNIDYYKKTTNGRLPVKWMAPEALFDRVYT
HQSDVWSYGVLLWEIFTLGGSPYPGIPVEELFKLLKEGHRMDKPANCTHELYMIMRECWH
AVPSQRPTFRQLVEDHDRVLSMTSTDEYLDLSVPFEQYSPTCPDSNSTCSSGDDSVFAHD
PLPEEPCLPKHHHSNGVIRT
>sp|Q91287|FGFR3_PLEWA Fibroblast growth factor receptor 3 OS=Pleurodeles waltl GN=FGFR3 PE=2 SV=1
MLVWLCGLCLVTLAGGRSAARLPLTEGRPTADFLPGDASLVEELLFGTGDTIELSCTTPG
SSVSVVWFKDGISVDPPTWSHTGQKLLKIINVSYDDSGVYSCKARQSSEVLRNVTVRVTD
SPSSGDDEDDDEESESANAPKFTRPEWMEKKLLAVPAANTVRFRCPAAGKPTPSITWLKN
GKEFKGEHRIGGIKLRHQQWSLVMESVVPSDRGNYTCVVANKYGTIRETYTLDVLERTPH
RPILQAGFRSNKTVVVGSDVEFHCKVYSDAQPHIQWLKHVEVNGSKFGPDGNPYVTVLKT
AGVNTSDKELEIQFLRNVTFEDAGEYTCLAGNSIGYSHHSAWLTVLPPAEPVPDVDTSVS
ILAAAGCVAVVILVVIIIFTYKMKMPSKKTMNTATVHKVSKFPLKRQVSLESNSSMNSNT
PLVRITRLSSSDGPMLANVSELELPADPKWELSRSRLTLGKPLGEGCFGQVVMADAVGIE
KDKPNKATSVAVKMLKDDATDKDLSDLVSEMEMMKMIGKHKNIINLLGACTQDGPLYVLV
EYASKGNLREYLRARRPPGMDYSFDTCKLPEEQLTFKDLVSCAYQVARGMEYLASQKCIH
RDLAARNVLVTDDNVMKIADFGLARDVHNIDYYKKTTNGRLPVKWMAPEALFDRVYTHQS
DVWSFGVLLWEIFTLGGSPYPGIPVEELFKLLKEGHRMDKPANCTHELYMIMRECWHAVP
SQRPTFKQLVEDLDRVLTVTSTDEYLDLSVPFEQYSPACPDSHSSCSSGDDSVFAHDLPE
EPCLPKHQQYNGVIRT
>sp|O42127|FGFR3_XENLA Fibroblast growth factor receptor 3 OS=Xenopus laevis GN=fgfr3 PE=2 SV=1
MVSVNGVPAARLPVTLPGEDRASRKAPDYLMVEQPPFDELMYTIGETIELSCAAEDASTT
TKWCKDGIGIVPNNRTSTRQGLLKIINVSSDDSGIYSCRLWHSTEILRNFTIRVTDLPSS
GDDEDDDDDDDDETEDREPPRWTQPERMEKKLIAVPAANTIRFRCPAAGNPTPTIHWLKN
GKEFRGEHRIGGIKLRHQQWSLVMESVVPSDKGNYTCVVENKYGSIRQTYQLDVLERSSH
RPILQAGLPGNQTVVLGSDVEFHCKVYSDAQPHIQWLKHVEVNGSKYGPDGDPYVSVLQS
FINGTEVDSTLSLKNVTETNEGQYVCRANNFIGVAEASFWLHIYKPAPAEPVEKALTTSS
SSITVLIVVTSTIVFILLVIIVITHLMKVPSKKSMTAPPVHKVSKFPLKRQQVSLESNSS
MNSNTPLVRITHLSSSDGTMLANVSELGLPLDPKWELLRSRLTLGKPLGEGCFGQVVMAE
AIGIDKERPNKPATVAVKMLKDDATDKDLSDLVSEMEMMKMIGKHKNIINLLGACTQDGP
LYVLVEYASKGSLREYLKARRPPGMDYSFDACKIPAEQLTFKDLVSCAYQVARGMEYLAS
QKCIHRDLAARNVLVTDDNVMKIADFGLARDIHNIDYYKKTTNGRLPVKWMAPEALFDRI
YTHHSDVWSYGVLLWEIFTLGGSPYPGIPVEELFKLLKEGHRMDKPANCTHELYMIMREC
WHAVPSQRPAFKQLVEDLDRVLTVTSTNEYLDLSVAFEQYSPPSQDSHSTCSSGDDSVFA
HDILPDEPCLPKHQQHNGAIPT
>sp|Q61851|FGFR3_MOUSE Fibroblast growth factor receptor 3 OS=Mus musculus GN=Fgfr3 PE=1 SV=1
MVVPACVLVFCVAVVAGATSEPPGPEQRVVRRAAEVPGPEPSQQEQVAFGSGDTVELSCH
PPGGAPTGPTVWAKDGTGLVASHRILVGPQRLQVLNASHEDAGVYSCQHRLTRRVLCHFS
VRVTDAPSSGDDEDGEDVAEDTGAPYWTRPERMDKKLLAVPAANTVRFRCPAAGNPTPSI
SWLKNGKEFRGEHRIGGIKLRHQQWSLVMESVVPSDRGNYTCVVENKFGSIRQTYTLDVL
ERSPHRPILQAGLPANQTAILGSDVEFHCKVYSDAQPHIQWLKHVEVNGSKVGPDGTPYV
TVLKTAGANTTDKELEVLSLHNVTFEDAGEYTCLAGNSIGFSHHSAWLVVLPAEEELMET
DEAGSVYAGVLSYGVVFFLFILVVAAVILCRLRSPPKKGLGSPTVHKVSRFPLKRQVSLE
SNSSMNSNTPLVRIARLSSGEGPVLANVSELELPADPKWELSRTRLTLGKPLGEGCFGQV
VMAEAIGIDKDRTAKPVTVAVKMLKDDATDKDLSDLVSEMEMMKMIGKHKNIINLLGACT
QGGPLYVLVEYAAKGNLREFLRARRPPGMDYSFDACRLPEEQLTCKDLVSCAYQVARGME
YLASQKCIHRDLAARNVLVTEDNVMKIADFGLARDVHNLDYYKKTTNGRLPVKWMAPEAL
FDRVYTHQSDVWSFGVLLWEIFTPGGPSPYPGIPVEELFKLLKEGHRMDKPASCTHDLYM
IMRECWHAVPSQRPTFKQLVEDLDRILTVTSTDEYLDLSVPFEQYSPGGQDTPSSSSSGD
DSVFTHDLLPPGPPSNGGPRT
>sp|P18460|FGFR3_CHICK Fibroblast growth factor receptor 3 OS=Gallus gallus GN=FGFR3 PE=2 SV=1
MRAAWGSVWCLCLAAAVGALPAARRRGAERSGGQAAEYLRSETAFLEELVFGSGDTIELS
CNTQSSSVSVFWFKDGIGIAPSNRTHIGQKLLKIINVSYDDSGLYSCKPRHSNEVLGNFT
VRVTDSPSSGDDEDDDDESEDTGVPFWTRPDKMEKKLLAVPAANTVRFRCPAGGNPTPTI
YWLKNGKEFKGEHRIGGIKLRHQQWSLVMESVVPSDRGNYTCVVENKYGNIRHTYQLDVL
ERSPHRPILQAGLPANQTVVVGSNVEFHCKVYSDAQPHIQWLKHVEVNGSKYGPDGTPYV
TVLKTAGVNTTDKELEILYLRNVTFEDAGEYTCLAGNSIGFSHHSAWLTVLPAEELMEMD
DSGSVYAGILSYGTGLVLFILVLVIVIICRMKMPNKKAMNTTTVQKVSKFPLKRQQVSLE
SNSSMNSNTPLVRITRLSSSDGPMLANVSELELPPDPKWELARSRLTLGKPLGEGCFGQV
VMAEAIGIDKDKPNKAITVAVKMLKDDATDKDLSDLVSEMEMMKMIGKHKNIINLLGACT
QDGPLYVLVEYASKGNLREYLRARRPPGMDYSFDTCKLPEEQLTFKDLVSCAYQVARGME
YLASQKCIHRDLAARNVLVTEDNVMKIADFGLARDVHNIDYYKKTTNGRLPVKWMAPEAL
FDRVYTHQSDVWSFGVLLWEIFTLGGSPYPGIPVEELFKLLKEGHRMDKPANCTHDLYMI
MRECWHAVPSQRPTFKQLVEDLDRVLTMTSTDEYLDLSVPFEQYSPAGQDTHSTCSSGDD
SVFAHDLLPDEPCLPKHVPCNGVIRT
Coloreado en 0.003 segundos, usando GeSHi 1.0.8.4
De momento lo que he hecho es borrar los 4 primeros caracteres (>sp|) pero no sé cómo hacerlo para borrar lo siguiente... del símbolo '|' a un número, en este caso el 1, pero podría ser otro número (>sp|P22607|FGFR3_HUMAN Fibroblast growth factor receptor 3 OS=Homo sapiens GN=FGFR3 PE=1 SV=1).
Una vez hecho esto tendría que poner la palabra "ID" delante de cada código de la proteína... Ej.: ID: P22607
Sé que para pasar a DNA y hacer la complementaria tendría que hacer algo así:
$_=~ s/I/auu/g;
$_=~ s/a/t/g;
También me piden que para cada aminoácido haga un porcentaje; me explico: si por ejemplo el aminoácido I se puede traducir a auu, aau y aaa tendría que salirme al azar de por ejemplo una probabilidad de que salgan auu, 10 %; aau, 40 %; y aaa, 50 %.
Espero haberme explicado y con solo alguna ayuda ya intentaré hacerlo yo.
Gracias.