Tengo un archivo con varias secuencias de proteína. Necesito extraer un segmento de esa secuencia que siempre empieza con C y termina con TF; bueno, en algunos casos es con SF o LF. Necesito extraer ese pedazo de secuencia y el nombre de la misma.
Por ejemplo...
>secuencia1
MMNPOTADCQQYYTRPWTF
>secuencia2
URPACMNLEPPOAAADKRRCMQ
HTHWPPYTF
y la salida más o menos así
- Código: Seleccionar todo
secuencia1 CQQYYTRPWTF
secuencia1 CMQHTHWPPYTF
Si alguien me pudiera ayudar se los agradecería mucho.
Simplemente quiero saber cómo extraer un fragmento de un texto. Es con expresiones regulares... pero en ocasiones ese fragmento va a estar en 2 líneas... ¿cómo lo puedo extraer de esa manera? Para que me respete lo que estoy buscando y que tome en cuenta nueva línea en caso de que haya.
Gracias