Buenas, este es el ejercicio que nos han mandado:
Previamente es necesario estudiar los temas de "Entrada y salida en archivos" y "procesamiento básico de textos".
Posteriormente hay que copiar los cuatro archivos que están en:
http://bip.weizmann.ac.il/course/prog/a ... 4_sources/ y que corresponden a la descripción textual de un gen, presentes en la base de datos UniGene.
El objetivo de la práctica es:
Escribir un programa que reciba el nombre del gen, abra el archivo correspondiente, extraiga el listado de los tejidos en los que el gen aparece ("se expresa") y lo guarde en un archivo cuyo nombre será el nombre del gen y la extensión "express".
El formato del archivo de salida será el siguiente (ejemplo para el gen TGM1):
Using text Syntax Highlighting
TGM1
1. Esophagus
2. Germ Cell
3. Larynx
4. Pancreas
5. Uterus
6. colon
7. head_neck
8. uterus
Coloreado en 0.000 segundos, usando
GeSHi 1.0.8.4
El programa tendrá que ejecutarse cuatro veces, una por gen ('ADH2', 'CEACAM4', 'TGM1', 'GLDC'), de forma que al final obtengamos cuatro archivos de salida con extensión "express".
Tened en cuenta que:
1) La lista de tejidos aparece después de la palabra clave 'EXPRESS'.
2) Numerar los tejidos a partir del 1 y que no hay asignaciones vacías en la lista de tejidos.
3) Utilizar las funciones "substring" y "split".
El problema que tengo, es que no sé por dónde empezar, y tengo que entregarlo mañana.
¡Espero que alguien pueda ayudarme!
Un saludo, y gracias por antelación!