Foro - Perl en Español

por **igarrom** » 2014-02-03 16:13 @717

Disculpa, explorer. Como bien dices, esas líneas no deberían estar dispuestas de esa forma puesto que esos identificadores no están relacionados entre sí. Es un error.

A       B               C               D

Gene_1  103485499       550923130       489128835

Gene_2  103485500       550923131       489128838

Gene_3  103485501       550923133       489128842

Gene_4  103485502       550923134       489128844

Gene_5  103485503       550923135       489128847

Gene_6  103485504       550923136       489128849

Gene_7  103485505       550923137       489128852

Gene_8  103485506       550923138       489128854

Gene_9  103485507       550923139       489128857

Gene_10 103485508       550923140       489128860Coloreado en 0.000 segundos,  usando GeSHi 1.0.8.4

Y estos los ficheros de entrada comp:

Sintáxis: [ Descargar ] [ Ocultar ]

Using text Syntax Highlighting

B               A

103485500       Gene_1

103485501       Gene_5

103485502       Gene_8

103485503       Gene_2

C               A

550923135       Gene_10

550923136       Gene_1

550923137       Gene_8

C               B

550923138       103485504

550923139       103485508

D               A

489128852       Gene_4

489128854       Gene_10

489128857       Gene_8

489128860       Gene_3

D               B

489128838       103485507

489128842       103485506

489128844       103485503

D               C

489128849       550923140Coloreado en 0.000 segundos,  usando GeSHi 1.0.8.4

El resultado esperado sería el siguiente:

Sintáxis: [ Descargar ] [ Ocultar ]

Using text Syntax Highlighting

A         B          C           D

Gene_1    103485500

Gene_1                550923136

Gene_2    103485503

Gene_3                           489128860

Gene_4                           489128852

Gene_5    103485501

Gene_6

Gene_7

Gene_8    103485502

Gene_8               550923137

Gene_8                           489128857

Gene_9

Gene_10                          489128854

Gene_10              550923135

          103485499

          103485503              489128844

          103485504  550923138

          103485505

          103485506              489128842

          103485507              489128838

          103485508  550923139

                     550923130

                     550923131

                     550923133

                     550923134

                     550923140    489128849

                                  489128835

                                  489128847Coloreado en 0.000 segundos,  usando GeSHi 1.0.8.4

Aunque en este ejemplo no existen grupos de 3 o 4 ortólogos (solo aparecen parejas entre 2 organismos), en mi fichero real hay casos de ese tipo, en el que A tiene ortólogo con B y C y a su vez B y C lo son entre sí. Tanto en los ficheros .comp como en el fichero de salida, las parejas de ortólogos tendrán que estar separadas por un tabulador.

Muchas gracias,

Inma

por **igarrom** » 2014-02-20 04:36 @234

Hola, Perleros,

¿Alguna idea sobre cómo realizar el programa? Una cosa que no he mencionado y que quizás facilite las cosas es que los ficheros de entrada no tienen que estar obligatoriamente organizados como he mencionado (aunque en principio a mi es la mejor organización que se me ha ocurrido). Con esto quiero decir que si proponéis una diferente forma de ir añadiendo la información al programa será bienvenida.

Sigo probando cosas (sobre todo usando "hashes"), pero nada... no consigo el resultado que quiero, me resulta un problema muy complejo y necesito organizar los datos como dije.

Saludos y muchas gracias de antemano.

Inma

por **explorer** » 2014-02-20 12:39 @569

Es que el asunto sí que es complejo: se trata de una operación de conjuntos de elementos.

Si A está relacionado con B, y B está relacionado con C, entonces solo podemos escribir los tres genes en la misma línea de salida, si A está también relacionado con C.

Si no, tendremos que sacar dos líneas de salida, correspondientes a las dos relaciones. Y el tema se complica si tenemos que mirar cuatro archivos (o generalizar para N archivos).

Le estoy dando vueltas desde hace días, pero ahora estoy ocupado con algo gordo. Cuando tenga un rato, lo vuelvo a mirar. Mientras, a ver si alguien más se anima a resolverlo.

por **explorer** » 2014-03-20 17:37 @775

Una pregunta:

Si A está relacionado con B, B está relacionado con C, y C está relacionado con D, ¿es necesario que también estén relacionados A con C y A con D y B con D?

Preguntado de otra manera: los ortólogos forman una estrella de relaciones (todos con todos), o solo es necesaria una relación en anillo?

por **igarrom** » 2014-03-24 04:30 @229

Hola, explorer.

En la mayoría de los casos si A está relacionado con B, B está relacionado con C, y C está relacionado con D, A estará relacionado con C y con D y B con D. Pero cabe la posibilidad de que no sea así.

Hemos considerado ortólogas dos proteínas cuando en el "Reciprocal Best-Hits BLAST" o blast cruzado, el alineamiento ha tenido una identidad mayor del 30% y un porcentaje de cobertura de las proteínas (de ambas) mayor del 70 %. Por este motivo, si A está relacionado con B porque entre ambas la identidad es del 31 % y la cobertura del 71 % y B está relacionada con C porque entre ambas la identidad es del 31 % y la cobertura del 71 %, puede ocurrir que entre A y C también haya una cobertura del 71 % pero la identidad sea del 29 %, en cuyo caso no se considerarán ortólogos.

Sé que puede ser un poco enrevesada la explicación, espero que se entienda.

Millones de gracias por la ayuda.

por **explorer** » 2014-04-01 07:23 @349

Sí, sí que entiendo eso, lo del porcentaje de coincidencia.

El tema es cómo encontrar relaciones entre los genes.

A ver... otra pregunta...

Cuando estamos hablando de relaciones de genes entre A y B, a lo que nos referimos es a 'un' solo gen de A, ¿no? En más detalle:

si A está relacionado con B, y
si B está relacionado con C

entonces, son ortólogos si A está relacionado con C, pero además, el gen de A es el mismo con el que se relacionaba con B. ¿Es así? ¿O vale cualquier gen de A?

Y lo mismo con cuatro: A, B, C, D. Para que sean ortólogos, deben existir 6 relaciones (A<=>B, A<=>C, A<=>D, B<=>C, B<=>D y C<=>D), siendo A uno solo y el mismo gen en todas las relaciones en las que aparece la letra A. ¿Es así?

por **igarrom** » 2014-04-01 07:49 @367

Correcto, explorer, es exactamente como lo has descrito.

por **explorer** » 2014-04-05 23:25 @018

Esta es una posible solución.

He modificado los archivos de entrada, para que existan dos conjuntos de tres ortólogos, y uno de cuatro.

Los archivos A, B, C, y D .id son los mismos que antes. Lo que cambian son los archivos de relaciones:

Sintáxis: (B_vs_A.comp) [ Descargar ] [ Ocultar ]

Using text Syntax Highlighting

103485500       Gene_1

103485501       Gene_5

103485502       Gene_8

103485503       Gene_2Coloreado en 0.000 segundos,  usando GeSHi 1.0.8.4

Sintáxis: (C_vs_A.comp) [ Descargar ] [ Ocultar ]

Using text Syntax Highlighting

550923136       Gene_1

550923137       Gene_8

550923135       Gene_10

550923131       Gene_1Coloreado en 0.000 segundos,  usando GeSHi 1.0.8.4

Sintáxis: (C_vs_B.comp) [ Descargar ] [ Ocultar ]

Using text Syntax Highlighting

550923138       103485504

550923139       103485508

550923131       103485500Coloreado en 0.000 segundos,  usando GeSHi 1.0.8.4

Sintáxis: (D_vs_A.comp) [ Descargar ] [ Ocultar ]

Using text Syntax Highlighting

489128860       Gene_3

489128852       Gene_4

489128857       Gene_8

489128847       Gene_8

489128854       Gene_10

489128838       Gene_1Coloreado en 0.000 segundos,  usando GeSHi 1.0.8.4

Sintáxis: (D_vs_B.comp) [ Descargar ] [ Ocultar ]

Using text Syntax Highlighting

489128844       103485503

489128842       103485506

489128838       103485507

489128857       103485508

489128838       103485500Coloreado en 0.000 segundos,  usando GeSHi 1.0.8.4

Sintáxis: (D_vs_C.comp) [ Descargar ] [ Ocultar ]

Using text Syntax Highlighting

489128849       550923140

489128847       550923137

489128857       550923139

489128838       550923131Coloreado en 0.000 segundos,  usando GeSHi 1.0.8.4

Entonces, con el siguiente programa,

Sintáxis: (ortologos.pl) [ Descargar ] [ Ocultar ]

Using perl Syntax Highlighting

#!/usr/bin/perl
#
# Ortólogos
#
# Joaquín Ferrero, 20140406
#
# Dada una serie de archivos que contienen una relación de genes de organismos,
# y otra serie de archivos que indican los ortólogos entre los genes de distintos
# organismos, obtener una tabla con el resumen de ortólogos entre todos los organismos.
#
use v5.14;
use autodie;
 
use File::Basename;
use File::Slurp;
 
### Constantes
my $DIR = './ortologos';
 
 
### Leer archivos con datos ####################################################
my @nombres_archivos = glob("$DIR/*.id");
 
my @organismos;                                                 # nombres de los organismos
my %genes_de_organismo;                                         # genes por cada organismo
 
for my $archivo (@nombres_archivos) {
    my $organismo = basename($archivo, '.id');
 
    push @organismos, $organismo;                               # el nombre es a partir del archivo
 
    my @genes = read_file($archivo, chomp => 1);                # leemos sus genes
 
    $genes_de_organismo{$organismo} = [ @genes ];               # y los guardamos
}
 
@organismos = sort @organismos;                                 # ordenación alfabética
 
# traductor, de nombre de organismo a número de columna dentro de la tabla
my %organismo_a_columna = map { $organismos[$_] => $_ } 0 .. $#organismos;
 
 
### Leer archivos de relaciones ################################################
my %ortologos;
 
for my $archivo (glob("$DIR/*.comp")) {                         # para todos los archivos
    my($org1, $org2) = $archivo =~ /(\w+)_vs_(\w+)/;            # organismos que se relacionan
 
    my @relaciones = read_file($archivo, chomp => 1);           # leemos relaciones
 
    for (@relaciones) {
        my($gen1, $gen2) = split;                               # los dos genes que intervienen
 
        ## La estructura a crear es la de un hash de arrays
        ##
        ## %ortologos{ ortologo } => [ ortologo [, ortologo, ...] ]
        ##
        ## Por cada ortólogo, guardamos un array anónimo con el resto de ortólogos
        ## con los que se relaciona.
        ##
        ## Los ortólogos tienen la forma: "$organismo;$gen"
        ##
        push @{$ortologos{"$org1;$gen1"}}, "$org2;$gen2";       # creamos dos relaciones:
        push @{$ortologos{"$org2;$gen2"}}, "$org1;$gen1";       # (relación conmutativa)
    }
 
}
 
### Análisis ###################################################################
my %visto;                                                      # bandera para evitar repeticiones
 
for my $organismo (@organismos) {                               # para todos los organismos
 
    for my $gen (@{$genes_de_organismo{$organismo}}) {          # para todos sus genes
        next if $visto{"$organismo;$gen"}++;                    # excepto si ya lo hemos visto
                                                                # (caso de un gen que ya participaba en un ortólogo)
 
        ## Iniciamos un bucle que pintará todas las relaciones encontradas
        ## para ese organismo y gen. Debemos repetirlo mientras existan ortólogos posibles para ese gen.
        ## Es importante que sea do(), y no while(): es para los casos de genes sueltos (sin relación con los demás,
        ## el bucle debe ejecutarse al menos una vez, para que salga en salida).
        do {
            ## Buscamos la mayor relación de ortólogos, a partir de ese gen, de ese organismo
            my @ortologos_encontrados = busca_maximo_ortologos("$organismo;$gen");
 
            ## Pintar los ortólogos encontrados
            my @fila = ('') x @organismos;                      # inicializamos a columnas vacías
 
            for my $ort (@ortologos_encontrados) {              # para todos los encontrados
                my($org,$gen) = split /[;]/, $ort;
                $fila[$organismo_a_columna{$org}] = $gen;       # ponemos el gen en la columna correspondiente
            }
            say join '', map { sprintf "%-11s", $_ } @fila;     # y pintamos
 
            ## Borrar los ortólogos encontrados.
            ## Debemos destruir los ortólogos que hemos encontrado y pintado,
            ## para que no influyen en el resto de búsquedas (proceso destructivo)
 
            ## El proceso consiste en eliminar los ortólogos que hemos encontrado
            ## de los array de ortólogos relacionados con cada ortólogo encontrado
            ## (esto no queda muy claro, ¿verdad?)
            my $filtro = join '|', map{ quotemeta } @ortologos_encontrados;     # patrón de exp. reg.
 
            for my $ortologo (@ortologos_encontrados) {                         # para todos los ortólogos encontrados
                my($org,$gen) = split /[;]/, $ortologo;
 
                next if not exists $ortologos{$ortologo};                       # caso especial:
                                                                                # ese ortólogo ya fue borrado antes
 
                # le quitamos a ese ortólogo, todos los ortólogos con los que se relaciona,
                # que intervienen en el conjunto de ortólogos encontrados
                $ortologos{$ortologo} = [ grep {! /$filtro/} @{$ortologos{$ortologo}} ];
 
                # Si ese ortólogo ya no se relaciona con más ortólogos
                if (@{$ortologos{$ortologo}} == 0) {
                    delete $ortologos{$ortologo};               # lo borramos
                    $visto{$ortologo}++;                        # lo marcamos para no procesarlo más
                }
            }
        } while ($ortologos{"$organismo;$gen"});                # y repetimos hasta que no haya más relaciones
                                                                # de ese ortólogo
    }
}
 
### Proceso recursivo de búsqueda de la máxima cantidad de ortólogos relacionados
## Vamos llamando a la propia función con un ortólogo más cada vez, hasta que no puede más.
## Como argumento recibe un array con los ortólogos relacionados encontrados hasta ahora.
## Devuelve la mayor relación encontrada, o la misma que recibió como argumento, si no puede mejorarla.
sub busca_maximo_ortologos {
    my @ortologos_temporal = @_;
 
    ## Paso 1. Ver si el último ortólogo temporal tiene relación con todos los ortólogos anteriores
    my $ultimo_ortologo = $ortologos_temporal[-1];
 
    if (not exists $ortologos{$ultimo_ortologo}) {              # caso de no existir ninguna relación
        return @ortologos_temporal;                             # regresamos con lo que tenemos
    }
 
    my $nrelaciones = 0;                                        # contaremos el número de relaciones entre ortólogos
    my %organismos_vistos;                                      # cada organismo contará una sola vez
 
    # sacamos el listado de ortólogos con los que se relaciona el último ortólogo
    my %ortologos_ultimo_ortologo = map { $_ => 1 } @{$ortologos{$ultimo_ortologo}};
 
    for my $i (0 .. $#ortologos_temporal-1) {                   # para todos los ortólogos anteriores al último
        my $ortologo_anterior = $ortologos_temporal[$i];
        my($org,$gen) = split /[;]/, $ortologo_anterior;
 
        # si es de un organismo que ya cuenta con un ortólogo entre los ortólogos que estamos analizando
        if ($organismos_vistos{$org}++) {
            delete $ortologos_ultimo_ortologo{$ortologo_anterior};      # no lo vamos a visitar
        }
 
        # si existe una relación entre el último ortólogo, y el anterior
        if ($ortologos_ultimo_ortologo{$ortologo_anterior}) {
            $nrelaciones++;                                             # contamos una relación mas
            delete $ortologos_ultimo_ortologo{$ortologo_anterior};      # y no lo visitaremos (ya lo fue)
        }
    }
 
    # para que el último ortólogo sea legal, debe tener tantas relaciones como ortólogos anteriores a él
    if ($nrelaciones != @ortologos_temporal-1) {                        # no hay relaciones completas con los anteriores
        return @ortologos_temporal[0 .. $#ortologos_temporal-1];        # devolvemos todos menos el último, por ser feo
    }
 
    ## Paso 2. Probar con los ortólogos relacionados con el último ortólogo
    # Hacemos un bucle por todos los ortólogos con los que se relaciona el último ortólogo,
    # y que todavía no han sido visitados
    my @maximo_ortologos;                                               # Variables para recordar el máximo encontrado
 
    for my $prueba_ortologo (keys %ortologos_ultimo_ortologo) {         # para todos los que quedan por visitar
 
        # vemos si ese ortólogo de prueba marca un nuevo record
        my @ortologos_encontrados = busca_maximo_ortologos(@ortologos_temporal, $prueba_ortologo);
 
        if (@maximo_ortologos < @ortologos_encontrados) {               # sí
            @maximo_ortologos = @ortologos_encontrados;                 # lo recordaremos
 
            last if @maximo_ortologos == @organismos;                   # caso de encontrar un ortólogo máximo (extremo)
                                                                        # no hace falta seguir buscando
        }
    }
 
    # Paso 3. Elegir la combinación mayor de lo encontrado hasta ahora
    if (@maximo_ortologos) {                                            # si hemos superado lo encontrado hasta ahora
        return @maximo_ortologos;                                       # devolvemos el récord de ortólogos encontrados
    }
    else {                                                              # si no
        return @ortologos_temporal;                                     # devolvemos lo encontrado hasta ahora
    }
}
 
__END__
Coloreado en 0.006 segundos,  usando GeSHi 1.0.8.4

sale esto:

Sintáxis: [ Descargar ] [ Ocultar ]

Using text Syntax Highlighting

Gene_1     103485500  550923131  489128838  

Gene_1                550923136             

Gene_2     103485503                        

Gene_3                           489128860  

Gene_4                           489128852  

Gene_5     103485501                        

Gene_6                                      

Gene_7                                      

Gene_8                550923137  489128847  

Gene_8                           489128857  

Gene_8     103485502                        

Gene_9                                      

Gene_10                          489128854  

Gene_10               550923135             

           103485499                        

           103485503             489128844  

           103485504  550923138             

           103485505                        

           103485506             489128842  

           103485507             489128838  

           103485508  550923139  489128857  

                      550923130             

                      550923133             

                      550923134             

                      550923140  489128849  

                                 489128835Coloreado en 0.000 segundos,  usando GeSHi 1.0.8.4

Bueno, al menos en este caso, funciona.

En el mundo real... es otra cosa.

Foro - Perl en Español

Organizar información de ortólogos

Re: Organizar información de ortólogos

Publicidad

Re: Organizar información de ortólogos

Re: Organizar información de ortólogos

Re: Organizar información de ortólogos

Re: Organizar información de ortólogos

Re: Organizar información de ortólogos

Re: Organizar información de ortólogos

Re: Organizar información de ortólogos

Re: Organizar información de ortólogos

Re: Organizar información de ortólogos

¿Quién está conectado?