Foro - Perl en Español

por **koteo** » 2010-02-18 07:03 @335

Ante todo disculparme, ya que no me he presentado antes. Estoy empezando Perl, sé programar algo de shell y lo básico en Ruby, y Perl, lo mínimo. Tengo que hacer un parser de logs específico, en el que necesito pasar lo que parseo a un csv.

1º Empezar a leer un fichero línea a línea.

2º Encontrar un timestamp y convertirlo a un formato más ameno y guardarlo en un array

3º Continuar hasta encontrar una línea que empiece por freeMemory.value y guardarlo en un array.

4º Continuar hasta encontrar una línea que empiece por totalMemory.value y guardarlo en un array.

5º Continuar leyendo y ver si puedo encontrar totalMemory.value o freeMemory.value antes de ver un timestamp; si no lo encuentro entonces, volver al punto 2.

6º Guardar la información en un csv.

Antes de nada, quiero decir que no pido que me hagan los deberes, pero sí una pequeña orientación en cómo hacerlo e incluso algún ejemplo que pueda ayudarme.

Ejemplo del texto a procesar:
http://pastebin.com/m3b01ddfc

El caso es que debo restar totalMemory.value - freeMemory.value (como podéis ver, entre timestamp y timestamp hay 4 líneas que hacen referencia a freeMemory y totalMemory (en el orden que lo digo). Encuentro freeMemory, encuentro totalMemory y hago la resta (totalMemory - freeMemory), ahora repito esto hasta encontrar el timestamp. En este fichero de log es así, pero si obtengo el log de otros servidores tienen 2 líneas solo entre timestamp y timestamp (1 de freeMemory y otra de totalMemory).

El csv quedaría algo similar a esto:

timestamp_personalizado;resultado_resta_OC4J1;resultado_resta_OC4J2 (si en el log hubiese 4 entradas)

Sintáxis: [ Descargar ] [ Ocultar ]

Using text Syntax Highlighting

23-02-2010 14:00;234000;220000

23-02-2010 14:05;223000;300000Coloreado en 0.000 segundos,  usando GeSHi 1.0.8.4

Espero haberme explicado.

Gracias.

#!/usr/bin/perl
use strict;
use warnings;
use diagnostics;
 
use DateTime::Format::HTTP;
 
my @linea_salida;                                           # Guarda la información de una línea
 
 
while (my $linea_entrada = <>) {                            # Para todas las líneas del fichero
 
    chomp $linea_entrada;                                   # Quitamos el carácter de fin de línea
 
    my @campos = split " ", $linea_entrada;                 # Dividimos la línea por los espacios en blanco
 
    if (@campos == 6) {                                     # Si hay 6 campos, suponemos que sí es una fecha
 
        my $fecha;
 
        eval {                                              # Intentamos interpretarla
            $fecha
                = DateTime::Format::HTTP->parse_datetime($linea_entrada);
        };
 
        if ($fecha) {                                       # Sí que es una fecha
 
            salida_linea();                                 # Sacamos la línea guardada antes
 
            @linea_salida                                   # Inicializamos la nueva línea de salida
                = $fecha->date() . ' ' . $fecha->time();
        }
    }
 
    # Ver si es un campo interesante
    if ($campos[0]  and  $campos[0] =~ /(freeMemory|totalMemory)\.value/) {
 
        if ($1 eq 'freeMemory') {                               # Si es un freeMemory,
            push @linea_salida, $campos[1];                     # lo guardamos
        }
        else {                                                  # Si es un totalMemory,
            $linea_salida[-1] = $campos[1] - $linea_salida[-1]; # calculamos la diferencia
        }
    }
}
 
salida_linea();                                             # Si queda alguna línea por salir
 
 
sub salida_linea {                                          # Sacar una línea en pantalla
    if (@linea_salida) {
        print join(';', @linea_salida), "\n";               # Unimos los campos con ';'
    }
}
 
__END__
2010-01-30 16:20:01;337270;334603
2010-01-30 16:25:01;339659;337260
Coloreado en 0.004 segundos,  usando GeSHi 1.0.8.4

por **koteo** » 2010-02-18 14:43 @654

¡¡ Muchas gracias !!

¡Voy a probar!

por **explorer** » 2010-02-18 16:08 @714

Esta es otra variación, usando expresiones regulares.

Sintáxis: [ Descargar ] [ Ocultar ]

Using perl Syntax Highlighting

#!/usr/bin/perl
use strict;
use warnings;
use diagnostics;
 
use DateTime::Format::HTTP;
 
## Definición de la gramática
my $palabra   = qr/[\w:]+/;                                 # Una palabra
my $timestamp = qr/(?:$palabra\s){6}/;                      # Un timestamp son 6 palabras
 
## Leer el fichero
my $log = do { undef $/; open F,'<m3b01ddfc.txt'; <F> };    # Leemos el log entero
 
## Procesamos, mientras existan $timestamp
while($log =~ /^ ($timestamp) (.*?) (?=$timestamp|\z)/simogx) {
    my ($fecha, $resto) = ($1, $2);
 
    eval {                                                  # Intentamos interpretarla
        $fecha
            = DateTime::Format::HTTP->parse_datetime($fecha);
    };
 
    next if not $fecha;                                     # No es una fecha, seguimos
 
    print $fecha->date() . ' ' . $fecha->time();            # Nuevo timestamp
 
                                                            # Valores de la memoria
                                                            # que pueden repetirse varias veces
    while ($resto =~ /freeMemory\.value: \s+ (\d+) .*? totalMemory\.value: \s+ (\d+)/simogx) {
 
        print ';' . ($2 - $1);
    }
 
    print "\n";                                             # Fin de línea
}
 
__END__
2010-01-30 16:20:01;337270;334603
2010-01-30 16:25:01;339659;337260
Coloreado en 0.002 segundos,  usando GeSHi 1.0.8.4

por **koteo** » 2010-02-18 16:21 @723

Este último código me gusta mucho y funciona a la perfección, aunque este regexp, no lo entiendo muy bien:

$log =~ /^ ($timestamp) (.*?) (?=$timestamp|\z)/simogx)

Voy a leer un rato.

por **explorer** » 2010-02-18 16:31 @730

En las líneas 9 y 10 definimos qué es un timestamp: un conjunto de 6 palabras, separados por espacios en blanco.

La expresión regular

$log =~ /^ ($timestamp) (.*?) (?=$timestamp|\z)/simogx

quiere decir:
* A lo largo de todo (/g) el $log, buscamos...

* Que al principio de la línea (^), buscamos un timestamp, y lo guardamos en $1 con la ayuda de los paréntesis de captura,

* seguido de "algo" (.*?) que guardaremos en $2,

* y seguido por, o bien, otro timestamp o (|) el final de todo el fichero (\z). Esto último no lo capturamos (?=), porque lo dejaremos para la siguiente vuelta.

Además, indicamos las siguientes opciones:
* /s - consideramos a $log como una gran cadena de caracteres
* /m - dentro de ella, hay caracteres de final de línea
* /i - nos da igual que sea mayúsculas o minúsculas
* /o - queremos que Perl solo haga una vez la interpretación de esta regex
* /x - para hacerla más clara la regex, nos permite separar con espacios los distintos campos de la regex

por **koteo** » 2010-02-18 16:42 @737

Mil gracias de nuevo.

Ahora me toca intentar hacerlo a mi, aunque sea de otra manera.

Un saludo.

por **koteo** » 2010-02-20 20:25 @892

Hola, estaba probando a hacerlo a "mi manera", pero creo que lo estoy complicando demasiado.

Lo que he intentado es: meter el timestamp en un array, freeMemory en otro y totalMemory en otro; luego unir freeMemory y totalMemory para así restarlo, pero la verdad que no sé cómo hacerlo, o bien antes de unirlo hacer la operación de restarlo. Sé que es más rebuscado de esta forma, pero no se me ocurrían más formas de hacerlo.

¿Qué opináis? La forma en la que estaba intentando hacerlo, ¿ se suele usar ?

Muchas gracias.

Sintáxis: [ Descargar ] [ Ocultar ]

Using perl Syntax Highlighting

use strict;                                                                                                                                 
use warnings;                                                                                                                               
 
# DEFINO LOS REGEXP
my $timestmp = '\w+\s\w+\s\d+\s\d+\:\d+\:\d+\s\w+\s\d+';
 
# Descriptor de ficheros (Entrada y Salida)
my $filenamein = "metrics.30.log";
my $filenameout = "$filenamein.out";
 
#
# Aquí declaramos los array
my @timestamp;
my @freem;
my @totmem;
#
#my @resta = map { $totmem[1] - $freem[1] } ( 0 .. $#totmem );
#
 
open (FILEIN, "<", $filenamein) || die "Problems: $!";
#open (FILEOUT, "> $filenameout") || die "Problems: $!";
 
while (<FILEIN>) {
    if ($_ =~ /^$timestmp/){
        push @timestamp, [ split ];
    }
    elsif ($_ =~ /^freeMemory\.value:\s+(\d+)/) {
        push @freem, [ split ];
    }
    elsif ($_ =~ /^totalMemory.value/) {
        push @totmem, [ split ];
    }
 
}
 
 
my @res = sort(@freem,@totmem);
 
foreach(@res) {
    print "@$_[1]\n";
}
 
__END__
Coloreado en 0.002 segundos,  usando GeSHi 1.0.8.4

por **explorer** » 2010-02-20 21:38 @943

Hay un problema si se hace de esta manera: según los requerimientos, pueden aparecer más de una vez la pareja freeMemory y totalMemory, con lo que al final del bucle tienes un número distinto de elementos de estos arreglos con respecto al arreglo de timestamp.

Lo podrías solventar usando alguna especie de bandera, que indique que acabas de leer un timestamp y que entonces, los pares de parejas de valores que has leído antes les puedes procesar.

Así es como funciona mi primera solución, solo que en vez de tres arreglos uso solo uno (por abreviar, pero es lo mismo que si tuviera tres). Uso solamente uno porque en realidad está guardando ya la salida: primero el timestamp y luego parejas de valores, de los que primero guardo el freeMemory y luego lo reemplazo por la diferencia entre el totalMemory y el valor almacenado antes.

Bueno... son trucos para usar la menor cantidad posible de variables y memoria, pero que en ocasiones hacen el código más difícil de leer.

Lo que no entiendo es el uso de sort(), que haces en la línea 37.

En caso de duda, usa el módulo Data::Dumper, para ver el contenido de una variable.

Foro - Perl en Español

Consulta sobre procesamiento de texto

Consulta sobre procesamiento de texto

Publicidad

Re: Consulta sobre procesamiento de texto

Re: Consulta sobre procesamiento de texto

Re: Consulta sobre procesamiento de texto

Re: Consulta sobre procesamiento de texto

Re: Consulta sobre procesamiento de texto

Re: Consulta sobre procesamiento de texto

Re: Consulta sobre procesamiento de texto

Re: Consulta sobre procesamiento de texto

Re: Consulta sobre procesamiento de texto

¿Quién está conectado?