Foro - Perl en Español

por **Fernando** » 2011-04-16 08:29 @395

¿Qué tal, gente? Es mi primer post en el foro. Soy nuevo en el mundo de Perl.

Estoy renegando con un script en Perl desde hace unos días ya. Es por eso que les pido su ayuda. El problema es el siguiente:

Tengo el log de dansguardian (filtro de contenidos) con el siguiente formato:

Sintáxis: [ Descargar ] [ Ocultar ]

Using text Syntax Highlighting

"2011.4.14 6:15:01","-","192.168.203.1","http://www.google.com","","GET",""

"2011.4.14 6:15:01","-","192.168.203.5","http://www.otro.com","*DENIED","GET",""Coloreado en 0.000 segundos,  usando GeSHi 1.0.8.4

Lo que necesito es dividirlo en campos según "", para que quede algo así (tomo de ejemplo la primer línea):

Sintáxis: [ Descargar ] [ Ocultar ]

Using text Syntax Highlighting

2011.4.14 6:15:01

-

192.168.203.1

http://www.google.com

(espacio en blanco)

GET

(espacio en blanco)Coloreado en 0.000 segundos,  usando GeSHi 1.0.8.4

El problema que tengo es que no logro hacer que me reconozca como campo los que se encuentran vacíos (los que figuran en el código de arriba como 'espacio en blanco'), es decir, los que tiene este formato: ,"" .

Como luego paso todo esto a una base de datos MySQL, necesito poder separar correctamente cada campo, ya que dependiendo de la consulta esos campos pueden estar vacíos o llenos (ver línea 2 de log dansguardian: ,"*DENIED", ).

Muchas gracias por su ayuda.

Saludos./

Fernando.-

#!/usr/bin/perl
use strict;
use warnings;
use diagnostics;
 
my @lineas = (
    q("2011.4.14 6:15:01","-","192.168.203.1","http://www.google.com","","GET","")     ,
    q("2011.4.14 6:15:01","-","192.168.203.5","http://www.otro.com","*DENIED","GET",""),
);
 
for my $linea (@lineas) {
    my @campos = $linea =~ m/"(.*?)"/g;    
    print join('|', @campos), "\n";
}
Coloreado en 0.001 segundos,  usando GeSHi 1.0.8.4

por **Fernando** » 2011-04-16 14:24 @641

¡¡Muchas gracias!!

¡Era justo lo que necesitaba! ¡Te agradezco la buena onda!

Saludos./

por **Fernando** » 2011-04-19 09:05 @420

¿Qué tal, gente?

Les cuento el problema que tengo:

Armé un script en Perl que con la ayuda de uds., que procesa un archivo de LOG (de dansguardian) y va escribiendo en una base de datos. Lo hace en tiempo real. FIFO

Sintáxis: [ Descargar ] [ Ocultar ]

Using perl Syntax Highlighting

[...]
open( FIFO, "< /var/log/dansguardian/access.log" )
    or die "Error abriendo log FIFO: $!\n";
LOG: while (1) {
    my $message = <FIFO>;
    next LOG unless defined $message;
    my ($dt,  $ident, $ip,   $url,  $resul, $met,    $size, $wei,
        $cat, $fg,    $code, $mime, $cl,    $fgname, $bw
    ) = $message =~ m/"(.*?)"/g;
    my @dt = split( /\s+/, $dt );
    $dt[0] =~ s/\./\-/g;
    my $d = $dt[0];
    my $t = $dt[1];
    my ( $proto, $dom, $uri, $query, $frag ) = uri_split($url);
    $sth->execute( $d, $t, $ip, $dom, $url, $resul, $met, $size, $wei, $fg,
        $code );
    usleep(1000);
}
 
[...]
Coloreado en 0.001 segundos,  usando GeSHi 1.0.8.4

Hace lo que quiero que haga. Pero el tema es que tengo permanentemente el micro al 99%.

Lo estuve investigando un poco y muchos tienen el mismo problema con este tipo de scripts. Entonces, lo que quiero hacer es otro script, que en lugar de pasar la info a la DB en tiempo real, lo haga cada 1 o 2 minutos (proceso en cron).

El tema es que el archivo puede pesar bastante, y yo necesito ir pasando las diferencias, es decir las últimas líneas, con lo cual debería leer una marca (supongamos MARK1 que puede ser una fecha:hora) y pasar a la base de datos desde ahí hasta el final. Luego vuelvo a poner la marca en el final (o guardo algún dato relevante de la última línea), y cuando se vuelva a ejecutar el script se repetiría el proceso.

Pensé en guardar esa marca en la misma base de datos, pero es irrelevante para el problema en cuestión.

Estuve leyendo un poco cómo hacerlo, pero mi duda es cómo puedo hacer para guardar en memoria (o archivo) para trabajar en el pasaje a la base de datos solamente la parte que necesito, y no todo el archivo.

Y otra duda que tengo es cómo almacenar algún dato (MARK1 o fecha:hora) de la última línea leída para utilizar como marca la próxima vez que se ejecute el script. Probé con un while(), pero las variables del while() no me las toma fuera de éste.

Bueno, muchas gracias de antemano.

por **explorer** » 2011-04-19 10:21 @473

Fernando escribiste:Armé un script en Perl que con la ayuda de uds., que procesa un archivo de LOG (de dansguardian) y va escribiendo en una base de datos. Lo hace en tiempo real. FIFO

Hace lo que quiero que haga. Pero el tema es que tengo permanentemente el micro al 99%.

El problema es que has creado un bucle sin fin, en donde no indicas en ningún sitio (salvo con usleep()) que el procesador puede tomarse un descanso hasta que haya nuevos datos. En cambio, el procesador está volcado en tu tarea, continuamente.

Fernando escribiste:Lo estuve investigando un poco y muchos tienen el mismo problema con este tipo de scripts. Entonces, lo que quiero hacer es otro script, que en lugar de pasar la info a la DB en tiempo real, lo haga cada 1 o 2 minutos (proceso en cron).

El tema es que el archivo puede pesar bastante, y yo necesito ir pasando las diferencias, es decir las últimas líneas, con lo cual debería leer una marca (supongamos MARK1 que puede ser una fecha:hora) y pasar a la base de datos desde ahí hasta el final. Luego vuelvo a poner la marca en el final (o guardo algún dato relevante de la última línea), y cuando se vuelva a ejecutar el script se repetiría el proceso.

Pensé en guardar esa marca en la misma base de datos, pero es irrelevante para el problema en cuestión.

Estuve leyendo un poco cómo hacerlo, pero mi duda es cómo puedo hacer para guardar en memoria (o archivo) para trabajar en el pasaje a la base de datos solamente la parte que necesito, y no todo el archivo.

Y otra duda que tengo es cómo almacenar algún dato (MARK1 o fecha:hora) de la última línea leída para utilizar como marca la próxima vez que se ejecute el script. Probé con un while(), pero las variables del while() no me las toma fuera de éste.

Bueno, sí, esa es una forma de hacerlo, pero la "marca" que normalmente se usa en registros que van creciendo es ir guardando el tamaño del fichero en ese momento. Ejemplo:

Entramos en el bucle
Leemos la última posición leída en el registro access.log
Mirar a ver si esa última posición es menor, mayor o igual que el actual tamaño del registro
Si son iguales, terminamos el bucle (no hubo cambios)
Si la última posición leída es mayor que el tamaño del registro, es posible que el registro haya sido inicializado (el servicio del que depende ha sido reinicializado, por ejemplo, o se ha producido una rotación de ficheros de registro). En ese caso, ponemos el valor de posición a 0 y comenzamos a procesar el registro desde el principio
Sino, es que la última posición leída es menor que el tamaño del fichero. Entonces, abrimos el fichero con open(), nos posicionamos con seek() en la última posición leída, y procesamos el resto del registro
Una vez terminado de procesar, solo tenemos que guardar la actual posición de lectura del fichero de registro para la siguiente vuelta. Ese dato lo podemos saber con la función tell().
Repetir bucle

Quedaría pendiente de resolver el caso de qué hacer si se detecta un cambio por rotación de ficheros de registro, y si se debe, o no, procesar las últimas líneas del registro anterior. Por ejemplo, los registros de actividad de Apache, pasan de llamarse access.log a access.log.0, a las 06:30 del domingo. Pueden quedarse algunas líneas sin procesar en el access.log.0. Dependerá de lo vital que sea la información, tendremos que procesarlas o no.

Hay otra forma de resolver esto...

Para estas situaciones en las cuales hay que estar pendiente de la actividad de un registro que va creciendo y/o que puede ir rotando con el tiempo, uso el módulo File::Tail, que se ocupa de hacer todo lo que hemos comentado antes, y de forma muy cómoda para nosotros.

Al principio del programa hago un listado de los registros que voy a monitorizar:

Sintáxis: [ Descargar ] [ Ocultar ]

Using perl Syntax Highlighting

my @ficheros_a_vigilar = qw(
    /var/log/exim4/mainlog
    /var/log/mail/mail.log
    /var/log/syslog
);
Coloreado en 0.002 segundos,  usando GeSHi 1.0.8.4

luego, creo tantos objetos File::Tail como ficheros tengo:

Sintáxis: [ Descargar ] [ Ocultar ]

Using perl Syntax Highlighting

my @ft;
for my $fichero (@ficheros_a_vigilar) {
    push @ft , File::Tail->new(name => $fichero, debug => $debug);
}
Coloreado en 0.001 segundos,  usando GeSHi 1.0.8.4

entro en el bucle, infinito, naturalmente, y lo primero que hago es llamar a File::Tail para que vigile la actividad de todos los ficheros:

Sintáxis: [ Descargar ] [ Ocultar ]

Using perl Syntax Highlighting

...;
while ("forever") {                                               # bucle infinito
    my ($nfound,$timeleft,@pending)                               # File::Tail esperará $timeout segundos por la
        = File::Tail::select(undef, undef, undef, $timeout, @ft); # actividad en los ficheros @ft, guardándolos
                                                                  # en @pending. $nfound indicará cuántos son, y
                                                                  # $timeleft indica cuántos segundos quedaban
                                                                  # para el siguiente $timeout
 
    unless ($nfound) {                                            # si no hubo actividad
        say "PING" if $debug;                                     # ocurrió un timeout                
    }
    else {                                                        # si sí hubo actividad
        for (@pending) {                                          # para todos los ficheros con cambios
            my $log   = $_->{input};                              # nombre del fichero con cambios
            my $linea = $_->read;                                 # nueva línea del fichero
 
            given ($log) {
                when (/mainlog$/) {                               # si el fichero es mainlog
                    if ($linea =~ / \[([\d.]+?)\] /o) {           # si la línea contiene una '[IP]'
                        $ip = $1;                                 # nos quedamos con ella
                        ...;
 
Coloreado en 0.002 segundos,  usando GeSHi 1.0.8.4

Y ya está. No tenemos que preocuparnos de mirar en qué posición está, cada cuánto hay que mirar el registro, etc. Como ves en el código, solo me preocupo de preguntar qué fichero ha cambiado, y a continuación extraigo una línea para procesarla. (El par given/when y el say son de Perl v5.10 o superior. El operador ... es de Perl v5.12 o superior.)

File::Tail ajustará los tiempos de lectura según el fichero vaya cambiando: cuantos más cambios, con más frecuencia mirará por más cambios. También, por defecto cada 60 segundos, mirará a ver si el fichero ha sido puesto a cero, y en ese caso, lo volverá a abrir como si empezara de nuevo.

Esta es una forma de usar el módulo. Otra sería usar read() en lugar de select(). El programa quedaría bloqueado hasta que, efectivamente, hubiera una nueva.

por **Fernando** » 2011-04-19 14:07 @629

Buenas..

Primero quiero agradecerte la respuesta. Excelente. Muy buena explicación.

Me queda una duda al respecto:

- el script va a funcionar perfecto siempre y cuando se mantenga en ejecución. ¿Qué pasaría si genera un error (X, no importa, cualquiera) y el script sale? El/los log seguiría creciendo y al volver a ejecutar el script las líneas pasadas se perderían, ¿no?

Sé que se podría solucionar armando otro script que cuide que el primero esté siempre en ejecución. Mi comentario viene más a tu experiencia: ¿cómo se suele solucionar este tipo de cuestiones?

¡Muchas gracias desde ya!

por **explorer** » 2011-04-19 16:34 @732

Fernando escribiste:el script va a funcionar perfecto siempre y cuando se mantenga en ejecución. ¿Qué pasaría si genera un error (X, no importa, cualquiera) y el script sale? El/los log seguiría creciendo y al volver a ejecutar el script las líneas pasadas se perderían, ¿no?

Sí, así es, pero, yo, por ejemplo, tengo un proceso así funcionando desde el pasado 25 de febrero; y podía ser más tiempo si no lo hubiera parado manualmente

Estando en Linux, no tengo miedo a que pase nada raro.

Es claro que depende del nivel de seguridad que quieras tener. Como mis exigencias son pequeñas, no me preocupa que el proceso se pare.

En tu caso, si necesitas un sistema muy robusto, debes prever todas las circunstancias.

Fernando escribiste:Sé que se podría solucionar armando otro script que cuide que el primero esté siempre en ejecución.

Y además, se debería ocupar de arrancarle de nuevo, pasándole como argumento el cálculo de la última línea leída, de tal manera que, antes de entrar en el bucle sin fin, procese las líneas pendientes. Incluso la posición puede ser almacenada por el propio bucle, de tal manera que el programa lanzador/monitor no tiene más preocupación que tenerlo siempre arrancado.

Existen programas que hacen este tipo de tareas de monitorización, que pueden relanzar servicios, en caso de fallo. En alguna ocasión los usé, pero cuando tienes una máquina bien afinada, con más de 700 días de funcionamiento normal, las posibilidades de caída son muy bajas.

Foro - Perl en Español

Parseo de log dansguardian

Parseo de log dansguardian

Publicidad

Re: Parseo de log dansguardian

Re: Parseo de log dansguardian

Re: Parseo de log dansguardian

Re: Parseo de log dansguardian

Leer parte de un archivo de log

Re: Leer parte de un archivo de log

Re: Parseo de log dansguardian

Re: Parseo de log dansguardian

¿Quién está conectado?