Foro - Perl en Español

por **MARKO** » 2012-05-23 10:36 @483

Saludos, Perl en español:

Tengo un grupo numeroso de palabras así como INTERCONEXIÓN, MÉXICO, etc.

La situación es que en los archivos que analizaré a veces viene una con tilde y la otra no, las dos con tilde o ninguna con tilde. Sé que se podría escribir una expresión regular para sustituir MÉXICO por MEXICO para analizar todo sin tildes pero como es un grupo numeroso de palabras, me pregunto si hay alguna expresión regular que permita quitar las tildes de cualquier palabra sin importar cuál sea.

Gracias por adelantado.

Yo también uso SpreadSheet::Read para leer Excel.
En la mayor parte de las situaciones, las hojas están codificadas en una única codificación (generalmente utf-8, con los últimos Windows), así que no es necesario hacer nada, salvo acordarse de que tenemos que trabajar en utf-8.

En cambio, con software y Excel viejos, pueden venir en distintas codificaciones, incluso celdas con codificaciones distintas.

No queda entonces más remedio que abrir la hoja con SpreadSheet::Read con la opción de que genere los atributos, y mirar en ellos por la codificación de la celda. Y con la función from_to() de Encode, pasarlo todo a una sola codificación.

Algo así:

Sintáxis: [ Descargar ] [ Ocultar ]

Using perl Syntax Highlighting

# Leer la base de datos del archivo Excel $FICHERO_BASE,
# pero no queremos que genere referencias nominales a las celdas,
# y sí, el hash de atributos de cada celda.
my $BASE = ReadData($FICHERO_BASE, cells => 0, attr => 1);
die "ERROR: Base de datos no encontrada" if not $BASE;
 
#my %HOJAS  = %{$BASE->[0]{sheet}};             # Relación hojas -> índices
 
my $HOJA = $BASE->[ 1 ]->{cell};               # Solo me interesa la primera hoja
my $ATTR = $BASE->[ 1 ]->{attr};               # Atributos de las celdas de la primera hoja
exit if ! $HOJA;
 
# Recorrer toda la matriz
my $maximo_filas = $BASE->[ 1 ]->{maxrow};
my $maximo_cols  = $BASE->[ 1 ]->{maxcol};
 
for my $fila (1 .. $maximo_filas) {
    for my $columna (1 .. $maximo_cols) {
        my $contenido_celda = $HOJA->[$columna]->[$fila];
        if ($contenido_celda) {                                 # si hay algo en la celda...
            if ($ATTR->[$columna]->[$fila]->{enc}) {            # ¿tiene atributo de codificación?
 
# esta línea es obsoleta: cambiaba a codificación 'utf-16' en caso de que hubiera una 'ucs2'
#                $ATTR->[$columna]->[$fila]->{enc} = 'utf-16' if $ATTR->[$columna]->[$fila]->{enc}  eq 'ucs2';
 
                # pasamos de la codificación en que esté, a 'iso-8859-1'
                my $b = from_to($contenido_celda, $ATTR->[$columna]->[$fila]->{enc}, "iso-8859-1");
            }
        }
        else {
            ...;
        }
    }
}
Coloreado en 0.003 segundos,  usando GeSHi 1.0.8.4

Con la función from_to(), pasamos lo que sea, de la codificación que sea, a 'iso-8859-1'. El resultado queda en la propia $contenido_celda. En la mayor parte de los casos, la codificación que aparece en las celdas será 'utf-16'... pero depende de la versión de M$Office y/o M$Windows que estés usando...

Si no sabes en qué codificación está, haz un Dumper del hash de atributos, y así verás, en los campos 'enc', en qué están puestas las celdas.

En cuanto a quitar las tildes, ya hemos hablado de ese asunto...

Foro - Perl en Español

Expresión regular para quitar tildes

Expresión regular para quitar tildes

Publicidad

Re: Expresión regular para quitar tildes

Re: Expresión regular para quitar tildes

Re: Expresión regular para quitar tildes

¿Quién está conectado?