Foro - Perl en Español

por **Vertik** » 2011-07-18 10:03 @461

Hola a todos,

Quiero hacer un conversor de cualquier tipo de codificación a UTF-8. Lo que sucede es que no he de saber la codificación del fichero origen.

He leído que hay la función Guess, pero que a veces podría generar errores.

¿¿¿Cómo puedo lidiar con un fichero con diferentes encodings???

¿¿Alguna ayudita??

¡Gracias!

¿Esto quiere decir, que lees el fichero en bytes sin importar la codificación ni nada, a "pelo" y luego vas escribiendo los bytes a un fichero que le puedes poner tu la codificación que quieras?

Gracias

Edito:

Creo que ya funciona, los expertos si lo queréis mirar y valorar la solución (sería genial para mi xD)

Veréis, este es el código

Sintáxis: [ Descargar ] [ Ocultar ]

Using perl Syntax Highlighting

 my $enc = guess_encoding($linea, qw/euc-jp shiftjis 7bit-jis/);
    ref($enc) or die "Can't guess: $enc"; # trap error this way
    my $utf8 = $enc->decode($linea);
Coloreado en 0.003 segundos,  usando GeSHi 1.0.8.4

Uso la función guess_encoding(), para saber de qué codificación se trata, y luego la descodifico y la paso a utf8.

¿¿Qué os parece??

Gracias de nuevo

por **explorer** » 2011-07-19 11:52 @536

Vertik escribiste:Sí, pero si estoy leyendo un texto de algún web, éste puede tener diferentes codificaciones...

Las páginas web indican en qué codificación están, bien a través de un marca <meta> con atributo charset:

<META http-equiv="Content-Type" content="text/html; charset=iso-8859-15">

O a través de las cabeceras HTTP que devuelve el servidor web:

Content-Type: text/html; charset=EUC-JP

Vertik escribiste: entonces, ¿cómo se hace para un texto con múltiple encondings? Porque el file solo devuelve un solo tipo, ¿no?

Si un texto, sin indicaciones o marcas que lo indiquen, tiene una o más codificaciones distintas, puede ser muy difícil averiguar a qué codificación corresponde. Para los ordenadores, todos los archivos son una ristra de bytes. Pero sí hay pistas para distinguir algunas codificaciones. Pero no todas.

La función guess_encoding() es del módulo Encode::Guess. Mira el primer punto de la sección caveats de la página del manual. Dice que las codificaciones de un simple byte (como la nuestra, la iso-8859-15), son muy difíciles de adivinar porque cubren todo el rango de bytes posibles (del 0 al 255). Y el sistema que usa es de prueba y error, línea a línea del texto, descartando sospechosos.

por **Vertik** » 2011-07-20 08:40 @403

Entiendo lo que quieres decir.

Pero, veamos si la siguiente idea te gusta y me orientas un poco a cómo hacerla.

Coger el texto y dividirlo por frases y a cada frase, le aplicamos una búsqueda del encoding. Si lo encuentra, lo traduce, y seguimos a la siguiente; sino, sabemos que tenemos un error, pero seguimos.

El código sería algo así:

Sintáxis: [ Descargar ] [ Ocultar ]

Using perl Syntax Highlighting

$find=0;
$error=0;
foreach my $linea ( <$fileIn> ) {
        $find=0;
        my $i=0;
        while($i<@encodings or !$find){
                my $enc = guess_encoding($linea, $econdings[$i]);
                my $utf8;
                if(ref($enc)){
                        $utf8 = $enc->decode($linea);
                        $find=1;
                        print $openFileHandle $utf8;
                }
                $i++;
        }
        if(!$find){
                $error=1
                print $openFileHandle $linea;
        }
}
if(!$error){
print "Contiene caracteres no codificados";    
}
Coloreado en 0.002 segundos,  usando GeSHi 1.0.8.4

¿Esto es viable o es una idiotez? Si es viable, ¿cuál sería la mejor manera de crear el array de encondings? es decir, ¿cuál sería la mejor agrupación de encondings entre ellos?

Gracias

por **explorer** » 2011-07-20 11:10 @507

Pero es que ese trabajo de analizar línea a línea ya lo hace Encode::Guess... Solo tienes que pasarle a guess_encoding() todo el texto, y ella ya se encargará de trabajar línea a línea.

por **Vertik** » 2011-07-20 14:28 @644

Vale... entiendo, pero la idea de agrupar según su tipología los encodings para encontrar el correcto, ¿es buena?

¿Cuál crees que sería la mejor agrupación?

por **explorer** » 2011-07-20 14:37 @650

Pues lo siento, pero no tengo tanta experiencia con las distintas codificaciones, como para poder responder esa pregunta.

por **Vertik** » 2011-07-21 02:45 @156

Ok, ¡no pasa nada! ¡Más que me has respondido y ayudado, es imposible!

Dejo el tema en standby. Lo pondré a resuelto con la agrupación que use.

¡Muchas gracias!

Foro - Perl en Español

Convertir cualquier texto a UTF-8

Convertir cualquier texto a UTF-8

Publicidad

Re: Convertir cualquier texto a UTF-8

Re: Convertir cualquier texto a UTF-8

Re: Convertir cualquier texto a UTF-8

Re: Convertir cualquier texto a UTF-8

Re: Convertir cualquier texto a UTF-8

Re: Convertir cualquier texto a UTF-8

Re: Convertir cualquier texto a UTF-8

Re: Convertir cualquier texto a UTF-8

Re: Convertir cualquier texto a UTF-8

¿Quién está conectado?