MIME::QuotedPrint
Publicado: 2014-02-21 10:00 @458
Hola, chicos, a ver si me pueden dar una mano...
Estoy queriendo decodificar unos correos que me descargo, puesto que éstos vienen con codificación Quoted Printable (del Content-Transfer-encoding) para luego procesar los datos que vienen en este correo para varias cosas. Lo que lo encuentro raro es que a la hora de hacer una prueba sencilla como la siguiente:
NO tengo problema alguno.
Luego si averiguo la codificación del archivo resultante vía chardet
Me devuelve una "locura" de estas
Nada más ni nada menos que el set de caracteres de la República Popular de China. ¡Ja,ja!
AHORA... mi correo es algo grandecito y la palabra test con la que hice la prueba más arriba ('electr=C3=B3nico') es una de las tantísimas palabras de ese correo. Entonces, REPITO la operación sobre TODO el (basto y extenso) string PERO consiguiendo una codificación, ahora, TIS-620 (tailandesa) con una confianza del 88% y claro, no pudiendo abrir este archivo porque ¡¡los editores me arrojan errores a la hora de detectar la codificación del mismo!!
Y más raro otros casos donde meto todo un texto de entrada para decodificar con decode_qp
y al ver la codificación resultante me sale utf-8 con una confianza del 100 %.
En definitiva, no entiendo de qué se vale para pasar a una u otra codificación. Estuve echándole un ojo a los saltos de línea a ver si se trataba de esto pero parece que no.
Agradezco cualquier rayito de luz sobre esto
¡¡ Un saludete !!
Estoy queriendo decodificar unos correos que me descargo, puesto que éstos vienen con codificación Quoted Printable (del Content-Transfer-encoding) para luego procesar los datos que vienen en este correo para varias cosas. Lo que lo encuentro raro es que a la hora de hacer una prueba sencilla como la siguiente:
Using perl Syntax Highlighting
- #!/usr/bin/perl -w
- use MIME::QuotedPrint;
- $string = 'electr=C3=B3nico';
- $string_decoded = decode_qp($string);
- print "$string\n";
Coloreado en 0.002 segundos, usando GeSHi 1.0.8.4
Using text Syntax Highlighting
- root@reLlene:/ # perl root/Dev/test.pl
- electrónico
Coloreado en 0.000 segundos, usando GeSHi 1.0.8.4
NO tengo problema alguno.
Luego si averiguo la codificación del archivo resultante vía chardet
Using text Syntax Highlighting
- root@reLlene:/ # perl root/Dev/test.pl > archivo
- electrónico
Coloreado en 0.000 segundos, usando GeSHi 1.0.8.4
Me devuelve una "locura" de estas
Using text Syntax Highlighting
- root@reLlene:/ # chardet archivo
- temp: <span style="font-weight: bold">GB2312</span> con una confianza del<span style="font-weight: bold"> 99%</span>
Coloreado en 0.000 segundos, usando GeSHi 1.0.8.4
Nada más ni nada menos que el set de caracteres de la República Popular de China. ¡Ja,ja!
AHORA... mi correo es algo grandecito y la palabra test con la que hice la prueba más arriba ('electr=C3=B3nico') es una de las tantísimas palabras de ese correo. Entonces, REPITO la operación sobre TODO el (basto y extenso) string PERO consiguiendo una codificación, ahora, TIS-620 (tailandesa) con una confianza del 88% y claro, no pudiendo abrir este archivo porque ¡¡los editores me arrojan errores a la hora de detectar la codificación del mismo!!
Y más raro otros casos donde meto todo un texto de entrada para decodificar con decode_qp
Using text Syntax Highlighting
- ertido)</TH><TH align=3D left scope=3D col >Producto activo</TH><TH align=
- =3D left scope=3D col >Propietario de la oportunidad</TH><TH align=3D righ=
- t scope=3D col >Empleados</TH><TH align=3D left scope=3D col >Correo elec=
- tr=C3=B3nico</TH></tr>
Coloreado en 0.000 segundos, usando GeSHi 1.0.8.4
y al ver la codificación resultante me sale utf-8 con una confianza del 100 %.
En definitiva, no entiendo de qué se vale para pasar a una u otra codificación. Estuve echándole un ojo a los saltos de línea a ver si se trataba de esto pero parece que no.
Agradezco cualquier rayito de luz sobre esto
¡¡ Un saludete !!