Hola, chicos, a ver si me pueden dar una mano...
Estoy queriendo decodificar unos correos que me descargo, puesto que éstos vienen con codificación
Quoted Printable (del Content-Transfer-encoding) para luego procesar los datos que vienen en este correo para varias cosas. Lo que lo encuentro raro es que a la hora de hacer una prueba sencilla como la siguiente:
Using perl Syntax Highlighting
#!/usr/bin/perl -w
use MIME::QuotedPrint;
$string = 'electr=C3=B3nico';
$string_decoded = decode_qp($string);
print "$string\n";
Coloreado en 0.002 segundos, usando
GeSHi 1.0.8.4
Using text Syntax Highlighting
root@reLlene:/ # perl root/Dev/test.pl
electrónico
Coloreado en 0.000 segundos, usando
GeSHi 1.0.8.4
NO tengo problema alguno.
Luego si averiguo la codificación del archivo resultante vía chardet
Using text Syntax Highlighting
root@reLlene:/ # perl root/Dev/test.pl > archivo
electrónico
Coloreado en 0.000 segundos, usando
GeSHi 1.0.8.4
Me devuelve una "locura" de estas
Using text Syntax Highlighting
root@reLlene:/ # chardet archivo
temp: <span style="font-weight: bold">GB2312</span> con una confianza del<span style="font-weight: bold"> 99%</span>
Coloreado en 0.000 segundos, usando
GeSHi 1.0.8.4
Nada más ni nada menos que el set de caracteres de la República Popular de China. ¡Ja,ja!
AHORA... mi correo es algo grandecito y la palabra test con la que hice la prueba más arriba ('electr=C3=B3nico') es una de las tantísimas palabras de ese correo. Entonces, REPITO la operación sobre TODO el (basto y extenso)
string PERO consiguiendo una codificación, ahora,
TIS-620 (tailandesa) con una confianza del
88% y claro, no pudiendo abrir este archivo porque ¡¡los editores me arrojan errores a la hora de detectar la codificación del mismo!!
Y más raro otros casos donde meto todo un texto de entrada para decodificar con
decode_qp
Using text Syntax Highlighting
ertido)</TH><TH align=3D left scope=3D col >Producto activo</TH><TH align=
=3D left scope=3D col >Propietario de la oportunidad</TH><TH align=3D righ=
t scope=3D col >Empleados</TH><TH align=3D left scope=3D col >Correo elec=
tr=C3=B3nico</TH></tr>
Coloreado en 0.000 segundos, usando
GeSHi 1.0.8.4
y al ver la codificación resultante me sale
utf-8 con una confianza del
100 %.
En definitiva, no entiendo de qué se vale para pasar a una u otra codificación. Estuve echándole un ojo a los saltos de línea a ver si se trataba de esto pero parece que no.
Agradezco cualquier rayito de luz sobre esto
¡¡ Un saludete !!