Si copio y pego las líneas que te salen, en un fichero de texto, y las veo con el firefox, y en el firefox le digo que la codificación es utf-8, me sale:
- Código: Seleccionar todo
NAME3=Baril Cassé
NAME4=Сломленн�?й �?о�?онок
NAME5=Barilotto Rotto
NAME6=Gebroken Vat
NAME4=鬼剋棘劇剋筠戟戟�橘 �棘�棘戟棘克
Los caracteres que salen "desconocidos" es porque esa letra no está definida dentro del fichero de fuente de letras que estás usando para ver el texto. Es decir: para ver coreano, deberás tener en el ordenador una fuente de letras de coreano.
A propósito... acabo de descubrir que las letras en coreano no están en utf-8, sino en euc-kr. Eso quiere decir que altavista NO siempre responde con la misma codificación. El texto que te pongo lo he copiado y pegado cambiando la codificación en el editor de texto Kate.
Esto es normal, si ves el funcionamiento de firefox: mientras estás trabajando con caracteres occidentales está trabajando con una determinada fuente de letras, pero cuando cambias a una asiática, carga otra fuente de letras distinta. La explicación es que no es muy común tener todos los alfabetos en un único fichero de fuente de letras. En cambio, si una fuente de letras dice que admite la codificación utf-8 entonces debemos pensar que sí debería de mostrar una gama muy amplia de alfabetos.
En el texto anterior, si eres capaz de ver los textos en cirílico al mismo tiempo que los caracteres coreanos, entonces es que tu navegador está usando un tipo de letra que admite ambos alfabetos. Curiosamente, este página web que estás viendo está codificada en iso-8859-1. Los caracteres están codificados como entidades HTML (mira el código de esta página): el acento agudo del francés se ve directamente (porque está contemplado en iso-8859-1), pero los del cirílico ruso están como entidades codificadas con números superiores a 1050. Y los coreanos, entre el 20.000 y el 40.000.
Si tu fuente de letras del navegador no tiene un conjunto de letras tan amplio, es cuando verás los caracteres "caja", indicando que no sabe cómo pintar esa letra. Yo estoy usando monoespaciada en OpenSuse 10.3 y sí que me muestra 'casi' todos los caracteres.
Lo interesante de este problema va más allá de lo que puede hacer el programa: depende de la codificación y el fuente de letras que esté usando el sistema operativo.
Si lo vas a pasar a Perl/Tk, quizás una posibilidad sea usar algún widget del tipo cliente de HTML.
Lo que sí está claro es que NO puedes mezclar varias codificaciones en el mismo fichero.
Bienvenido a la
torre de Babel.