Foro - Perl en Español

por **Norther** » 2008-02-02 00:45 @073

Pues no encuentro manera de que muestre bien los caracteres en windows, ni con notepad ni wordpad ni nada de nada :S

Pero si yo uso Ubuntu, exclusivamente desde Ubuntu Feisty Fawn :S Pero el programa se lo estoy haciendo a un amigo que lo necesita y el se niega a pasarse a Linux... Probé a mostrar los caracteres por consola y tampoco los muestra bien, estoy empezando a plantearme seriamente si de verdad esos caracteres están bien en alguna parte, jaja

Voy a intentar a la desesperada hacerle una GUI con Perl/Tk y mostrar el texto traducido en un Label o en un campo text para que se pueda copiar, si se te ocurre algo más que pueda funcionar no dudes en decírmelo. ¡¡Me niego a pensar que sea imposible de hacer!!

-----EDIT-----

Tampoco funciona mostrandolo en un campo text en perl/tk :S

por **explorer** » 2008-02-02 12:14 @551

Si copio y pego las líneas que te salen, en un fichero de texto, y las veo con el firefox, y en el firefox le digo que la codificación es utf-8, me sale:

Código: Seleccionar todo: NAME3=Baril Cassé NAME4=Сломленн�?й �?о�?онок NAME5=Barilotto Rotto NAME6=Gebroken Vat NAME4=鬼剋棘劇剋筠戟戟�橘 �棘�棘戟棘克

Los caracteres que salen "desconocidos" es porque esa letra no está definida dentro del fichero de fuente de letras que estás usando para ver el texto. Es decir: para ver coreano, deberás tener en el ordenador una fuente de letras de coreano.

A propósito... acabo de descubrir que las letras en coreano no están en utf-8, sino en euc-kr. Eso quiere decir que altavista NO siempre responde con la misma codificación. El texto que te pongo lo he copiado y pegado cambiando la codificación en el editor de texto Kate.

Esto es normal, si ves el funcionamiento de firefox: mientras estás trabajando con caracteres occidentales está trabajando con una determinada fuente de letras, pero cuando cambias a una asiática, carga otra fuente de letras distinta. La explicación es que no es muy común tener todos los alfabetos en un único fichero de fuente de letras. En cambio, si una fuente de letras dice que admite la codificación utf-8 entonces debemos pensar que sí debería de mostrar una gama muy amplia de alfabetos.

En el texto anterior, si eres capaz de ver los textos en cirílico al mismo tiempo que los caracteres coreanos, entonces es que tu navegador está usando un tipo de letra que admite ambos alfabetos. Curiosamente, este página web que estás viendo está codificada en iso-8859-1. Los caracteres están codificados como entidades HTML (mira el código de esta página): el acento agudo del francés se ve directamente (porque está contemplado en iso-8859-1), pero los del cirílico ruso están como entidades codificadas con números superiores a 1050. Y los coreanos, entre el 20.000 y el 40.000.

Si tu fuente de letras del navegador no tiene un conjunto de letras tan amplio, es cuando verás los caracteres "caja", indicando que no sabe cómo pintar esa letra. Yo estoy usando monoespaciada en OpenSuse 10.3 y sí que me muestra 'casi' todos los caracteres.

Lo interesante de este problema va más allá de lo que puede hacer el programa: depende de la codificación y el fuente de letras que esté usando el sistema operativo.

Si lo vas a pasar a Perl/Tk, quizás una posibilidad sea usar algún widget del tipo cliente de HTML.

Lo que sí está claro es que NO puedes mezclar varias codificaciones en el mismo fichero.

Bienvenido a la torre de Babel.

por **explorer** » 2008-02-02 12:53 @579

Me colé otra vez... Altavista SIEMPRE devuelve en utf-8.

El siguiente programa hace lo que pides: lee un fichero de entrada y va sacando la traducción. Y todos los caracteres, en utf-8.

Programa:

Sintáxis: [ Descargar ] [ Ocultar ]

Using perl Syntax Highlighting

#!/usr/bin/perl

use WWW::Mechanize;
use warnings;
use strict;

my$url='http://world.altavista.com/tr';
my$archivo='kk.txt';
my@idiomas=qw[

        en_es

        en_fr

        en_ru

        en_it

        en_nl

        en_ko
];
my$mech= WWW::Mechanize->new();
$mech->add_header('Accept-Charset'=>'utf-8');
$mech->get($url);

open( ARCH,"< $archivo")ordie"ERROR al leer el archivo: $!\n";
open(OUT,"> kk1.txt")ordie"ERROR al escribir la salida: $!\n";

while(<ARCH>){

print OUT;

if(/DESCRIPTION=(.+)/i){
my$ingles=$1;
print"Traducir $ingles:\n";

my$n='NAME2';
foreachmy$idioma(@idiomas){

print"  $n  ";
$mech->submit_form(

                with_fields =>{

                    trtext =>$ingles,

                    lp     =>$idioma,
}
);

my$wa=$mech->content;
(my$traducida)=$wa=~/<div style=padding:10px;>(.+?)<\/div><\/td>/;

print"$traducida\n";
print OUT "$n=$traducida\n";

sleep3;
$n++;
}
}
}

close OUT;
close ARCH;

__END__
Coloreado en 0.002 segundos,  usando GeSHi 1.0.8.4

Hay una serie de cambios con respecto a lo hecho antes:
* La $url es directamente la del formulario de traducción
* Hacemos un bucle por todos los @idiomas. Usamos un array y un bucle foreach para simplificar código
* El get() solo es necesario hacer una vez. Cuando hacemos el submit(), nos devuelve la misma página
* Usamos el truco de Perl de incrementar textos, para pasar de 'NAME2' a 'NAME3', etc, con un solo '$n++'
* En el submit_form(), no indicamos el número de formulario dentro de la página, sino que sea Mechanize el que busque el formulario con esos campos (with_fields)
* Ponemos un sleep 3 para que los dueños de Altavista no se quejen.

Dado un fichero de texto inicial:

Código: Seleccionar todo: [ITEMDEF 01db3] DEFNAME=i_barrel_broken RESOURCES=16 i_BOARD, 2 i_BARREL_HOOP, I_BARREL WEIGHT=21 //broken barrel CATEGORY=Decoration - Furniture SUBSECTION=Broken Furniture DESCRIPTION=Broken Barrel DUPELIST=01db4,01db5,01db6

La salida en consola es:

Código: Seleccionar todo: Traducir Broken Barrel: NAME2 Barril Quebrado NAME3 Baril Cassé NAME4 Сломленный Бочонок NAME5 Barilotto Rotto NAME6 Gebroken Vat NAME7 부서지는 배럴

Y el fichero generado es:

Código: Seleccionar todo: [ITEMDEF 01db3] DEFNAME=i_barrel_broken RESOURCES=16 i_BOARD, 2 i_BARREL_HOOP, I_BARREL WEIGHT=21 //broken barrel CATEGORY=Decoration - Furniture SUBSECTION=Broken Furniture DESCRIPTION=Broken Barrel NAME2=Barril Quebrado NAME3=Baril Cassé NAME4=Сломленный Бочонок NAME5=Barilotto Rotto NAME6=Gebroken Vat NAME7=부서지는 배럴 DUPELIST=01db4,01db5,01db6

¡Sale perfecto!

por **Norther** » 2008-02-03 14:03 @627

En efecto, tenías toda la razón. Le añadió las fuentes koreana, rusa, y algunas más extra, y ya funciona perfectamente, muchas gracias explorer, a ver si poco a poco cosas como estas convencen a mi amigo a pasarse a Linux, jaja

Foro - Perl en Español

Character encoding en Perl/Windows

Publicidad

¿Quién está conectado?