Foro - Perl en Español

por **explorer** » 2014-12-02 18:02 @793

Nueva herramienta para procesar la ingente cantidad de textos de la web.

«Investigadores del centro CiTIUS de la Universidad de Santiago de Compostela han creado un software libre que acelera el procesamiento de textos y documentos publicados en la web. Su nombre es Perldoop, y permite el análisis de los datos de una forma más sencilla y eficiente.» Artículo

Esta gente ha desarrollado un programa que traduce programas escritos en Perl a Java, aumentando en doce veces la velocidad de procesamiento de textos.

El tema está en que es la herramienta Hadoop la que permite ejecutar programas escritos en otros lenguajes, y se dieron cuenta de que al hacerlo en Perl, aunque tenía una gran facilidad para trabajar con exp. reg., iba mucho más lento que haciéndolo en Java (?) así que se han currado esa herramienta.

Lo que me llama la atención es lo de que Java sea doce veces más rápido... algo no me cuadra.

Si nos fijamos en el artículo, en concreto en la figura 5, se puede apreciar cómo en la versión secuencial, Java es 5.6 veces más rápida que la versión en Perl, pero eso no es de lo que trata la herramienta.

Lo que pretendemos es paralelizar aplicaciones escritas en Perl usando Hadoop. Me explico.

Hadoop incluye una herramienta llamada Hadoop Streaming, que lo que en realidad hace es, desde Java, lanzar un proceso externo que lee la entrada estándar (STDIN). Dicha entrada se encuentra distribuida entre los nodos de un cluster, y cada fragmento de dicha entrada será la entrada de uno de estos procesos (normalmente cada uno de estos procesos correrá en un núcleo de nuestro cluster). Cuando el proceso acaba, el resultado es devuelto a la aplicación Java.

La comunicación entre la aplicación Java y el proceso externo (en este caso escrito en Perl), tanto a la entrada como a la salida, se produce mediante pipes, y de esta comunicación es de donde viene la pérdida de rendimiento.

Como Hadoop está escrito y ejecuta aplicaciones en Java, permite "incrustar" directamente el código a paralelizar en una función denominada mapper o reducer y evitar estas comunicaciones, de ahí la ganancia de 12x, y no de la diferencia en el lenguaje de programación.

Lo que no nos hemos parado a investigar es por qué en la versión secuencial se observa dicha ganancia de 5.6x, ya que nuestra área de investigación se centra en el paralelismo. De todos modos estamos abiertos a opiniones

Espero haber aclarado en la medida de lo posible vuestras dudas.

¡Un saludo!

por **explorer** » 2014-12-18 11:51 @535

jmabuin escribiste:Hola a todos.

Bienvenido a los foros de Perl en Español, jmabuin.

jmabuin escribiste:La comunicación entre la aplicación Java y el proceso externo (en este caso escrito en Perl), tanto a la entrada como a la salida, se produce mediante pipes, y de esta comunicación es de donde viene la pérdida de rendimiento.

Entiendo. De esto hemos estado hablando en la lista de correo de Madrid.pm, y no quedaba claro el porqué. Se comentó si usabais o no alguno de los módulos que hay en CPAN relacionados con Hadoop, como es el caso de Hadoop::Streaming.

jmabuin escribiste:Lo que no nos hemos parado a investigar es por qué en la versión secuencial se observa dicha ganancia de 5.6x, ya que nuestra área de investigación se centra en el paralelismo.

La única idea que se nos ha ocurrido es el retraso que se produce en el momento del arranque de un proceso Perl (debido a que tiene que compilar el código fuente), ya que, luego en ejecución, las prestaciones deberían ser casi las mismas a medida de que el código se hace más largo (Java y Perl se basan en la ejecución de bytecode en una máquina virtual).

Pero... influyen muchas más cosas. Incluso cosas externas, como es el caso del sistema operativo (este programa se ejecutaba cien veces más rápido en Linux que en Windows). O incluso la forma en la que fue compilado (resumen: Red Hat compiló mal el intérprete de Perl, haciendo que algunos programas enlentecieran cien veces. Miles de empresas y proyectos afectados durante meses, hasta que a Red Hat le dio la gana distribuir una nueva versión).

jmabuin escribiste:De todos modos estamos abiertos a opiniones

Habría que mirarlo con más detalle... Un programa en Perl se puede mejorar en muchos aspectos, sobre todo en velocidad, si se arreglan las partes más lentas. Habría que analizar cada código en particular. Con la distribución Devel::NYTProf se pueden localizar esas partes.

Foro - Perl en Español

Nueva herramienta para procesar la ingente cantidad de texto

Nueva herramienta para procesar la ingente cantidad de texto

Publicidad

Re: Nueva herramienta para procesar la ingente cantidad de t

Re: Nueva herramienta para procesar la ingente cantidad de t

¿Quién está conectado?