«Los archivos de Word 2007 en realidad son archivos ZIP que contienen documentos XML y otros archivos de datos. Podríamos reinventar la rueda otra vez hoy, pero como ya existen herramientas que extraen el texto (plano) de documentos Office Open XML (formato de Word 2007) nos limitaremos a usar alguna de ellas. Una búsqueda rápida para docx to text y tenemos un script en Perl que hará el trabajo sucio: extraer el texto de nuestros documentos Word 2007.»
Artículo