Como regla general, se puede usar algún módulo que use la API de Windows y de Office, para mandar abrir el documento por el propio Word, y solicitarle la devolución del texto. Si no se tiene Windows, pues es un problema, ya que el formato de los documentos Word ha ido cambiando con los años.
Aquí tienes un artículo usando el protocolo OLE.
También hay cosas sorprendentes, como el módulo
icrosoft::Word, que permite ejecutar código Perl escrito en un documento Word (!?!)
Using bash Syntax Highlighting
perl -Microsoft::Word helloworld.doc
Coloreado en 0.004 segundos, usando
GeSHi 1.0.8.4
Internamente, usa
Acme::RunDoc, que a su vez usa
Text::Extract::Word.