On peut aussi passer par HWPF de la suite Apache POI, déja inclus dans Alfresco (et utilisé aussi en interne par Tika introduit en 3.2) . voir le bean transformer.TextMining de content-services-context.xml
Il y a un système de "scoring" pour déterminer les transformations qui sont jugées les plus fiables.
vous pouvez définir un fichier de contexte pour ne pas réaliser les transformations msword => text/plaiin par OpenOffice et ainsi se reposer sur POI.
Vous ne précisez toutefois pas la version d'openoffice que vous utiliez, peut être auriez vous de meilleurs résultats en upgradant openoffice.