Bonjour,
Voila mon problème meta physique.
J'ai tout le necessaire pour numériser un document, le convertir en PDF et le déposer dans alfresco. J'ai aussi une interface a qui me permet de saisie en amont les meta donnée.
Maintenant je réalise un OCR de l'image, j'obtiens un flux texte et mon image . Tout ça avant l'intégration dans alfresco.
Voici mon dilem, je trouve préférable d'injecter le document PDF tel qu'il provient du scanner pour garder la mise en forme en autre. Mais j'aimerais pouvoir faire une recherche sur le contenu donc le flux texte provenant de l'OCR.
Alors j'ai bien pensé mettre le flux texte dans une meta donnée, mais si mon doc fait 15 ou 50 pages le flux va être énorme et j'ai peur du résultat pour la base et le temps de recherche.
Avez vous un avis, ou mieux un retour d'expérience.
Merci