cancel
Showing results for 
Search instead for 
Did you mean: 

Simple OCR + Alfresco

slcunha
Champ in-the-making
Champ in-the-making


Sou novo no grupo e no uso do alfresco. Tenho uma instalação do alfresco em um VPS Linux para testes, e recentemente estou empacado no uso do Simple OCR, um add on do Alfresco.
Ele faz o que promete, passa o ocr em um documento recém scaneado, assim consigo realizar buscas dentro do documento, mas duas coisas acontecem:
1 - esse conteúdo do arquivo não é indexado, somente fica "procurável" quando estou com o arquivo em tela, na busca do próprio arquivo, caso faça uma procura geral no alfresco, não condigo localizar o conteúdo.
2 - o mesmo acontece se eu baixar o arquivo e abrir no adobe, não consigo procurar o conteúdo que teoricamente foi processado pelo OCR.

Alguém teria alguma dica, ou recomenda outra solução de OCR? Andei testando a solução de OCR da Anatel, mas só consigo que funcione em documentos de uma página. Qualquer ajuda será de extrema ajuda.

Grato.

35 REPLIES 35

douglascrp
World-Class Innovator
World-Class Innovator

Os erros que aparecem no log que você compartilhou não tem relação alguma com o OCR.

Você por acaso tentou customizar algum dos arquivos ftl do Alfresco?

Todos os erros que aparecem estão relacionados à algum template de atividade de usuários ou algo do tipo.

Não customizei nada. 😕

Boa noite Douglas, estou seguindo os mesmos passos dos colegas acima, porém, estou me deparando com esse no Catalina.out:

2018-08-07 21:51:43,331 INFO [web.scripts.DictionaryQuery] [http-apr-8080-exec-9] Successfully retrieved Data Dictionary from Alfresco.
Exception in thread "defaultAsyncAction1" java.lang.RuntimeException: java.lang.RuntimeException: org.alfresco.service.cmr.repository.ContentIOException: 07070086 Failed to perform OCR transformation:
Execution result:
os: Linux
command: /opt/scriptocr/ocr.sh -verbose -lang por+eng+spa /opt/alfresco/tomcat/temp/Alfresco/OCRTransformWorker_source_6799823944120752802.pdf -o /opt/alfresco/tomcat/temp/Alfresco/OCRTransformWorker_source_6799823944120752802_ocr.pdf
succeeded: false
exit code: 2
out:
err: which: no pdfunite in (/opt/alfresco/common/alfresco-pdf-renderer:/opt/alfresco/java/bin:/opt/alfresco/postgresql/bin:/opt/alfresco/common/bin:/usr/local/sbin:/usr/local/bin:/usr/sbin:/usr/bin:/root/bin)
Fatal error: exception Failure("Could not find
at es.keensoft.alfresco.ocr.OCRExtractAction.executeImplInternal(OCRExtractAction.java:183)
at es.keensoft.alfresco.ocr.OCRExtractAction.access$200(OCRExtractAction.java:38)
at es.keensoft.alfresco.ocr.OCRExtractAction$1.execute(OCRExtractAction.java:164)
at es.keensoft.alfresco.ocr.OCRExtractAction$1.execute(OCRExtractAction.java:161)
at org.alfresco.repo.transaction.RetryingTransactionHelper.doInTransaction(RetryingTransactionHelper.java:464)
at es.keensoft.alfresco.ocr.OCRExtractAction.executeInNewTransaction(OCRExtractAction.java:169)
at es.keensoft.alfresco.ocr.OCRExtractAction.access$100(OCRExtractAction.java:38)
at es.keensoft.alfresco.ocr.OCRExtractAction$ExtractOCRTask.run(OCRExtractAction.java:151)
at java.util.concurrent.ThreadPoolExecutor.runWorker(ThreadPoolExecutor.java:1142)
at java.util.concurrent.ThreadPoolExecutor$Worker.run(ThreadPoolExecutor.java:617)
at java.lang.Thread.run(Thread.java:748)
Caused by: java.lang.RuntimeException: org.alfresco.service.cmr.repository.ContentIOException: 07070086 Failed to perform OCR transformation:
Execution result:
os: Linux
command: /opt/scriptocr/ocr.sh -verbose -lang por+eng+spa /opt/alfresco/tomcat/temp/Alfresco/OCRTransformWorker_source_6799823944120752802.pdf -o /opt/alfresco/tomcat/temp/Alfresco/OCRTransformWorker_source_6799823944120752802_ocr.pdf
succeeded: false
exit code: 2
out:
err: which: no pdfunite in (/opt/alfresco/common/alfresco-pdf-renderer:/opt/alfresco/java/bin:/opt/alfresco/postgresql/bin:/opt/alfresco/common/bin:/usr/local/sbin:/usr/local/bin:/usr/sbin:/usr/bin:/root/bin)
Fatal error: exception Failure("Could not find
at es.keensoft.alfresco.ocr.OCRTransformWorker.transform(OCRTransformWorker.java:86)
at es.keensoft.alfresco.ocr.OCRExtractAction.executeImplInternal(OCRExtractAction.java:181)
... 10 more
Caused by: org.alfresco.service.cmr.repository.ContentIOException: 07070086 Failed to perform OCR transformation:
Execution result:
os: Linux
command: /opt/scriptocr/ocr.sh -verbose -lang por+eng+spa /opt/alfresco/tomcat/temp/Alfresco/OCRTransformWorker_source_6799823944120752802.pdf -o /opt/alfresco/tomcat/temp/Alfresco/OCRTransformWorker_source_6799823944120752802_ocr.pdf
succeeded: false
exit code: 2
out:
err: which: no pdfunite in (/opt/alfresco/common/alfresco-pdf-renderer:/opt/alfresco/java/bin:/opt/alfresco/postgresql/bin:/opt/alfresco/common/bin:/usr/local/sbin:/usr/local/bin:/usr/sbin:/usr/bin:/root/bin)
Fatal error: exception Failure("Could not find
at es.keensoft.alfresco.ocr.OCRTransformWorker.transform(OCRTransformWorker.java:79)
... 11 more

Você pode me ajudar no que estou fazendo de errado?

abaixo segue minhas configurações:

Script:

#!/usr/bin/env bash
#set -o xtrace # Uncomment for debugging/troubleshooting
/usr/local/bin/pdfsandwich "$@"

Arquivo alfresco-global.properties:

### PDF Sandwich ###

ocr.command=/opt/scriptocr/ocr.sh
ocr.output.verbose=true
ocr.output.file.prefix.command=-o
ocr.extra.commands=-verbose -lang por+eng+spa
ocr.server.os=linux

Versão do pdfsandwich:

[root@ged ~]# pdfsandwich -version
pdfsandwich version 0.1.6

Versão do tesseract:

[root@ged ~]# tesseract --version
tesseract 3.04.01
leptonica-1.72
libjpeg 6b (libjpeg-turbo 1.2.90) : libpng 1.5.13 : libtiff 4.0.3 : zlib 1.2.7

rlbispo
Champ on-the-rise
Champ on-the-rise

Resolvido com a instalação do pacote: poppler-utils

yum install poppler-utils

Erro no catalina.out
Checking for convert:
convert -version
Version: ImageMagick 7.0.5-2 Q16 x86_64 2017-04-04 http://www.imagemagick.org
Copyright: © 1999-2017 ImageMagick Studio LLC
License: http://www.imagemagick.org/script/license.php
Featur
err: tesseract: /opt/alfresco-community/common/lib/libtiff.so.5: no version information available (required by /usr/lib/liblept.so.4)
tesseract: /opt/alfresco-community/common/lib/libjpeg.so.62: no version information available (required by /usr/lib/lible
at es.keensoft.alfresco.ocr.OCRTransformWorker.transform(OCRTransformWorker.java:86)
at es.keensoft.alfresco.ocr.OCRExtractAction.executeImplInternal(OCRExtractAction.java:181)
... 10 more
Caused by: org.alfresco.service.cmr.repository.ContentIOException: 00080083 Failed to perform OCR transformation:
Execution result:
os: Linux
command: /usr/bin/pdfsandwich -verbose -lang spa+eng+fra /opt/alfresco-community/tomcat/temp/Alfresco/OCRTransformWorker_source_6630307091445749108.pdf -o /opt/alfresco-community/tomcat/temp/Alfresco/OCRTransformWorker_source_6630307091445749108_ocr.pdf
succeeded: false
exit code: 2
out: pdfsandwich version 0.1.6
Checking for convert:
convert -version
Version: ImageMagick 7.0.5-2 Q16 x86_64 2017-04-04 http://www.imagemagick.org
Copyright: © 1999-2017 ImageMagick Studio LLC
License: http://www.imagemagick.org/script/license.php
Featur
err: tesseract: /opt/alfresco-community/common/lib/libtiff.so.5: no version information available (required by /usr/lib/liblept.so.4)
tesseract: /opt/alfresco-community/common/lib/libjpeg.so.62: no version information available (required by /usr/lib/lible
at es.keensoft.alfresco.ocr.OCRTransformWorker.transform(OCRTransformWorker.java:79)

Conseguimos resolver Douglas. Obrigado, sua ajuda foi muito util.

Linguagens do tesseract estava em falta. Então baixei e adicionei na pasta do tesseract.

$ wget https://github.com/tesseract-ocr/tessdata/archive/3.04.00.tar.gz
$ tar xvf 3.04.00.tar.gz
$ mv tessdata-3.04.00/* /usr/share/tesseract-ocr/tessdata/