07-17-2017 06:04 PM
Sou novo no grupo e no uso do alfresco. Tenho uma instalação do alfresco em um VPS Linux para testes, e recentemente estou empacado no uso do Simple OCR, um add on do Alfresco.
Ele faz o que promete, passa o ocr em um documento recém scaneado, assim consigo realizar buscas dentro do documento, mas duas coisas acontecem:
1 - esse conteúdo do arquivo não é indexado, somente fica "procurável" quando estou com o arquivo em tela, na busca do próprio arquivo, caso faça uma procura geral no alfresco, não condigo localizar o conteúdo.
2 - o mesmo acontece se eu baixar o arquivo e abrir no adobe, não consigo procurar o conteúdo que teoricamente foi processado pelo OCR.
Alguém teria alguma dica, ou recomenda outra solução de OCR? Andei testando a solução de OCR da Anatel, mas só consigo que funcione em documentos de uma página. Qualquer ajuda será de extrema ajuda.
Grato.
01-08-2018 07:48 PM
Os erros que aparecem no log que você compartilhou não tem relação alguma com o OCR.
Você por acaso tentou customizar algum dos arquivos ftl do Alfresco?
Todos os erros que aparecem estão relacionados à algum template de atividade de usuários ou algo do tipo.
01-08-2018 08:11 PM
Não customizei nada. 😕
08-07-2018 10:02 PM
Boa noite Douglas, estou seguindo os mesmos passos dos colegas acima, porém, estou me deparando com esse no Catalina.out:
2018-08-07 21:51:43,331 INFO [web.scripts.DictionaryQuery] [http-apr-8080-exec-9] Successfully retrieved Data Dictionary from Alfresco.
Exception in thread "defaultAsyncAction1" java.lang.RuntimeException: java.lang.RuntimeException: org.alfresco.service.cmr.repository.ContentIOException: 07070086 Failed to perform OCR transformation:
Execution result:
os: Linux
command: /opt/scriptocr/ocr.sh -verbose -lang por+eng+spa /opt/alfresco/tomcat/temp/Alfresco/OCRTransformWorker_source_6799823944120752802.pdf -o /opt/alfresco/tomcat/temp/Alfresco/OCRTransformWorker_source_6799823944120752802_ocr.pdf
succeeded: false
exit code: 2
out:
err: which: no pdfunite in (/opt/alfresco/common/alfresco-pdf-renderer:/opt/alfresco/java/bin:/opt/alfresco/postgresql/bin:/opt/alfresco/common/bin:/usr/local/sbin:/usr/local/bin:/usr/sbin:/usr/bin:/root/bin)
Fatal error: exception Failure("Could not find
at es.keensoft.alfresco.ocr.OCRExtractAction.executeImplInternal(OCRExtractAction.java:183)
at es.keensoft.alfresco.ocr.OCRExtractAction.access$200(OCRExtractAction.java:38)
at es.keensoft.alfresco.ocr.OCRExtractAction$1.execute(OCRExtractAction.java:164)
at es.keensoft.alfresco.ocr.OCRExtractAction$1.execute(OCRExtractAction.java:161)
at org.alfresco.repo.transaction.RetryingTransactionHelper.doInTransaction(RetryingTransactionHelper.java:464)
at es.keensoft.alfresco.ocr.OCRExtractAction.executeInNewTransaction(OCRExtractAction.java:169)
at es.keensoft.alfresco.ocr.OCRExtractAction.access$100(OCRExtractAction.java:38)
at es.keensoft.alfresco.ocr.OCRExtractAction$ExtractOCRTask.run(OCRExtractAction.java:151)
at java.util.concurrent.ThreadPoolExecutor.runWorker(ThreadPoolExecutor.java:1142)
at java.util.concurrent.ThreadPoolExecutor$Worker.run(ThreadPoolExecutor.java:617)
at java.lang.Thread.run(Thread.java:748)
Caused by: java.lang.RuntimeException: org.alfresco.service.cmr.repository.ContentIOException: 07070086 Failed to perform OCR transformation:
Execution result:
os: Linux
command: /opt/scriptocr/ocr.sh -verbose -lang por+eng+spa /opt/alfresco/tomcat/temp/Alfresco/OCRTransformWorker_source_6799823944120752802.pdf -o /opt/alfresco/tomcat/temp/Alfresco/OCRTransformWorker_source_6799823944120752802_ocr.pdf
succeeded: false
exit code: 2
out:
err: which: no pdfunite in (/opt/alfresco/common/alfresco-pdf-renderer:/opt/alfresco/java/bin:/opt/alfresco/postgresql/bin:/opt/alfresco/common/bin:/usr/local/sbin:/usr/local/bin:/usr/sbin:/usr/bin:/root/bin)
Fatal error: exception Failure("Could not find
at es.keensoft.alfresco.ocr.OCRTransformWorker.transform(OCRTransformWorker.java:86)
at es.keensoft.alfresco.ocr.OCRExtractAction.executeImplInternal(OCRExtractAction.java:181)
... 10 more
Caused by: org.alfresco.service.cmr.repository.ContentIOException: 07070086 Failed to perform OCR transformation:
Execution result:
os: Linux
command: /opt/scriptocr/ocr.sh -verbose -lang por+eng+spa /opt/alfresco/tomcat/temp/Alfresco/OCRTransformWorker_source_6799823944120752802.pdf -o /opt/alfresco/tomcat/temp/Alfresco/OCRTransformWorker_source_6799823944120752802_ocr.pdf
succeeded: false
exit code: 2
out:
err: which: no pdfunite in (/opt/alfresco/common/alfresco-pdf-renderer:/opt/alfresco/java/bin:/opt/alfresco/postgresql/bin:/opt/alfresco/common/bin:/usr/local/sbin:/usr/local/bin:/usr/sbin:/usr/bin:/root/bin)
Fatal error: exception Failure("Could not find
at es.keensoft.alfresco.ocr.OCRTransformWorker.transform(OCRTransformWorker.java:79)
... 11 more
Você pode me ajudar no que estou fazendo de errado?
abaixo segue minhas configurações:
Script:
#!/usr/bin/env bash
#set -o xtrace # Uncomment for debugging/troubleshooting
/usr/local/bin/pdfsandwich "$@"
Arquivo alfresco-global.properties:
### PDF Sandwich ###
ocr.command=/opt/scriptocr/ocr.sh
ocr.output.verbose=true
ocr.output.file.prefix.command=-o
ocr.extra.commands=-verbose -lang por+eng+spa
ocr.server.os=linux
Versão do pdfsandwich:
[root@ged ~]# pdfsandwich -version
pdfsandwich version 0.1.6
Versão do tesseract:
[root@ged ~]# tesseract --version
tesseract 3.04.01
leptonica-1.72
libjpeg 6b (libjpeg-turbo 1.2.90) : libpng 1.5.13 : libtiff 4.0.3 : zlib 1.2.7
08-08-2018 09:29 PM
Resolvido com a instalação do pacote: poppler-utils
yum install poppler-utils
01-08-2018 03:53 PM
Erro no catalina.out
Checking for convert:
convert -version
Version: ImageMagick 7.0.5-2 Q16 x86_64 2017-04-04 http://www.imagemagick.org
Copyright: © 1999-2017 ImageMagick Studio LLC
License: http://www.imagemagick.org/script/license.php
Featur
err: tesseract: /opt/alfresco-community/common/lib/libtiff.so.5: no version information available (required by /usr/lib/liblept.so.4)
tesseract: /opt/alfresco-community/common/lib/libjpeg.so.62: no version information available (required by /usr/lib/lible
at es.keensoft.alfresco.ocr.OCRTransformWorker.transform(OCRTransformWorker.java:86)
at es.keensoft.alfresco.ocr.OCRExtractAction.executeImplInternal(OCRExtractAction.java:181)
... 10 more
Caused by: org.alfresco.service.cmr.repository.ContentIOException: 00080083 Failed to perform OCR transformation:
Execution result:
os: Linux
command: /usr/bin/pdfsandwich -verbose -lang spa+eng+fra /opt/alfresco-community/tomcat/temp/Alfresco/OCRTransformWorker_source_6630307091445749108.pdf -o /opt/alfresco-community/tomcat/temp/Alfresco/OCRTransformWorker_source_6630307091445749108_ocr.pdf
succeeded: false
exit code: 2
out: pdfsandwich version 0.1.6
Checking for convert:
convert -version
Version: ImageMagick 7.0.5-2 Q16 x86_64 2017-04-04 http://www.imagemagick.org
Copyright: © 1999-2017 ImageMagick Studio LLC
License: http://www.imagemagick.org/script/license.php
Featur
err: tesseract: /opt/alfresco-community/common/lib/libtiff.so.5: no version information available (required by /usr/lib/liblept.so.4)
tesseract: /opt/alfresco-community/common/lib/libjpeg.so.62: no version information available (required by /usr/lib/lible
at es.keensoft.alfresco.ocr.OCRTransformWorker.transform(OCRTransformWorker.java:79)
01-08-2018 04:28 PM
Conseguimos resolver Douglas. Obrigado, sua ajuda foi muito util.
Linguagens do tesseract estava em falta. Então baixei e adicionei na pasta do tesseract.
$ wget https:
//github
.com
/tesseract-ocr/tessdata/archive/3
.04.00.
tar
.gz
$
tar
xvf 3.04.00.
tar
.gz
$ mv tessdata-3.04.00/* /usr/share/tesseract-ocr/tessdata/
Tags
Find what you came for
We want to make your experience in Hyland Connect as valuable as possible, so we put together some helpful links.