07-17-2017 06:04 PM
Sou novo no grupo e no uso do alfresco. Tenho uma instalação do alfresco em um VPS Linux para testes, e recentemente estou empacado no uso do Simple OCR, um add on do Alfresco.
Ele faz o que promete, passa o ocr em um documento recém scaneado, assim consigo realizar buscas dentro do documento, mas duas coisas acontecem:
1 - esse conteúdo do arquivo não é indexado, somente fica "procurável" quando estou com o arquivo em tela, na busca do próprio arquivo, caso faça uma procura geral no alfresco, não condigo localizar o conteúdo.
2 - o mesmo acontece se eu baixar o arquivo e abrir no adobe, não consigo procurar o conteúdo que teoricamente foi processado pelo OCR.
Alguém teria alguma dica, ou recomenda outra solução de OCR? Andei testando a solução de OCR da Anatel, mas só consigo que funcione em documentos de uma página. Qualquer ajuda será de extrema ajuda.
Grato.
07-17-2017 09:07 PM
Boa noite.
Eu já testei o componente que você comentou, e não observei o comportamento que você descreveu.
Você poderia dar mais detalhes de como exatamente você configurou?
Qual versão exata do addon e do Alfresco você está usando?
Você vê alguma mensagem de erro nos logs do Alfresco?
07-17-2017 09:48 PM
Alfresco Community - 5.2.0 (r135134-b14)
Simple OCR 1.1.1 ( amp file - GitHub - keensoft/alfresco-simple-ocr: Simple OCR action for Alfresco )
Ubuntu 16.04.2 LTS
# cat > ocr.sh
export PATH=/usr/bin:$PATH
pdfsandwich $@
# chmod +x ocr.sh
/opt/alfresco-community/tomcat/shared/classes/alfresco-global.properties
#img.root=/opt/alfresco-community/common
#img.dyn=${img.root}/lib
#img.exe=${img.root}/bin/convert
img.root=/usr/share/doc/imagemagick
img.exe=/usr/bin/convert
img.config=${img.root}
img.coders=/usr/lib/x86_64-linux-gnu/ImageMagick-6.8.9/modules-Q16/coders
img.dyn=/usr/share/ghostscript/9.18/lib
img.gslib=/usr/share/ghostscript/9.18/lib
### PDF Sandwich ###
ocr.command=/root/ocr.sh
ocr.output.verbose=true
ocr.output.file.prefix.command=-o
ocr.extra.commands=-verbose -lang por+eng
ocr.server.os=linux
/opt/alfresco-community/tomcat/logs/catalina.out
2017-07-17 22:46:30,255 INFO [solr.component.AsyncBuildSuggestComponent] [Suggestor-alfresco-1] Building suggester index for: shingleBasedSuggestions
2017-07-17 22:46:31,415 INFO [solr.component.AsyncBuildSuggestComponent] [Suggestor-alfresco-1] Built suggester shingleBasedSuggestions, took 1159 ms
2017-07-17 22:46:58,963 INFO [alfresco.ocr.OCRTransformWorker] [defaultAsyncAction3] EXIT VALUE: 0
2017-07-17 22:46:58,964 INFO [alfresco.ocr.OCRTransformWorker] [defaultAsyncAction3] STDOUT: pdfsandwich version 0.1.4
Checking for convert:
convert -version
Version: ImageMagick 6.8.9-9 Q16 x86_64 2017-05-26 http://www.imagemagick.org
Copyright: Copyright (C) 1999-2014 ImageMagick Studio LLC
Features: DPC Modules OpenMP
Delegates: bzlib cairo djvu fftw fontconfig freetype jbig jng jpeg lcms lqr ltdl lzma openexr pangocairo png rsvg tiff wmf x xml zlib
Checking for unpaper:
unpaper -version
6.1
Checking for tesseract:
tesseract -v
Checking for gs:
gs -v
GPL Ghostscript 9.18 (2015-10-05)
Copyright (C) 2015 Artifex Software, Inc. All rights reserved.
Input file: "/opt/alfresco-community/tomcat/temp/Alfresco/OCRTransformWorker_source_4128368533836054650.pdf"
Output file: "/opt/alfresco-community/tomcat/temp/Alfresco/OCRTransformWorker_source_4128368533836054650_ocr.pdf"
Number of pages in inputfile: 1
More threads than pages. Using 1 threads instead.
Processing page 1.
identify -format "%w\n%h\n" "/opt/alfresco-community/tomcat/temp/Alfresco/OCRTransformWorker_source_4128368533836054650.pdf[0]"
convert -type Bilevel -density 300x300 "/opt/alfresco-community/tomcat/temp/Alfresco/OCRTransformWorker_source_4128368533836054650.pdf[0]" /tmp/pdfsandwich2abee6.pbm
unpaper --overwrite --no-grayfilter --layout none /tmp/pdfsandwich2abee6.pbm /tmp/pdfsandwich36967b_unpaper.pbm
Processing sheet #1: /tmp/pdfsandwich2abee6.pbm -> /tmp/pdfsandwich36967b_unpaper.pbm
tesseract /tmp/pdfsandwich36967b_unpaper.pbm /tmp/pdfsandwich47daff -l por+eng pdf
gs -q -dNOPAUSE -dBATCH -sDEVICE=pdfwrite -dDEVICEWIDTHPOINTS=595 -dDEVICEHEIGHTPOINTS=842 -dPDFFitPage -o /tmp/pdfsandwich165a75.pdf /tmp/pdfsandwich47daff.pdf
OCR done. Writing "/opt/alfresco-community/tomcat/temp/Alfresco/OCRTransformWorker_source_4128368533836054650_ocr.pdf"
gs -q -dNOPAUSE -dBATCH -sDEVICE=pdfwrite -sOutputFile="/opt/alfresco-community/tomcat/temp/Alfresco/OCRTransformWorker_source_4128368533836054650_ocr.pdf" /tmp/pdfsandwich165a75.pdf
Done.
2017-07-17 22:46:58,964 INFO [alfresco.ocr.OCRTransformWorker] [defaultAsyncAction3] STDERR: tesseract 3.04.01
leptonica-1.73
libgif 5.1.2 : libjpeg 8d (libjpeg-turbo 1.4.2) : libpng 1.2.54 : libtiff 4.0.6 : zlib 1.2.8 : libwebp 0.4.4 : libopenjp2 2.1.0
[image2 @ 0x12b5900] Encoder did not produce proper pts, making some up.
Tesseract Open Source OCR Engine v3.04.01 with Leptonica
07-18-2017 02:12 PM
I did a research on the message [image2 @ 0x12b5900] Encoder did not produce proper pts, making some up.
It seems it is a problem with unpaper, so I believe it would be better if you try to fix it first, as the problem is not related with the addon.
The same message appear in other projects using the unpaper project.
It would be good to try to install another version and check if it fixes the problem you are facing with.
05-23-2022 01:16 PM
Boa tarde!
eu segui os passos no link do GitHub e o problema do meu é com o esse unpaper!
como contornar essa situação?
12-22-2017 08:49 AM
Bom dia!
Eu estou com problemas nesse mesmo addon.
Porém, meu problema é que quando clico no botão OCR dentro do Alfresco, ele apresenta a seguinte mensagem de erro:
Some error happened when processing your request, OCR has not been applied to the document
Eu instalei o pdfsandwich pra intermediar a conversão dos documentos. porém, eu não estou conseguindo deixá-los indexaveis.
Alguém poderia me ajudar com isso?
Desde já, agradeço.
12-22-2017 10:33 AM
Boa tarde.
Quando erros assim acontecem, procure sempre compartilhar os arquivos de log, pois as mensagens na interface do usuário não ajudam em nada para descobrir os problemas.
Você pode usar o https://pastebin.com/
12-22-2017 11:51 AM
12-28-2017 08:00 AM
Bom dia.
Ainda não vejo seus arquivos de log.
Compartilhe em outro local e envie o link por aqui.
12-28-2017 08:26 AM
Parei um poquinho pra entender esse pastebin e copiei la..
Seguem os links:
OBS: São os mesmos logs que postei anteriormente... Coletados logo após o reinicio do serviço alfresco.
Se precisar de algo mais, me avise que responderei o mais rápido possível.
Tags
Find what you came for
We want to make your experience in Hyland Connect as valuable as possible, so we put together some helpful links.