07-17-2017 06:04 PM
Sou novo no grupo e no uso do alfresco. Tenho uma instalação do alfresco em um VPS Linux para testes, e recentemente estou empacado no uso do Simple OCR, um add on do Alfresco.
Ele faz o que promete, passa o ocr em um documento recém scaneado, assim consigo realizar buscas dentro do documento, mas duas coisas acontecem:
1 - esse conteúdo do arquivo não é indexado, somente fica "procurável" quando estou com o arquivo em tela, na busca do próprio arquivo, caso faça uma procura geral no alfresco, não condigo localizar o conteúdo.
2 - o mesmo acontece se eu baixar o arquivo e abrir no adobe, não consigo procurar o conteúdo que teoricamente foi processado pelo OCR.
Alguém teria alguma dica, ou recomenda outra solução de OCR? Andei testando a solução de OCR da Anatel, mas só consigo que funcione em documentos de uma página. Qualquer ajuda será de extrema ajuda.
Grato.
02-01-2018 03:04 PM
Bom, o que parece é que com relação ao Alfresco e seu script, tudo está ok.
O problema agora está na instalação das dependências. Para ser mais exato, na falta de dependências.
Procure por essas mensagens e tente instalar o que está faltando.
02-02-2018 05:40 AM
Bom dia!
Realmente o problema era dependência. Realizei o mesmo processo que Ramon Dantas fez e aparentemente parou o erro. Porém, mesmo assim, não está indexando e tambem não deixa o conteúdo do arquivo procurável. Notei que os textos nos arquivos não ficam selecionáveis.
Isso é normal ou tem algum problema com a instalação do pdfsandwich? Se não for normal, como eu consigo visualizar o problema? =/
Segue o processo realizado:
wget https://github.com/tesseract-ocr/tessdata/archive/3.04.00.tar.gz
tar xvf 3.04.00.tar.gz
mv tessdata-3.04.00/* /usr/share/tesseract-ocr/tessdata/
Obrigado
02-02-2018 08:10 AM
O script que você criou para executar tem um comentário sobre isso:
# set -o xtrace # Uncomment for debugging/troubleshooting
Descomente essa linha e você verá mais informações sobre o problema.
Se o texto não está selecionável e não está sendo indexado, isso significa que o OCR não funcionou.
02-02-2018 11:05 AM
Eu descomentei a linha e ao clicar em OCR, não aparece nada no Catalina.out e nem no Alfresco.log...
Onde eu deveria receber esse retorno?
02-02-2018 11:58 AM
Você deveria ver erros no log mesmo, estranho.
Bom, a única coisa que me vem a cabeça agora seria pegar o comando que o Alfresco está executando e tentar rodar ele "na mão", ou seja, pegar um arquivo de amostra, e usar o pdfsandwich manualmente e verificar algum problema.
Como disse antes, do lado do Alfresco, parece que está tudo certo. O que resta agora é isolar o problema e tentar consertar antes de insistir na integração.
01-05-2018 06:38 AM
Bom dia Douglas. Estou com este problema "Some error happened when processing your request, OCR has not been applied to the document" quando clico no menu ocr. No meu caso não existe o diretório /opt/alfresco-community/modules/platform , então coloquei o simple-ocr-repo.jar e o simple-ocr-share.jar em /opt/alfresco-community/modules/share. Devo criar o diretório platform?
Desde já grato pela atenção.
01-05-2018 06:47 AM
Bom dia.
Sim, é preciso criar caso não exista, mas é preciso também configurar o Tomcat onde o Alfresco está rodando para que ele procure por módulos nessa pasta.
Use os dois arquivos a seguir como modelo:
alfresco-ubuntu-install/alfresco.xml at master · loftuxab/alfresco-ubuntu-install · GitHub
alfresco-ubuntu-install/share.xml at master · loftuxab/alfresco-ubuntu-install · GitHub
Esses arquivos devem estar em <alfresco>/tomcat/conf/Catalina/localhost
01-05-2018 07:50 AM
Ambos estao da seguinte forma
share.xml
<?xml version='1.0' encoding='utf-8'?>
<Context crossContext="true">
<Loader className="org.apache.catalina.loader.VirtualWebappLoader" virtualClasspath="${catalina.base}/../modules/share/*.jar" />
</Context>
alfresco.xml
<?xml version='1.0' encoding='utf-8'?>
<Context crossContext="true">
<Loader className="org.apache.catalina.loader.VirtualWebappLoader" virtualClasspath="${catalina.base}/../modules/platform/*.jar" />
</Context>
Criei a pasta platform e movi o simple-ocr-repo.jar do share para o platform.
Meu /opt/alfresco-community/tomcat/shared/classes/alfresco-global.properties foi adicionado:
###Configuracao OCR
ocr.command=/usr/bin/pdfsandwich
ocr.output.verbose=true
ocr.output.file.prefix.command=-o
ocr.extra.commands=-verbose -lang spa+eng+fra
ocr.server.os=linux
Já instalei também o pdfsandwich e suas dependências. Estou há 3 dias pesquisando já perdendo a esperança.
01-05-2018 08:25 AM
Bom, aparentemente está tudo certo agora, e com essa mudança, você deve ter algo indicando o problema nos arquivos de log.
Compartilhe eles aqui e tentarei te ajudar.
01-08-2018 03:37 PM
Tags
Find what you came for
We want to make your experience in Hyland Connect as valuable as possible, so we put together some helpful links.