cancel
Showing results for 
Search instead for 
Did you mean: 

Simple OCR + Alfresco

slcunha
Champ in-the-making
Champ in-the-making


Sou novo no grupo e no uso do alfresco. Tenho uma instalação do alfresco em um VPS Linux para testes, e recentemente estou empacado no uso do Simple OCR, um add on do Alfresco.
Ele faz o que promete, passa o ocr em um documento recém scaneado, assim consigo realizar buscas dentro do documento, mas duas coisas acontecem:
1 - esse conteúdo do arquivo não é indexado, somente fica "procurável" quando estou com o arquivo em tela, na busca do próprio arquivo, caso faça uma procura geral no alfresco, não condigo localizar o conteúdo.
2 - o mesmo acontece se eu baixar o arquivo e abrir no adobe, não consigo procurar o conteúdo que teoricamente foi processado pelo OCR.

Alguém teria alguma dica, ou recomenda outra solução de OCR? Andei testando a solução de OCR da Anatel, mas só consigo que funcione em documentos de uma página. Qualquer ajuda será de extrema ajuda.

Grato.

35 REPLIES 35

douglascrp
World-Class Innovator
World-Class Innovator

Bom, o que parece é que com relação ao Alfresco e seu script, tudo está ok.

O problema agora está na instalação das dependências. Para ser mais exato, na falta de dependências.

Procure por essas mensagens e tente instalar o que está faltando.

Bom dia!

Realmente o problema era dependência. Realizei o mesmo processo que Ramon Dantas‌ fez e aparentemente parou o erro. Porém, mesmo assim, não está indexando e tambem não deixa o conteúdo do arquivo procurável. Notei que os textos nos arquivos não ficam selecionáveis.

Isso é normal ou tem algum problema com a instalação do pdfsandwich? Se não for normal, como eu consigo visualizar o problema? =/

Segue o processo realizado:

wget https://github.com/tesseract-ocr/tessdata/archive/3.04.00.tar.gz
tar xvf 3.04.00.tar.gz
mv tessdata-3.04.00/* /usr/share/tesseract-ocr/tessdata/‍‍‍

Obrigado

douglascrp
World-Class Innovator
World-Class Innovator

O script que você criou para executar tem um comentário sobre isso:

# set -o xtrace # Uncomment for debugging/troubleshooting

Descomente essa linha e você verá mais informações sobre o problema.

Se o texto não está selecionável e não está sendo indexado, isso significa que o OCR não funcionou.

Eu descomentei a linha e ao clicar em OCR, não aparece nada no Catalina.out e nem no Alfresco.log...

Onde eu deveria receber esse retorno?

douglascrp
World-Class Innovator
World-Class Innovator

Você deveria ver erros no log mesmo, estranho.

Bom, a única coisa que me vem a cabeça agora seria pegar o comando que o Alfresco está executando e tentar rodar ele "na mão", ou seja, pegar um arquivo de amostra, e usar o pdfsandwich manualmente e verificar algum problema.

Como disse antes, do lado do Alfresco, parece que está tudo certo. O que resta agora é isolar o problema e tentar consertar antes de insistir na integração.

Bom dia Douglas. Estou com este problema "Some error happened when processing your request, OCR has not been applied to the document" quando clico no menu ocr. No meu caso não existe o diretório /opt/alfresco-community/modules/platform , então coloquei o simple-ocr-repo.jar e o simple-ocr-share.jar em /opt/alfresco-community/modules/share. Devo criar o diretório platform?
Desde já grato pela atenção.

douglascrp
World-Class Innovator
World-Class Innovator

Bom dia.

Sim, é preciso criar caso não exista, mas é preciso também configurar o Tomcat onde o Alfresco está rodando para que ele procure por módulos nessa pasta.

Use os dois arquivos a seguir como modelo:

alfresco-ubuntu-install/alfresco.xml at master · loftuxab/alfresco-ubuntu-install · GitHub 

alfresco-ubuntu-install/share.xml at master · loftuxab/alfresco-ubuntu-install · GitHub 

Esses arquivos devem estar em <alfresco>/tomcat/conf/Catalina/localhost

Ambos estao da seguinte forma

share.xml
<?xml version='1.0' encoding='utf-8'?>
<Context crossContext="true">
<Loader className="org.apache.catalina.loader.VirtualWebappLoader" virtualClasspath="${catalina.base}/../modules/share/*.jar" />
</Context>

alfresco.xml

<?xml version='1.0' encoding='utf-8'?>
<Context crossContext="true">
<Loader className="org.apache.catalina.loader.VirtualWebappLoader" virtualClasspath="${catalina.base}/../modules/platform/*.jar" />
</Context>

Criei a pasta platform e movi o simple-ocr-repo.jar  do share para o platform.

Meu /opt/alfresco-community/tomcat/shared/classes/alfresco-global.properties foi adicionado:

###Configuracao OCR

ocr.command=/usr/bin/pdfsandwich
ocr.output.verbose=true
ocr.output.file.prefix.command=-o

ocr.extra.commands=-verbose -lang spa+eng+fra
ocr.server.os=linux

Já instalei também o pdfsandwich e suas dependências. Estou há 3 dias pesquisando já perdendo a esperança. Smiley Sad

 

douglascrp
World-Class Innovator
World-Class Innovator

Bom, aparentemente está tudo certo agora, e com essa mudança, você deve ter algo indicando o problema nos arquivos de log.

Compartilhe eles aqui e tentarei te ajudar.

Segue o log em anexo.