03-06-2018 06:15 AM
Bom dia.
Estou a investigar a utilização de extração de metadados, mas estou com algumas dúvidas.
A extração dos metadados de um ficheiro é só feito a nível das propriedades associadas ao ficheiro ( tipo: autor, data de criação, titulo, etc) ou também se pode extrair partes do conteúdo do ficheiro?
O que estou a tentar fazer é criar um extractor associado a um model de tipo de documento, que contem propriedades que serão preenchidas automaticamente.
Estou com algumas dificuldades em entender a documentação em relação aos extractores, podem dar umas dicas de modo a simplificar o que preciso fazer ou indicar outro sitio com exemplos que possa ver?
Obrigado,
MN
03-07-2018 09:47 AM
Boa tarde.
Não sei se a minha ultima mensagem está perceptível o que pretendo fazer e se é possível.
De modo simplificado, o que quero fazer é algo do género.
Este ficheiro (em PDF) é carregado no Alfresco associado a um modelo de tipo personalizado com 3 propriedades, Assunto, Numero e Data.
Ao carregar este ficheiro é feito a extracção dos campos a vermelho no PDF e é feito o preenchido de forma automática dos metadados do modelo personalizado.
Isto é possível ser feito no Alfresco directamente ou terá se recorrer a outros App com integração no Alfresco?
Estou mesmo perdido neste assunto por isso agradeço qualquer ajuda que me possam dar.
Obrigado,
MN
03-09-2018 08:13 AM
Bom dia.
Os extratores do Alfresco são utilizados apenas para extrair, como você mencionou na pergunta original, atributos do arquivo/documento, e não do conteúdo de texto do documento.
O que você precisa é desenvolver essa funcionalidade, pois o Alfresco não oferece essa funcionalidade.
Aliás, nem seria muito recomendado você fazer isso no Alfresco, pois você pode acabar sobrecarregando ele com o processamento dessas imagens.
O ideal mesmo seria você usar um software específico para essa finalidade, que normalmente vem em pacotes de digitalização, que incluem outras funcionalidades, como melhoria da imagem, OCR e extração. Nós utilizamos o ChronoScan
Você poderia também, caso decida desenvolver a solução por conta, escrever um utilitário que extrai as informações que você precisa antes de enviar o documento para o Alfresco, e aí fazer a carga do documento e usar as informações extraídas para preencher os campos que você precisa. Dessa forma, você evita o problema de sobrecarregar o servidor que mencionei antes.
Caso você realmente decida partir para a solução dentro do Alfresco, então você deveria dar uma olhada neste projeto GitHub - sgirardin/easyContent2Metadata: Alfresco extension to help easily extract metadata from con...
O que ele faz é exatamente o que você está precisando, mas da última vez que eu tentei usar (fiz inclusive algumas contribuições simples para o projeto), ele não estava muito maduro, e eu não acompanhei mais depois disso.
Se tentar, avise depois como foi.
06-11-2018 06:02 PM
Douglas,
Mesmo se o documento já "nascer" digital é necessário o uso de OCR?
Não é possível extrair algumas informações textuais de um documento digital?
03-09-2018 10:33 AM
Douglas C. R. Paes, mais uma vez agradeço a sua ajuda.
Vou avaliar a informação que me disponibilizou, mas tenho uma dúvida.
Em relação ao ChronoScan ele faz a extracção completa, ou dá para configurar de modo a extrair partes isoladas do conteúdo, e associar essa informação com os metadados do ficheiro a carregar no alfresco?
Se o ChronoScan fizer a extracção completa, você tem alguma dica de como eu possa extrair partes da informação?
Agradeço a ajuda prestada,
MN
03-11-2018 07:40 PM
Boa noite.
O ChronoScan pode fazer as duas coisas.
Essa função de extrair o texto de uma área específica é chamada de OCR Zonal.
Veja no video a seguir como se configura: Basic Data Field Definition on ChronoScan - YouTube
03-15-2018 01:52 PM
Douglas, já estive a avaliar um pouco o ChronoScan e surgir-me uma duvida como você integra o texto extraído nos metadados do documento a ser criado?
Tenho um projeto no eclipse que comunica através do CMIS com o repositório Alfresco.
Existe alguma forma de conseguir atribuir o texto extraído pelo ChronoScan a um projecto no eclipse de modo a associar ás propriedades do documento a ser criado?
Estou a seguir a sua primeira sugestão de modo a não sobrecarregar o servidor do Alfresco.
03-15-2018 03:19 PM
O ChronoScan contém um módulo de CMIS, que se não me engano, já te permite mapear os atributos de forma automática durante o upload.
Tags
Find what you came for
We want to make your experience in Hyland Connect as valuable as possible, so we put together some helpful links.