<?xml version="1.0" encoding="UTF-8"?>
<rss xmlns:content="http://purl.org/rss/1.0/modules/content/" xmlns:dc="http://purl.org/dc/elements/1.1/" xmlns:rdf="http://www.w3.org/1999/02/22-rdf-syntax-ns#" xmlns:taxo="http://purl.org/rss/1.0/modules/taxonomy/" version="2.0">
  <channel>
    <title>topic Re: Extração de Metadados in Alfresco Archive</title>
    <link>https://connect.hyland.com/t5/alfresco-archive/extra%C3%A7%C3%A3o-de-metadados/m-p/100994#M70043</link>
    <description>&lt;HTML&gt;&lt;HEAD&gt;&lt;/HEAD&gt;&lt;BODY&gt;&lt;P&gt;Boa tarde.&lt;/P&gt;&lt;P&gt;Não sei se a minha ultima mensagem está perceptível o que pretendo fazer e se é possível.&lt;/P&gt;&lt;P&gt;De modo simplificado, o que quero fazer é algo do género.&lt;/P&gt;&lt;P&gt;&lt;IMG __jive_id="19552" class="image-1 jive-image" src="https://connect.hyland.com/legacyfs/online/alfresco/19552_pastedImage_1.png" style="width: 620px; height: 311px;" /&gt;&lt;/P&gt;&lt;P&gt;&lt;/P&gt;&lt;P&gt;Este ficheiro (em PDF) é carregado no Alfresco associado a um modelo de tipo personalizado com 3 propriedades, Assunto, Numero e Data.&lt;/P&gt;&lt;P&gt;Ao carregar este ficheiro é feito a extracção dos campos a vermelho no PDF e é feito o preenchido de forma automática dos metadados do modelo personalizado.&lt;/P&gt;&lt;P&gt;Isto é possível ser feito no Alfresco directamente ou terá se recorrer a outros App com integração no Alfresco?&lt;/P&gt;&lt;P&gt;Estou mesmo perdido neste assunto por isso agradeço qualquer ajuda que me possam dar.&lt;/P&gt;&lt;P&gt;&lt;/P&gt;&lt;P&gt;Obrigado,&lt;/P&gt;&lt;P&gt;MN&lt;/P&gt;&lt;/BODY&gt;&lt;/HTML&gt;</description>
    <pubDate>Wed, 07 Mar 2018 14:47:35 GMT</pubDate>
    <dc:creator>pmans</dc:creator>
    <dc:date>2018-03-07T14:47:35Z</dc:date>
    <item>
      <title>Extração de Metadados</title>
      <link>https://connect.hyland.com/t5/alfresco-archive/extra%C3%A7%C3%A3o-de-metadados/m-p/100993#M70042</link>
      <description>Bom dia.Estou a investigar a utilização de extração de metadados, mas estou com algumas dúvidas.A extração dos metadados de um ficheiro é só feito a nível das propriedades associadas ao ficheiro ( tipo: autor, data de criação, titulo, etc) ou também se pode extrair partes do conteúdo do ficheiro?O q</description>
      <pubDate>Tue, 06 Mar 2018 11:15:25 GMT</pubDate>
      <guid>https://connect.hyland.com/t5/alfresco-archive/extra%C3%A7%C3%A3o-de-metadados/m-p/100993#M70042</guid>
      <dc:creator>pmans</dc:creator>
      <dc:date>2018-03-06T11:15:25Z</dc:date>
    </item>
    <item>
      <title>Re: Extração de Metadados</title>
      <link>https://connect.hyland.com/t5/alfresco-archive/extra%C3%A7%C3%A3o-de-metadados/m-p/100994#M70043</link>
      <description>&lt;HTML&gt;&lt;HEAD&gt;&lt;/HEAD&gt;&lt;BODY&gt;&lt;P&gt;Boa tarde.&lt;/P&gt;&lt;P&gt;Não sei se a minha ultima mensagem está perceptível o que pretendo fazer e se é possível.&lt;/P&gt;&lt;P&gt;De modo simplificado, o que quero fazer é algo do género.&lt;/P&gt;&lt;P&gt;&lt;IMG __jive_id="19552" class="image-1 jive-image" src="https://connect.hyland.com/legacyfs/online/alfresco/19552_pastedImage_1.png" style="width: 620px; height: 311px;" /&gt;&lt;/P&gt;&lt;P&gt;&lt;/P&gt;&lt;P&gt;Este ficheiro (em PDF) é carregado no Alfresco associado a um modelo de tipo personalizado com 3 propriedades, Assunto, Numero e Data.&lt;/P&gt;&lt;P&gt;Ao carregar este ficheiro é feito a extracção dos campos a vermelho no PDF e é feito o preenchido de forma automática dos metadados do modelo personalizado.&lt;/P&gt;&lt;P&gt;Isto é possível ser feito no Alfresco directamente ou terá se recorrer a outros App com integração no Alfresco?&lt;/P&gt;&lt;P&gt;Estou mesmo perdido neste assunto por isso agradeço qualquer ajuda que me possam dar.&lt;/P&gt;&lt;P&gt;&lt;/P&gt;&lt;P&gt;Obrigado,&lt;/P&gt;&lt;P&gt;MN&lt;/P&gt;&lt;/BODY&gt;&lt;/HTML&gt;</description>
      <pubDate>Wed, 07 Mar 2018 14:47:35 GMT</pubDate>
      <guid>https://connect.hyland.com/t5/alfresco-archive/extra%C3%A7%C3%A3o-de-metadados/m-p/100994#M70043</guid>
      <dc:creator>pmans</dc:creator>
      <dc:date>2018-03-07T14:47:35Z</dc:date>
    </item>
    <item>
      <title>Re: Extração de Metadados</title>
      <link>https://connect.hyland.com/t5/alfresco-archive/extra%C3%A7%C3%A3o-de-metadados/m-p/100995#M70044</link>
      <description>&lt;HTML&gt;&lt;HEAD&gt;&lt;/HEAD&gt;&lt;BODY&gt;&lt;P&gt;Bom dia.&lt;/P&gt;&lt;P&gt;&lt;/P&gt;&lt;P&gt;Os extratores do Alfresco são utilizados apenas para extrair, como você mencionou na pergunta original, atributos do arquivo/documento, e não do conteúdo de texto do documento.&lt;/P&gt;&lt;P&gt;&lt;/P&gt;&lt;P&gt;O que você precisa é desenvolver essa funcionalidade, pois o Alfresco não oferece essa funcionalidade.&lt;/P&gt;&lt;P&gt;Aliás, nem seria muito recomendado você fazer isso no Alfresco, pois você pode acabar sobrecarregando ele com o processamento dessas imagens.&lt;/P&gt;&lt;P&gt;&lt;/P&gt;&lt;P&gt;O ideal mesmo seria você usar um software específico para essa finalidade, que normalmente vem em pacotes de digitalização, que incluem outras funcionalidades, como melhoria da imagem, OCR e extração. Nós utilizamos o &lt;A href="http://chronoscan.org/" rel="nofollow noopener noreferrer"&gt;ChronoScan&lt;/A&gt;&lt;/P&gt;&lt;P&gt;&lt;/P&gt;&lt;P&gt;Você poderia também, caso decida desenvolver a solução por conta, escrever um utilitário que extrai as informações que você precisa antes de enviar o documento para o Alfresco, e aí fazer a carga do documento e usar as informações extraídas para preencher os campos que você precisa. Dessa forma, você evita o problema de sobrecarregar o servidor que mencionei antes.&lt;/P&gt;&lt;P&gt;&lt;/P&gt;&lt;P&gt;Caso você realmente decida partir para a solução dentro do Alfresco, então você deveria dar uma olhada neste projeto &lt;A class="link-titled" href="https://github.com/sgirardin/easyContent2Metadata" title="https://github.com/sgirardin/easyContent2Metadata" rel="nofollow noopener noreferrer"&gt;GitHub - sgirardin/easyContent2Metadata: Alfresco extension to help easily extract metadata from content&lt;/A&gt;&amp;nbsp;&lt;/P&gt;&lt;P&gt;O que ele faz é exatamente o que você está precisando, mas da última vez que eu tentei usar (fiz inclusive algumas contribuições simples para o projeto), ele não estava muito maduro, e eu não acompanhei mais depois disso.&lt;/P&gt;&lt;P&gt;Se tentar, avise depois como foi.&lt;/P&gt;&lt;/BODY&gt;&lt;/HTML&gt;</description>
      <pubDate>Fri, 09 Mar 2018 13:13:05 GMT</pubDate>
      <guid>https://connect.hyland.com/t5/alfresco-archive/extra%C3%A7%C3%A3o-de-metadados/m-p/100995#M70044</guid>
      <dc:creator>douglascrp</dc:creator>
      <dc:date>2018-03-09T13:13:05Z</dc:date>
    </item>
    <item>
      <title>Re: Extração de Metadados</title>
      <link>https://connect.hyland.com/t5/alfresco-archive/extra%C3%A7%C3%A3o-de-metadados/m-p/100996#M70045</link>
      <description>&lt;HTML&gt;&lt;HEAD&gt;&lt;/HEAD&gt;&lt;BODY&gt;&lt;P&gt;&lt;SPAN class=""&gt;&lt;A _jive_internal="true" data-userid="84633" data-username="douglascrp" href="https://community.alfresco.com/people/douglascrp" rel="nofollow noopener noreferrer"&gt;Douglas C. R. Paes, &lt;/A&gt;&lt;/SPAN&gt;&lt;SPAN class=""&gt;mais uma vez agradeço a sua ajuda.&lt;/SPAN&gt;&lt;/P&gt;&lt;P&gt;&lt;SPAN class=""&gt;&lt;/SPAN&gt;&lt;/P&gt;&lt;P&gt;&lt;SPAN class=""&gt;Vou avaliar a informação que me disponibilizou, mas tenho uma dúvida. &lt;/SPAN&gt;&lt;/P&gt;&lt;P&gt;&lt;SPAN class=""&gt;Em relação ao &lt;A class="" href="http://chronoscan.org/" rel="nofollow noopener noreferrer" target="_blank"&gt;ChronoScan&lt;/A&gt; ele faz a extracção completa, ou dá para configurar de modo a extrair partes isoladas do conteúdo, e associar essa informação com os metadados do ficheiro a carregar no alfresco?&lt;/SPAN&gt;&lt;/P&gt;&lt;P&gt;&lt;SPAN class=""&gt;Se o ChronoScan fizer a extracção completa, você tem alguma dica de como eu possa extrair partes da informação?&lt;/SPAN&gt;&lt;/P&gt;&lt;P&gt;&lt;SPAN class=""&gt;&lt;/SPAN&gt;&lt;/P&gt;&lt;P&gt;&lt;SPAN class=""&gt;Agradeço a ajuda prestada,&lt;/SPAN&gt;&lt;/P&gt;&lt;P&gt;&lt;SPAN class=""&gt;MN&lt;/SPAN&gt;&lt;/P&gt;&lt;P&gt;&lt;SPAN class=""&gt;&lt;/SPAN&gt;&lt;/P&gt;&lt;P&gt;&lt;SPAN class=""&gt;&lt;/SPAN&gt;&lt;/P&gt;&lt;/BODY&gt;&lt;/HTML&gt;</description>
      <pubDate>Fri, 09 Mar 2018 15:33:01 GMT</pubDate>
      <guid>https://connect.hyland.com/t5/alfresco-archive/extra%C3%A7%C3%A3o-de-metadados/m-p/100996#M70045</guid>
      <dc:creator>pmans</dc:creator>
      <dc:date>2018-03-09T15:33:01Z</dc:date>
    </item>
    <item>
      <title>Re: Extração de Metadados</title>
      <link>https://connect.hyland.com/t5/alfresco-archive/extra%C3%A7%C3%A3o-de-metadados/m-p/100997#M70046</link>
      <description>&lt;HTML&gt;&lt;HEAD&gt;&lt;/HEAD&gt;&lt;BODY&gt;&lt;P&gt;Boa noite.&lt;/P&gt;&lt;P&gt;&lt;/P&gt;&lt;P&gt;O ChronoScan pode fazer as duas coisas.&lt;/P&gt;&lt;P&gt;Essa função de extrair o texto de uma área específica é chamada de OCR Zonal.&lt;/P&gt;&lt;P&gt;Veja no video a seguir como se configura:&amp;nbsp;&lt;A class="link-titled" href="https://www.youtube.com/watch?v=0xUPgKHB6vM" title="https://www.youtube.com/watch?v=0xUPgKHB6vM" rel="nofollow noopener noreferrer"&gt;Basic Data Field Definition on ChronoScan - YouTube&lt;/A&gt;&amp;nbsp;&lt;/P&gt;&lt;/BODY&gt;&lt;/HTML&gt;</description>
      <pubDate>Sun, 11 Mar 2018 23:40:34 GMT</pubDate>
      <guid>https://connect.hyland.com/t5/alfresco-archive/extra%C3%A7%C3%A3o-de-metadados/m-p/100997#M70046</guid>
      <dc:creator>douglascrp</dc:creator>
      <dc:date>2018-03-11T23:40:34Z</dc:date>
    </item>
    <item>
      <title>Re: Extração de Metadados</title>
      <link>https://connect.hyland.com/t5/alfresco-archive/extra%C3%A7%C3%A3o-de-metadados/m-p/100998#M70047</link>
      <description>&lt;HTML&gt;&lt;HEAD&gt;&lt;/HEAD&gt;&lt;BODY&gt;&lt;P&gt;Douglas, já estive a avaliar um pouco o ChronoScan e surgir-me uma duvida como você integra o texto extraído nos metadados do documento a ser criado?&lt;/P&gt;&lt;P&gt;&lt;/P&gt;&lt;P&gt;Tenho um projeto no eclipse que comunica através do CMIS com o repositório Alfresco.&lt;/P&gt;&lt;P&gt;Existe alguma forma de conseguir atribuir o texto extraído pelo ChronoScan a um projecto no eclipse de modo a associar&amp;nbsp; ás propriedades do documento a ser criado?&lt;/P&gt;&lt;P&gt;Estou a seguir a sua primeira sugestão de modo a não sobrecarregar o servidor do Alfresco.&lt;/P&gt;&lt;/BODY&gt;&lt;/HTML&gt;</description>
      <pubDate>Thu, 15 Mar 2018 17:52:05 GMT</pubDate>
      <guid>https://connect.hyland.com/t5/alfresco-archive/extra%C3%A7%C3%A3o-de-metadados/m-p/100998#M70047</guid>
      <dc:creator>pmans</dc:creator>
      <dc:date>2018-03-15T17:52:05Z</dc:date>
    </item>
    <item>
      <title>Re: Extração de Metadados</title>
      <link>https://connect.hyland.com/t5/alfresco-archive/extra%C3%A7%C3%A3o-de-metadados/m-p/100999#M70048</link>
      <description>&lt;HTML&gt;&lt;HEAD&gt;&lt;/HEAD&gt;&lt;BODY&gt;&lt;P&gt;O ChronoScan contém um módulo de CMIS, que se não me engano, já te permite mapear os atributos de forma automática durante o upload.&lt;/P&gt;&lt;/BODY&gt;&lt;/HTML&gt;</description>
      <pubDate>Thu, 15 Mar 2018 19:19:11 GMT</pubDate>
      <guid>https://connect.hyland.com/t5/alfresco-archive/extra%C3%A7%C3%A3o-de-metadados/m-p/100999#M70048</guid>
      <dc:creator>douglascrp</dc:creator>
      <dc:date>2018-03-15T19:19:11Z</dc:date>
    </item>
    <item>
      <title>Re: Extração de Metadados</title>
      <link>https://connect.hyland.com/t5/alfresco-archive/extra%C3%A7%C3%A3o-de-metadados/m-p/101000#M70049</link>
      <description>&lt;HTML&gt;&lt;HEAD&gt;&lt;/HEAD&gt;&lt;BODY&gt;&lt;P&gt;Douglas,&lt;/P&gt;&lt;P&gt;Mesmo se o documento já "nascer" digital é necessário o uso de OCR?&amp;nbsp;&lt;/P&gt;&lt;P&gt;Não é possível extrair algumas informações textuais de um documento digital?&amp;nbsp;&lt;/P&gt;&lt;/BODY&gt;&lt;/HTML&gt;</description>
      <pubDate>Mon, 11 Jun 2018 22:02:05 GMT</pubDate>
      <guid>https://connect.hyland.com/t5/alfresco-archive/extra%C3%A7%C3%A3o-de-metadados/m-p/101000#M70049</guid>
      <dc:creator>robsoncardoso_t</dc:creator>
      <dc:date>2018-06-11T22:02:05Z</dc:date>
    </item>
  </channel>
</rss>

