<?xml version="1.0" encoding="UTF-8"?>
<rss xmlns:content="http://purl.org/rss/1.0/modules/content/" xmlns:dc="http://purl.org/dc/elements/1.1/" xmlns:rdf="http://www.w3.org/1999/02/22-rdf-syntax-ns#" xmlns:taxo="http://purl.org/rss/1.0/modules/taxonomy/" version="2.0">
  <channel>
    <title>topic Indexation d'une image sur base d'un texte in Alfresco Archive</title>
    <link>https://connect.hyland.com/t5/alfresco-archive/indexation-d-une-image-sur-base-d-un-texte/m-p/172554#M125760</link>
    <description>&lt;HTML&gt;&lt;HEAD&gt;&lt;/HEAD&gt;&lt;BODY&gt;&lt;SPAN&gt;Bonjour,&lt;/SPAN&gt;&lt;BR /&gt;&lt;BR /&gt;&lt;SPAN&gt;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp; J'aimerais stocker des images mais les indexer sur base d'un contenu textuel (contenu textuel déposé ou non dans Alfresco).&amp;nbsp; En fait ces images proviennent du scannage de courriers "papier".&amp;nbsp; Une opération OCR en extrait le contenu textuel et j'aimerais utiliser ce contenu pour indexer les images car seules les images sont destinées à être consultées par les utilisateurs.&amp;nbsp; J'aimerais que l'opération d'OCR puisse se faire en dehors d'Alfresco, avant de stocker l'image dans Alfresco.&lt;/SPAN&gt;&lt;BR /&gt;&lt;BR /&gt;&lt;SPAN&gt;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp; Est-ce possible de faire cela avec Alfresco? &lt;/SPAN&gt;&lt;BR /&gt;&lt;BR /&gt;&lt;SPAN&gt;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp; Dans la documentation d'Alfresco, j'ai bien vu&amp;nbsp; qu'on pouvait intervenir sur l'indexation en installant un service "custom" de "content transformation" qui prendra en charge la transformation du contenu du fichier à indexer en contenu textuel, contenu textuel utilisé pour l'indexation.&amp;nbsp; Cependant, les méthodes à implémenter (méthodes définies dans l'interface "AbstractContentTransformer" ne reçoivent qu'un "reader" sur le contenu de l'objet à indexer.&amp;nbsp; Il nous aurait fallu au minimum aux métadonnées de l'objet à indexer (connaissant le nom du fichier à indexer nous aurions pu aller chercher hors Alfresco le contenu textuel résultat de l'opération d'OCR réalisée auparavant).&lt;/SPAN&gt;&lt;BR /&gt;&lt;BR /&gt;&lt;BR /&gt;&lt;SPAN&gt;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp; Merci de votre aide,&lt;/SPAN&gt;&lt;BR /&gt;&lt;BR /&gt;&lt;SPAN&gt;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp; André&lt;/SPAN&gt;&lt;/BODY&gt;&lt;/HTML&gt;</description>
    <pubDate>Tue, 14 Dec 2010 07:15:35 GMT</pubDate>
    <dc:creator>weberan</dc:creator>
    <dc:date>2010-12-14T07:15:35Z</dc:date>
    <item>
      <title>Indexation d'une image sur base d'un texte</title>
      <link>https://connect.hyland.com/t5/alfresco-archive/indexation-d-une-image-sur-base-d-un-texte/m-p/172554#M125760</link>
      <description>Bonjour,&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp; J'aimerais stocker des images mais les indexer sur base d'un contenu textuel (contenu textuel déposé ou non dans Alfresco).&amp;nbsp; En fait ces images proviennent du scannage de courriers "papier".&amp;nbsp; Une opération OCR en extrait le contenu textuel et j'aimerais utiliser ce contenu pour in</description>
      <pubDate>Tue, 14 Dec 2010 07:15:35 GMT</pubDate>
      <guid>https://connect.hyland.com/t5/alfresco-archive/indexation-d-une-image-sur-base-d-un-texte/m-p/172554#M125760</guid>
      <dc:creator>weberan</dc:creator>
      <dc:date>2010-12-14T07:15:35Z</dc:date>
    </item>
    <item>
      <title>Re: Indexation d'une image sur base d'un texte</title>
      <link>https://connect.hyland.com/t5/alfresco-archive/indexation-d-une-image-sur-base-d-un-texte/m-p/172555#M125761</link>
      <description>&lt;HTML&gt;&lt;HEAD&gt;&lt;/HEAD&gt;&lt;BODY&gt;&lt;SPAN&gt;Bonjour,&lt;/SPAN&gt;&lt;BR /&gt;&lt;BR /&gt;&lt;SPAN&gt;Il n'est pas possible par défaut, même via un content Transformer, de réaliser l'opération d'OCR dans Alfresco.&lt;/SPAN&gt;&lt;BR /&gt;&lt;SPAN&gt;Deux possibilités s'offrent alors à vous :&lt;/SPAN&gt;&lt;BR /&gt;&lt;SPAN&gt;- l'outil qui réalise l'OCR convertit les images en PDF (au contenu textuel) qui sont ensuite déposés dans Alfresco et donc indexés&lt;/SPAN&gt;&lt;BR /&gt;&lt;SPAN&gt;- si vous souhaitez conserver les formats image, vous pouvez créer un aspect qui stockera le texte à indexer de chaque image.&lt;/SPAN&gt;&lt;BR /&gt;&lt;SPAN&gt;Ainsi, le fichier binaire de l'image sera placé dans la propriété d:content (du type cm:content) et le texte sera placé dans une propriété custom (qui peut être de type d:text ou d:content). Les APIs d'Alfresco JavaFoundationAPIs vous permettront alors d'injecter et de manipuler les contenus dans Alfresco (un exemple figure dans le SDK FirstFoundationClient).&lt;/SPAN&gt;&lt;BR /&gt;&lt;BR /&gt;&lt;SPAN&gt;PS :&lt;/SPAN&gt;&lt;BR /&gt;&lt;SPAN&gt;dans le deuxième cas, faites attention au paramètre suivant :&lt;/SPAN&gt;&lt;BR /&gt;&lt;PRE class="language-none line-numbers"&gt;&lt;CODE&gt;&lt;BR /&gt;#&lt;BR /&gt;# The number of terms from a document that will be indexed&lt;BR /&gt;#&lt;BR /&gt;lucene.indexer.maxFieldLength=10000&lt;BR /&gt;&lt;SPAN class="line-numbers-rows"&gt;&lt;SPAN&gt;‍&lt;/SPAN&gt;&lt;SPAN&gt;‍&lt;/SPAN&gt;&lt;SPAN&gt;‍&lt;/SPAN&gt;&lt;SPAN&gt;‍&lt;/SPAN&gt;&lt;SPAN&gt;‍&lt;/SPAN&gt;&lt;SPAN&gt;‍&lt;/SPAN&gt;&lt;/SPAN&gt;&lt;/CODE&gt;&lt;/PRE&gt;&lt;/BODY&gt;&lt;/HTML&gt;</description>
      <pubDate>Tue, 14 Dec 2010 08:22:09 GMT</pubDate>
      <guid>https://connect.hyland.com/t5/alfresco-archive/indexation-d-une-image-sur-base-d-un-texte/m-p/172555#M125761</guid>
      <dc:creator>jayjayecl</dc:creator>
      <dc:date>2010-12-14T08:22:09Z</dc:date>
    </item>
  </channel>
</rss>

