<?xml version="1.0" encoding="UTF-8"?>
<rss xmlns:content="http://purl.org/rss/1.0/modules/content/" xmlns:dc="http://purl.org/dc/elements/1.1/" xmlns:rdf="http://www.w3.org/1999/02/22-rdf-syntax-ns#" xmlns:taxo="http://purl.org/rss/1.0/modules/taxonomy/" version="2.0">
  <channel>
    <title>topic Re: Extraire les données d'un lot de pdf indexables in Alfresco Archive</title>
    <link>https://connect.hyland.com/t5/alfresco-archive/extraire-les-donn%C3%A9es-d-un-lot-de-pdf-indexables/m-p/207737#M160867</link>
    <description>&lt;HTML&gt;&lt;HEAD&gt;&lt;/HEAD&gt;&lt;BODY&gt;&lt;SPAN&gt;Je repasse par ici pour un petit complément:&lt;/SPAN&gt;&lt;BR /&gt;&lt;SPAN&gt;J'ai abandonné pdftk pour l'écriture des meta-données, car tout simplement il ne sait pas en ajouter si le pdf n'en a encore aucune. Je me suis un peu arraché les cheveux avant de comprendre pourquoi ça fonctionnait avec mon pdf de test (qui avait déjà quelques meta-données en vrac) mais pas avec mes pdf issus d'un scan (aucune meta-donnée d'origine)&lt;/SPAN&gt;&lt;BR /&gt;&lt;BR /&gt;&lt;SPAN&gt;En php j'utilise zend_pdf pour gérer les meta-donnés des pdf:&lt;/SPAN&gt;&lt;BR /&gt;&lt;PRE class="language-none line-numbers"&gt;&lt;CODE&gt;&amp;lt;php&amp;gt;function __autoload($class)&lt;BR /&gt;{&lt;BR /&gt;&amp;nbsp;&amp;nbsp;&amp;nbsp;require_once('Zend/Loader.php');&lt;BR /&gt;&amp;nbsp;&amp;nbsp;&amp;nbsp;Zend_Loader::loadClass($class);&lt;BR /&gt;}&lt;BR /&gt;$pdf = Zend_Pdf::load($fichier);&lt;BR /&gt;$pdf-&amp;gt;properties['agence'] = $codeagence; // exemple de meta&lt;BR /&gt;$pdf-&amp;gt;save($fichier);&lt;BR /&gt;&lt;BR /&gt;// relecture des meta&lt;BR /&gt;foreach($pdf-&amp;gt;properties as $meta_key =&amp;gt; $meta_value)&lt;BR /&gt;{&lt;BR /&gt;&amp;nbsp;&amp;nbsp;&amp;nbsp;echo 'properties: '.$meta_key.' - '.$meta_value,PHP_EOL;&lt;BR /&gt;}&lt;BR /&gt;&amp;lt;/php&amp;gt;&lt;SPAN class="line-numbers-rows"&gt;&lt;SPAN&gt;‍&lt;/SPAN&gt;&lt;SPAN&gt;‍&lt;/SPAN&gt;&lt;SPAN&gt;‍&lt;/SPAN&gt;&lt;SPAN&gt;‍&lt;/SPAN&gt;&lt;SPAN&gt;‍&lt;/SPAN&gt;&lt;SPAN&gt;‍&lt;/SPAN&gt;&lt;SPAN&gt;‍&lt;/SPAN&gt;&lt;SPAN&gt;‍&lt;/SPAN&gt;&lt;SPAN&gt;‍&lt;/SPAN&gt;&lt;SPAN&gt;‍&lt;/SPAN&gt;&lt;SPAN&gt;‍&lt;/SPAN&gt;&lt;SPAN&gt;‍&lt;/SPAN&gt;&lt;SPAN&gt;‍&lt;/SPAN&gt;&lt;SPAN&gt;‍&lt;/SPAN&gt;&lt;SPAN&gt;‍&lt;/SPAN&gt;&lt;/SPAN&gt;&lt;/CODE&gt;&lt;/PRE&gt;&lt;BR /&gt;&lt;BR /&gt;&lt;SPAN&gt;Ces meta-données sont de type "document_info" dans le pdf: y a-t-il un réel intérêt à utiliser du xmp ?&lt;/SPAN&gt;&lt;/BODY&gt;&lt;/HTML&gt;</description>
    <pubDate>Tue, 12 May 2015 09:53:36 GMT</pubDate>
    <dc:creator>proote</dc:creator>
    <dc:date>2015-05-12T09:53:36Z</dc:date>
    <item>
      <title>Extraire les données d'un lot de pdf indexables</title>
      <link>https://connect.hyland.com/t5/alfresco-archive/extraire-les-donn%C3%A9es-d-un-lot-de-pdf-indexables/m-p/207732#M160862</link>
      <description>Bonjour à tous,Je suis tombé sur Alfresco il y'a quelques jours, et je cherche si ce bel outil pourrait me rendre service, aujourd'hui j'ai un besoin "ponctuel" mais si ça fonctionne ça pourrait se développer sur différents usages dans l'entreprise (pour l'instant il y'a un frein psychologique sur l</description>
      <pubDate>Fri, 09 Nov 2012 13:05:55 GMT</pubDate>
      <guid>https://connect.hyland.com/t5/alfresco-archive/extraire-les-donn%C3%A9es-d-un-lot-de-pdf-indexables/m-p/207732#M160862</guid>
      <dc:creator>proote</dc:creator>
      <dc:date>2012-11-09T13:05:55Z</dc:date>
    </item>
    <item>
      <title>Re: Extraire les données d'un lot de pdf indexables</title>
      <link>https://connect.hyland.com/t5/alfresco-archive/extraire-les-donn%C3%A9es-d-un-lot-de-pdf-indexables/m-p/207733#M160863</link>
      <description>&lt;HTML&gt;&lt;HEAD&gt;&lt;/HEAD&gt;&lt;BODY&gt;&lt;SPAN&gt;Bonjour,&lt;/SPAN&gt;&lt;BR /&gt;&lt;BR /&gt;&lt;SPAN&gt;A priori, si le PDF est déjà indexable, je pense que de l'OCR pure basique ne permet pas ce que vous recherchez. &lt;/SPAN&gt;&lt;BR /&gt;&lt;SPAN&gt;En outre, Alfresco ne peut en effet pas, par défaut, reconnaître des zones de documents et en extraire des données.&lt;/SPAN&gt;&lt;BR /&gt;&lt;SPAN&gt;Il vous faut un outil spécialisé dans cette tâche de "reconnaissance de forme".&lt;/SPAN&gt;&lt;/BODY&gt;&lt;/HTML&gt;</description>
      <pubDate>Mon, 12 Nov 2012 10:34:12 GMT</pubDate>
      <guid>https://connect.hyland.com/t5/alfresco-archive/extraire-les-donn%C3%A9es-d-un-lot-de-pdf-indexables/m-p/207733#M160863</guid>
      <dc:creator>jayjayecl</dc:creator>
      <dc:date>2012-11-12T10:34:12Z</dc:date>
    </item>
    <item>
      <title>Re: Extraire les données d'un lot de pdf indexables</title>
      <link>https://connect.hyland.com/t5/alfresco-archive/extraire-les-donn%C3%A9es-d-un-lot-de-pdf-indexables/m-p/207734#M160864</link>
      <description>&lt;HTML&gt;&lt;HEAD&gt;&lt;/HEAD&gt;&lt;BODY&gt;&lt;SPAN&gt;Bonjour,&lt;/SPAN&gt;&lt;BR /&gt;&lt;SPAN&gt;Pour info j'avais lu votre réponse, je vous en remercie :wink:&lt;/SPAN&gt;&lt;BR /&gt;&lt;SPAN&gt;Pour l'instant je n'ai pas trouvé de logiciel qui fasse ce que je veux sans sortir l'artillerie lourde, mais j'ai trouvé des logiciels qui transforment des pdf en txt, ensuite à coup de scripts et d'expressions régulières je devrai réussir à sortir les valeurs souhaitées :&lt;/SPAN&gt;&lt;BR /&gt;&lt;SPAN&gt;- PDFMate PDF Converter, dans sa version gratuite&lt;/SPAN&gt;&lt;BR /&gt;&lt;SPAN&gt;- Xpdf (&lt;/SPAN&gt;&lt;A href="http://www.foolabs.com/xpdf/" rel="nofollow noopener noreferrer"&gt;http://www.foolabs.com/xpdf/&lt;/A&gt;&lt;SPAN&gt;) =&amp;gt; avec celui-là, en ligne de commande, j'obtiens les meilleurs résultats.&lt;/SPAN&gt;&lt;BR /&gt;&lt;BR /&gt;&lt;SPAN&gt;Petit exemple avec xpdf:&lt;/SPAN&gt;&lt;BR /&gt;&lt;PRE class="language-none line-numbers"&gt;&lt;CODE&gt;C:\xpdfbin-win-3.03\bin64&amp;gt;pdftotext.exe -f 1 -l 3 -raw -eol dos "c:\test\source\110825DD.pdf"&lt;SPAN class="line-numbers-rows"&gt;&lt;SPAN&gt;‍&lt;/SPAN&gt;&lt;/SPAN&gt;&lt;/CODE&gt;&lt;/PRE&gt;&lt;PRE class="language-none line-numbers"&gt;&lt;CODE&gt;pdftotext version 3.03&lt;BR /&gt;Copyright 1996-2011 Glyph &amp;amp; Cog, LLC&lt;BR /&gt;Usage: pdftotext [options] &amp;lt;PDF-file&amp;gt; [&amp;lt;text-file&amp;gt;]&lt;BR /&gt;&amp;nbsp; -f &amp;lt;int&amp;gt;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp; : first page to convert&lt;BR /&gt;&amp;nbsp; -l &amp;lt;int&amp;gt;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp; : last page to convert&lt;BR /&gt;&amp;nbsp; -layout&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp; : maintain original physical layout&lt;BR /&gt;&amp;nbsp; -fixed &amp;lt;fp&amp;gt;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp; : assume fixed-pitch (or tabular) text&lt;BR /&gt;&amp;nbsp; -raw&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp; : keep strings in content stream order&lt;BR /&gt;&amp;nbsp; -htmlmeta&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp; : generate a simple HTML file, including the meta information&lt;BR /&gt;&amp;nbsp; -enc &amp;lt;string&amp;gt;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp; : output text encoding name&lt;BR /&gt;&amp;nbsp; -eol &amp;lt;string&amp;gt;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp; : output end-of-line convention (unix, dos, or mac)&lt;BR /&gt;&amp;nbsp; -nopgbrk&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp; : don't insert page breaks between pages&lt;BR /&gt;&amp;nbsp; -opw &amp;lt;string&amp;gt;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp; : owner password (for encrypted files)&lt;BR /&gt;&amp;nbsp; -upw &amp;lt;string&amp;gt;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp; : user password (for encrypted files)&lt;BR /&gt;&amp;nbsp; -q&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp; : don't print any messages or errors&lt;BR /&gt;&amp;nbsp; -cfg &amp;lt;string&amp;gt;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp; : configuration file to use in place of .xpdfrc&lt;BR /&gt;&amp;nbsp; -v&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp; : print copyright and version info&lt;BR /&gt;&amp;nbsp; -h&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp; : print usage information&lt;BR /&gt;&amp;nbsp; -help&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp; : print usage information&lt;BR /&gt;&amp;nbsp; –help&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp; : print usage information&lt;BR /&gt;&amp;nbsp; -?&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp; : print usage information&lt;SPAN class="line-numbers-rows"&gt;&lt;SPAN&gt;‍&lt;/SPAN&gt;&lt;SPAN&gt;‍&lt;/SPAN&gt;&lt;SPAN&gt;‍&lt;/SPAN&gt;&lt;SPAN&gt;‍&lt;/SPAN&gt;&lt;SPAN&gt;‍&lt;/SPAN&gt;&lt;SPAN&gt;‍&lt;/SPAN&gt;&lt;SPAN&gt;‍&lt;/SPAN&gt;&lt;SPAN&gt;‍&lt;/SPAN&gt;&lt;SPAN&gt;‍&lt;/SPAN&gt;&lt;SPAN&gt;‍&lt;/SPAN&gt;&lt;SPAN&gt;‍&lt;/SPAN&gt;&lt;SPAN&gt;‍&lt;/SPAN&gt;&lt;SPAN&gt;‍&lt;/SPAN&gt;&lt;SPAN&gt;‍&lt;/SPAN&gt;&lt;SPAN&gt;‍&lt;/SPAN&gt;&lt;SPAN&gt;‍&lt;/SPAN&gt;&lt;SPAN&gt;‍&lt;/SPAN&gt;&lt;SPAN&gt;‍&lt;/SPAN&gt;&lt;SPAN&gt;‍&lt;/SPAN&gt;&lt;SPAN&gt;‍&lt;/SPAN&gt;&lt;SPAN&gt;‍&lt;/SPAN&gt;&lt;/SPAN&gt;&lt;/CODE&gt;&lt;/PRE&gt;&lt;/BODY&gt;&lt;/HTML&gt;</description>
      <pubDate>Mon, 03 Dec 2012 10:45:51 GMT</pubDate>
      <guid>https://connect.hyland.com/t5/alfresco-archive/extraire-les-donn%C3%A9es-d-un-lot-de-pdf-indexables/m-p/207734#M160864</guid>
      <dc:creator>proote</dc:creator>
      <dc:date>2012-12-03T10:45:51Z</dc:date>
    </item>
    <item>
      <title>Re: Extraire les données d'un lot de pdf indexables</title>
      <link>https://connect.hyland.com/t5/alfresco-archive/extraire-les-donn%C3%A9es-d-un-lot-de-pdf-indexables/m-p/207735#M160865</link>
      <description>&lt;HTML&gt;&lt;HEAD&gt;&lt;/HEAD&gt;&lt;BODY&gt;&lt;SPAN&gt;Bonjour,&lt;/SPAN&gt;&lt;BR /&gt;&lt;BR /&gt;&lt;SPAN&gt;Si vous document sont nativement numérique vous n'avez rien a faire , vous pouvez directement les intégrer dans alfresco , car il y aura une indexation full-text et ils seront accessible a travers la recherche.&lt;/SPAN&gt;&lt;BR /&gt;&lt;BR /&gt;&lt;SPAN&gt;Cependant , si vous cherchez à structurer un peu plus vos metadatas , je vous conseil de créer des champs de metas personnalisés , et d’intégrer vos metas à travers pdftk (technique utilisé en prod pour plus de 15Kdoc/jour)&lt;/SPAN&gt;&lt;BR /&gt;&lt;BR /&gt;&lt;A href="https://forums.alfresco.com/fr/viewtopic.php?f=11&amp;amp;t=5113" rel="nofollow noopener noreferrer"&gt;https://forums.alfresco.com/fr/viewtopic.php?f=11&amp;amp;t=5113&lt;/A&gt;&lt;BR /&gt;&lt;BR /&gt;&lt;SPAN&gt;La structuration des métas sera inévitable passé un certain nombre de documents.&lt;/SPAN&gt;&lt;BR /&gt;&lt;BR /&gt;&lt;SPAN&gt;Pour exemple , nous avons dans l'un de nos content-store +/-15 million de pdf , dans le cas d'un recherche sur un terme contenu dans le document , la recherche peut durer jusqu’à 15 secondes , par contre en utilisant les 25 champs de metadata personnalisé , nous effectuons une recherche en moins de 2s (environ 800ms en moyenne).&lt;/SPAN&gt;&lt;BR /&gt;&lt;BR /&gt;&lt;SPAN&gt;En fonction de votre réponses , je vous apporterais les informations supplémentaire sur pdftk .&lt;/SPAN&gt;&lt;BR /&gt;&lt;BR /&gt;&lt;SPAN&gt;Ps: pour information, je ne travail que sur des serveur linux , donc il vous faudra peut être adapter en conséquence .&lt;/SPAN&gt;&lt;BR /&gt;&lt;BR /&gt;&lt;SPAN&gt;Bonne journée&lt;/SPAN&gt;&lt;/BODY&gt;&lt;/HTML&gt;</description>
      <pubDate>Tue, 04 Dec 2012 10:20:01 GMT</pubDate>
      <guid>https://connect.hyland.com/t5/alfresco-archive/extraire-les-donn%C3%A9es-d-un-lot-de-pdf-indexables/m-p/207735#M160865</guid>
      <dc:creator>cnerger</dc:creator>
      <dc:date>2012-12-04T10:20:01Z</dc:date>
    </item>
    <item>
      <title>Re: Extraire les données d'un lot de pdf indexables</title>
      <link>https://connect.hyland.com/t5/alfresco-archive/extraire-les-donn%C3%A9es-d-un-lot-de-pdf-indexables/m-p/207736#M160866</link>
      <description>&lt;HTML&gt;&lt;HEAD&gt;&lt;/HEAD&gt;&lt;BODY&gt;&lt;SPAN&gt;Bonjour,&lt;/SPAN&gt;&lt;BR /&gt;&lt;SPAN&gt;Je ressors mon sujet d'outre-tombe parce que je me remets plus sérieusement dans le sujet, je viens de lire votre solution et faire quelques essais: c'est exactement ce qu'il me fallait &lt;img id="smileyhappy" class="emoticon emoticon-smileyhappy" src="https://connect.hyland.com/i/smilies/16x16_smiley-happy.png" alt="Smiley Happy" title="Smiley Happy" /&gt;&lt;/SPAN&gt;&lt;BR /&gt;&lt;SPAN&gt;pdftk permets effectivement d'ajouter très facilement des meta-données à un pdf:&lt;/SPAN&gt;&lt;BR /&gt;&lt;BR /&gt;&lt;SPAN&gt;un fichier instructions.txt contenant les metadata à ajouter:&lt;/SPAN&gt;&lt;BR /&gt;&lt;SPAN&gt;InfoKey: test&lt;/SPAN&gt;&lt;BR /&gt;&lt;SPAN&gt;InfoValue: 1234&lt;/SPAN&gt;&lt;BR /&gt;&lt;BR /&gt;&lt;SPAN&gt;pdftk in.pdf update_info instructions.txt output out.pdf&lt;/SPAN&gt;&lt;BR /&gt;&lt;BR /&gt;&lt;SPAN&gt;Et c'est tout, on retrouve les nouvelles metadata dans le pdf (visibles simplement dans adobe reader, ou avec une commande "pdftk out.pdf dump_data")&lt;/SPAN&gt;&lt;BR /&gt;&lt;SPAN&gt;Cela gratuit et sous GPL: &lt;/SPAN&gt;&lt;A href="http://www.pdflabs.com/docs/pdftk-cli-examples/" rel="nofollow noopener noreferrer"&gt;http://www.pdflabs.com/docs/pdftk-cli-examples/&lt;/A&gt;&lt;BR /&gt;&lt;BR /&gt;&lt;SPAN&gt;Avant ça je fais un petit xpdf/pdftotext pour récupérer (par ex.) un numéro de compte client dans le fichier pdf, ce qui me fait une metadata à ajouter.&lt;/SPAN&gt;&lt;BR /&gt;&lt;SPAN&gt;=&amp;gt; en 2012 je cherchais à travailler sur des pdf "texte", cas le plus simple, mais aujourd'hui en 2013 j'ai besoin de bosser avec du pdf numérisé, je vais devoir trouver un OCR. Heureusement les documents sont produits en interne, on peut donc y mettre ce qu'on veut: d'après mes lectures, un code barre serait plus simple à OCRisé =&amp;gt; tesseract étant un OCR pour le texte, je m'en vais chercher un OCR libre pour codes-barres (et si je trouve pas en libre, AB**Y CLI OCR For Linux semble sympa, je vais déjà faire des essais avec une licence trial …)&lt;/SPAN&gt;&lt;BR /&gt;&lt;BR /&gt;&lt;SPAN&gt;Ensuite combiné à votre "custom-metadata extractor", je devrai pouvoir tout automatiser et faire indexer les documents par Alfresco.&lt;/SPAN&gt;&lt;BR /&gt;&lt;BR /&gt;&lt;SPAN&gt;edit: trouvé vite fait pour les codes barres avec gocr, à tester:&lt;/SPAN&gt;&lt;BR /&gt;&lt;SPAN&gt;tifftopnm.exe barcode.tif &amp;gt; barcode.pnm&lt;/SPAN&gt;&lt;BR /&gt;&lt;SPAN&gt;gocr050.exe -i barcode.pnm -o barcode.txt&lt;/SPAN&gt;&lt;BR /&gt;&lt;/BODY&gt;&lt;/HTML&gt;</description>
      <pubDate>Wed, 11 Dec 2013 00:48:00 GMT</pubDate>
      <guid>https://connect.hyland.com/t5/alfresco-archive/extraire-les-donn%C3%A9es-d-un-lot-de-pdf-indexables/m-p/207736#M160866</guid>
      <dc:creator>proote</dc:creator>
      <dc:date>2013-12-11T00:48:00Z</dc:date>
    </item>
    <item>
      <title>Re: Extraire les données d'un lot de pdf indexables</title>
      <link>https://connect.hyland.com/t5/alfresco-archive/extraire-les-donn%C3%A9es-d-un-lot-de-pdf-indexables/m-p/207737#M160867</link>
      <description>&lt;HTML&gt;&lt;HEAD&gt;&lt;/HEAD&gt;&lt;BODY&gt;&lt;SPAN&gt;Je repasse par ici pour un petit complément:&lt;/SPAN&gt;&lt;BR /&gt;&lt;SPAN&gt;J'ai abandonné pdftk pour l'écriture des meta-données, car tout simplement il ne sait pas en ajouter si le pdf n'en a encore aucune. Je me suis un peu arraché les cheveux avant de comprendre pourquoi ça fonctionnait avec mon pdf de test (qui avait déjà quelques meta-données en vrac) mais pas avec mes pdf issus d'un scan (aucune meta-donnée d'origine)&lt;/SPAN&gt;&lt;BR /&gt;&lt;BR /&gt;&lt;SPAN&gt;En php j'utilise zend_pdf pour gérer les meta-donnés des pdf:&lt;/SPAN&gt;&lt;BR /&gt;&lt;PRE class="language-none line-numbers"&gt;&lt;CODE&gt;&amp;lt;php&amp;gt;function __autoload($class)&lt;BR /&gt;{&lt;BR /&gt;&amp;nbsp;&amp;nbsp;&amp;nbsp;require_once('Zend/Loader.php');&lt;BR /&gt;&amp;nbsp;&amp;nbsp;&amp;nbsp;Zend_Loader::loadClass($class);&lt;BR /&gt;}&lt;BR /&gt;$pdf = Zend_Pdf::load($fichier);&lt;BR /&gt;$pdf-&amp;gt;properties['agence'] = $codeagence; // exemple de meta&lt;BR /&gt;$pdf-&amp;gt;save($fichier);&lt;BR /&gt;&lt;BR /&gt;// relecture des meta&lt;BR /&gt;foreach($pdf-&amp;gt;properties as $meta_key =&amp;gt; $meta_value)&lt;BR /&gt;{&lt;BR /&gt;&amp;nbsp;&amp;nbsp;&amp;nbsp;echo 'properties: '.$meta_key.' - '.$meta_value,PHP_EOL;&lt;BR /&gt;}&lt;BR /&gt;&amp;lt;/php&amp;gt;&lt;SPAN class="line-numbers-rows"&gt;&lt;SPAN&gt;‍&lt;/SPAN&gt;&lt;SPAN&gt;‍&lt;/SPAN&gt;&lt;SPAN&gt;‍&lt;/SPAN&gt;&lt;SPAN&gt;‍&lt;/SPAN&gt;&lt;SPAN&gt;‍&lt;/SPAN&gt;&lt;SPAN&gt;‍&lt;/SPAN&gt;&lt;SPAN&gt;‍&lt;/SPAN&gt;&lt;SPAN&gt;‍&lt;/SPAN&gt;&lt;SPAN&gt;‍&lt;/SPAN&gt;&lt;SPAN&gt;‍&lt;/SPAN&gt;&lt;SPAN&gt;‍&lt;/SPAN&gt;&lt;SPAN&gt;‍&lt;/SPAN&gt;&lt;SPAN&gt;‍&lt;/SPAN&gt;&lt;SPAN&gt;‍&lt;/SPAN&gt;&lt;SPAN&gt;‍&lt;/SPAN&gt;&lt;/SPAN&gt;&lt;/CODE&gt;&lt;/PRE&gt;&lt;BR /&gt;&lt;BR /&gt;&lt;SPAN&gt;Ces meta-données sont de type "document_info" dans le pdf: y a-t-il un réel intérêt à utiliser du xmp ?&lt;/SPAN&gt;&lt;/BODY&gt;&lt;/HTML&gt;</description>
      <pubDate>Tue, 12 May 2015 09:53:36 GMT</pubDate>
      <guid>https://connect.hyland.com/t5/alfresco-archive/extraire-les-donn%C3%A9es-d-un-lot-de-pdf-indexables/m-p/207737#M160867</guid>
      <dc:creator>proote</dc:creator>
      <dc:date>2015-05-12T09:53:36Z</dc:date>
    </item>
  </channel>
</rss>

