cancel
Showing results for 
Search instead for 
Did you mean: 

Ajout en masse de documents

brunotony
Champ in-the-making
Champ in-the-making
Re bonjour à tous, une question, serait-il possible d'ajouter en masse des documents et également d'y ajouter automatiquement les métas données aux bons endroits de chaque document ?

Bien à vous
9 REPLIES 9

jayjayecl
Confirmed Champ
Confirmed Champ
- selon moi, la meilleure solution pour l'import en masse est via le protocole CIFS
- les métadonnées dites "classiques" (dublincore = titre, auteur, date de creation, description etc …) sont extraites automatiquement des documents de format courant. Pour une extraction plus personnalisée, il faudra créer soi-même une classe java d'extraction personnalisée.

Le moteur de recherche du wiki d'alfresco est très bien fait, n'hésitez pas à y cherchez ces références (Metadata extraction, CIFS, …)

Cdt

gregb
Champ in-the-making
Champ in-the-making
ca peut aussi fonctionner en FTP

dans le fichier file-server.xml, tu actives  l'option ftp

<config evaluator="string-compare" condition="FTP Server">

        <serverEnable enabled="true" />
        <port> xx</port>             < !—si non précisé, port 21 par défaut
<rootDirectory>/Alfresco</rootDirectory>
<charSet> UTF-8</charSet>

   </config>

Si besoin tu modifies le fichier  custom-metadata-extrators-context.xml
pour gérer l'extraction des metadatas des fichiers pdf  et MSOffice




<bean id="extracter.Office" class="org.alfresco.repo.content.metadata.OpenOfficeMetadataExtracter" parent="baseMetadataExtracter">
         <property name="connection">
            <ref bean="openOfficeConnection"/>
         </property>
         <property name="supportedMimetypes">
            <list>
               <value>application/msword</value>
               <value>application/vnd.excel</value>
               <value>application/vnd.powerpoint</value>
            </list>
         </property>
      </bean>


      <bean id="extracter.Pdfbox" class="org.alfresco.repo.content.metadata.PdfBoxMetadataExtracter" parent="baseMetadataExtracter">
         </bean>

A la racine, tu crées une règle de gestion d’extraction des metadatas classiques pour "Tout Contenu", "Entrant", "Extraire les metadatas classiques"," Appliquer la règle aux sous-espaces".

prends soin de paramétrer ton client FTP pour qu'il utilise le bon charset sinon tu auras des problèmes pour la récupération des caractères accentués.

Greg

tu pourras ainsi charger toute une arborescence.

brunotony
Champ in-the-making
Champ in-the-making
Merci pour ces précieuses infos, j'ai besoin cependant d'un complémént, en fait en plus des méta données (office etc) il y a aussi des méta données personnelles qui ne proviennent d'aucun logiciel mais que j'ai ajouté moi-même en modifiant les aspects, est - il possible d'ajouter automatiquement les données dans ces méta données (uploadées en masse) et est - il possible également de créer dynamiquement des méta données qui seraient variable en fonction du type de document.

D'avance merci encore

Tony

mdutoo
Champ on-the-rise
Champ on-the-rise
Bonjour Vins

J'ai fait une présentation au dernier Alfresco Meetup sur les alternatives pour l'import de documents, disponible àhttp://www.openwide.fr/index.php/Open-Wide/Lab/Contributions/Alfresco-Meetup-ETL-Connector-Talend .

Pour faire court, l'ETL Talend et son connecteur Alfresco peuvent fournir une réponse assez versatile pour le besoin cité. A moins que développer une action automatisée dédiée en vale la chandelle !

Talend 3.1, comprenant le connecteur Alfresco, est disponible à http://www.talend.com/download.php .
Le connecteur Alfresco a été contribué sur la forge Alfresco à http://forge.alfresco.com/projects/etlconnector/ .
Pour plus d'informations, voir http://knowledge.openwide.fr/bin/view/Main/AlfrescoETLConnector .

moquayn
Champ in-the-making
Champ in-the-making
Bonjour :
- les métadonnées dites "classiques" (dublincore = titre, auteur, date de creation, description etc …) sont extraites automatiquement des documents de format courant. Pour une extraction plus personnalisée, il faudra créer soi-même une classe java d'extraction personnalisée.

J'essaie d'utiliser la règle de contenu "Extraire les champs metadata classiques de l'élément" dont vous avez parlé. Ce qui m'intéresse principalement, c'est récupérer la date de création donc je n'ai pas besoin d'extraction personnalisée, cette règle me convient très bien.
Je suis allé faire un tour sur le Wiki, mais je n'ai toujours pas trouvé la réponse à ma question : Où et comment peut-on récupérer les informations extraites par Alfresco ?

Parce que ma règle à l'air de marcher mais je ne retrouve les informations !
Quand on utilise cette règle sans vouloir la personnaliser, a-t-on besoin de configurer certains fichiers XML ?

Merci beaucoup pour votre aide

nini
Champ in-the-making
Champ in-the-making
Personnellement dans la version 3.2., les metadonnées se mettent bien (auteur, date de création, titre…) excepté les catégories et les tags.
Pourtant ces champs existent dans mes documents de base.

Dès lors y a t'il moyen d'ajouter des tags et catégorie à la classification Alfresco via les propriétés des documents?

Sinon, si je configure les tags et catégorie avant au départ d'alfresco, et que je les réutilise dans les propriétés de mes documents, comment faire pour les remplir via un simple dépot de fichier dans mon internet explorer ?

Merci

jeanjot
Confirmed Champ
Confirmed Champ
Bonjour

ninghels peux-tu nous dire ou se trouve les catégories et les tags dans tes documents de base, car ce n'est pas très clair pour expliquer comment alfresco peut récupérer ces informations.

D'abord de quel type de document s'agit-il ? MSoffice, openoffice, pdf ???
et où sont les catégories et les tags, dans le contenu du documents ou dans les propriétés du document ou extérieur au document ? et si extérieur au document sous quelle forme ?

Quelques précisions serait un plus.

nini
Champ in-the-making
Champ in-the-making
Merci pour la réponse.
Pardon si j'étais pas clair.

Prennons un document word version 2003.
si je le transfert via CIFS en bas de mon explorateur microsoft sont repris les propriétés du document (le nom, la date de modification, l'auteur, un champs Tags, la taille, le titre, un éventuel commentaire et les catégories). Tout ces champs correspondent aux propriétés du document accessible avec le clic droit sur le fichier.

Dans alfresco, j'ajoute les aspect 'Dublin Core', 'Classifiable'  et aussi 'Taggable'. mais les champs    Publisher:   Contributor: Type:   Identifier:    Source:      Coverage:   Rights:   Subject:   Summary: et tags (en bas de properties) sont vides. (rmq : je n'ai pas essayer de compléter les champs publisher, contributor type, subject). c'est surtout le tags qui m'intéresse.

Merci pour tout.

Nicolas

mdutoo
Champ on-the-rise
Champ on-the-rise
Bonjour ninghels

Les métadonnées ne sont pas extraites magiquement des documents (Word ou autres), il faut qu'existe et soit configuré un extracteur (MetadataExtracter). Pour les documents MS Office, il s'agit de OfficeMetadataExtracter, et à lire son code il est capable d'extraite une quinzaine de métadonnées Office standard.

Par contre il ne gère pas l'extraction de propriétés Office personnalisées (définies par l'utilisateur) pour lesquelles existeraient des propriétés personnalisées Alfresco équivalentes définies. Ce qui pourrait être une fonctionnalité utile… Mais en attendant ce que tu souhaites avec les tags et catégories n'est pas possible.

Mais en prenant la question de l'autre côté, vu qu'il s'agit de toutes façons de propriétés personnalisées sur tes documents Word, pourquoi ne les renseignerais-tu pas directement dans Alfresco (qui est une GED et donc faite pour ça, des métadonnées personnalisées), plutôt que les rentrer d'abord dans Word ?

Cordialement,
Marc