cancel
Showing results for 
Search instead for 
Did you mean: 

Import en masse de fichiers avec metadata

fidele
Champ in-the-making
Champ in-the-making
Bonjour à tous,
Nous avons installé  alfresco version Labs-3Stable-Full sur un OS windows server 2003 dont voici les config
-Intel pentuim 4 CPU  2.66ghz
-2,5Go de ram
-et une DD de 300go
Notre objectif est de migrer des documents de 100go dans alfresco avec leur metadata.  Pour cela nous avons choisis FTP (avec fileFezilla comme client ftp) pour le transfert  des  fichiers  ACP vers le serveur alfresco. Le système est bien en place mais pendant la phase de production, nous avons rencontré plusieurs problèmes :

1-Le transfert se fait très lentement : pour un volume de 20 go, il prend une journée entière

2-Quand on arrive au nombre de 3500 à 4000 documents transférés soit  à peu pres  10 à 12  go de volume, alfresco ne prend plus les documents   alors que  du coté fezilla les transferts continuent sans erreur. Quand on regarde par exemple le nombre doc importés (via le nombre de page dans l’espace)  alfresco nous donne des chiffres aléatoires  n’atteignant jamais le nombre exacte et si on observe aussi le nombre de doc dans le répertoire de destination, les nombres ne sont pas les mêmes que celui des fichiers ACP (normalement il devrait y avoir tant de ACP que de documents importés) . Le console de tomcat ne montre aucune erreur.

3-Nous avons constaté aussi que alfresco copie les acps transférés dans un autre répertoire: tomcat\temp\alfresco, ce qui gonfle énormément le volume occupé (car finalement on arrive avec 3 fois du volume initiale : les fichiers ACP dans le répertoire drop down + Doc extraits de ces acp + ACP dans le répertoire TEMP).

Mes questions sont donc :
A – Est –ce qu’il y a un moyen pour accélérer le transfert ?  Voici le paramétrage JVM que nous utilisons : JAVA_OPTS=-Xms1024m -Xmx1024m -Xss512k -XX:MaxPermSize=128m -XX:NewSize=512m  -Xloggc:garbage.log (une petite remarque on n ‘arrive pas a monter Xms et Xmx au dela de 1G, tomcat ne demarre pas).

B – Pourquoi alfresco refuse les documents au-delà d’un certain volume, est ce qu’il ya une configuration à modifier ou c’est la performance du serveur qui est en cause ?

C – Nous pensons qu’alfresco utilise beaucoup de mémoire du heap pour  l’indexation des documents, alors on a cherché les moyens de le désactiver mais en vain (On a besoin seulement que les indexages des metadata mais pas une recherche full Text donc pas d’indexation du document PDF tout entier. Comment on désactive l’indexation du doc par leucene ?

D – Pour le répertoire TEMP dans tomcat, c’est un comportement normal d’alfresco ? Sinon comment on évite ça ?

E- Est – ce que vous pensez que le config de notre serveur arrivera à accomplir cette tache ?, C’est un serveur dédié  uniquement pour alfresco et aucun autre accès de l’extérieur pendant le transfert.

Voilà mes amis nos soucis, c’est un peu long mais j’ai essayé d’être plus claire le plus possible pourque vous puissiez comprendre les problèmes. Alors je compte sur vous.
Merci
Fidèle
2 REPLIES 2

mdutoo
Champ on-the-rise
Champ on-the-rise
Bonjour Fidèle

D'abord, CIFS est le mode le plus optimisé et donc définitivement conseillé pour un usage d'import massif.

Quelle base de données ? Pas Derby j'espère ! Et il y a plus performant que MySQL, même si pour tes besoins ça __devrait__ aller.

Ensuite, il est connu qu'un fichier ACP de plus de 1go ne passe pas bien. Pour aller au-delà de cette limite, une solution est d'en sortir les documents, ce que permettent des solutions tierces de manipulation d'ACP (comme Talend 3.1, avec des bugs connus sur Alfresco 3.x hélas : http://forge.alfresco.com/projects/etlconnector/ ).

Il n'est pas possible de désactiver Lucene, c'est un composant critique.

Que disent les logs ?

Comment est déclenché l'import des ACPs, par règle et action automatique ? Il se peut que ce mécanisme soit surchargé. Un mécanisme capable de gérer une vraie file de fichier à traiter peut être un bon investissement.

Cordialement,
Marc

rivarola
Champ on-the-rise
Champ on-the-rise
Bonjour,

Pour ce qui est des reprises de données nous avons aussi rencontré des problèmes. Il y a un bug en Alfresco 3.0 et 3.1, normalement corrigé en 3.2, sur les imports en masse dans CIFS. Le serveur part en vrille dès que quelque centaines de documents sont "droppés" dans un partage CIFS en une seule opération. Peut-être que FTP soufre des mêmes problèmes à une échelle moindre.