01-10-2018 01:57 PM
Saludos, es la primera vez que me animo a escribir en este foro aunque ya lo he usado alguna que otra vez.
Según he aprendido en mi corta andadura con alfresco, un gestor documental está pensado precisamente para eso, documentos, que requieran versionado, inclusión en flujos de trabajo, compartición entre distintos usuarios, búsquedas en el texto, etc. Pero no encuentro información acerca de si es válido también para otro tipo de funciones o más bien de las limitaciones y las precauciones a tomar ante ciertos escenarios.
Entrando en detalle, estamos buscando un sistema que sea capaz de gestionar toda la información que se genera en un grupo de laboratorio de investigación biomédica (a nivel interno). Esto incluye desde documentos ofimáticos a ficheros generados con pruebas clínicas, como resonancias magnéticas o encefalografías, ficheros resultantes de secuenciación genética, vídeos de pacientes, etc. No se trata de una gran cantidad de sujetos ya que al tratarse de un grupo de investigación no tenemos las necesidades de un hospital, pero si tenemos unos 6000, de los cuales la mayoría poseen poca información al tratarse de sujetos control (personas sanas para comparar con los que padecen la enfermedad a estudiar), pero al menos 1000 que si tienen una información considerable. También se prevé un crecimiento en el número de sujetos a largo plazo y por supuesto de la cantidad de información registrada de estos nuevos sujetos. Estimamos a medio plazo que dado el gran tamaño de algunos de los ficheros, el tamaño de nuestro repositorio pueda estar en torno a 3-4 TB, posiblemente más, y pensando en el largo plazo esa cifra se superaría con creces.
No sabemos si alfresco será capaz de tirar con esa cantidad de datos, si al tener que indexar esa gran cantidad de información se volverá demasiado lento, si después de algún reinicio nos llevará horas o días la regeneración de los índices y todo ello sin contar con una gran máquina para esta tarea (i7 7700K, 32GB de RAM, potente para ser un pc pero no es un servidor).
Se supone que para el almacén de documentos o archivos "finalizados" que no requieran versiones o flujos de trabajo, etc., no se debería usar una herramienta de este tipo, ya que no se le saca partido, pero queríamos usarlo por dos motivos: el primero de ellos, porque queríamos añadir algunos metadatos a esos ficheros para agilizar las búsquedas y en segundo lugar para tener toda la información de archivos/documentos en una misma plataforma, facilitando las tareas de copia y mantenimiento de esa información.
¿Es excesiva la carga de información para una instancia de alfresco?¿Se os ocurre alguna recomendación de arquitectura (varias instancias distintas, repositorios externos,...) que pueda dar soporte a nuestro caso?
Muchas gracias de antemano y perdón por la extensión.
01-10-2018 02:23 PM
Alfresco es capaz de gestionar ese volumen de información, aunque quizá tengas que hacer algún ajuste.
Algunas recomendaciones:
1) Usa un servidor Linux
2) Realiza una instalación por componentes (para poder balancear conforme la carga vaya subiendo)
Una pregunta:
¿Los ficheros son muy voluminosos o tienes muchos ficheros? (lo primero es mejor para Alfresco)
En resumen: puedes usar Alfresco y no es descabellado. Una máquina Linux de 32 GB de RAM debería ser capaz de gestionar el volumen de información que describes.
01-10-2018 04:47 PM
Buenas Ángel, gracias por contestar.
Contestando al punto 1, pensábamos tenerlo en Linux de hecho tenemos uno montado en Debian, en el cual estamos realizando pruebas y creando el esqueleto de estructura, aunque hemos frenado un poco la implementación porque nos han surgido estas dudas de escalabilidad.
En cuanto al punto 2, depende. Pongo ejemplos concretos:
La verdad es que es difícil de estimar el crecimiento porque es muy variable según el número de proyectos, o si nos envían datos de otros centros. Lo que si se suele cumplir es que de un sujeto se suele tener una prueba de algunos tipos y muy de vez en cuando dos. Haciendo un cálculo rápido diría que un sujeto que tuviera todas las pruebas hechas:
En total, tirando por lo alto unos 10 GB para un sujeto que tuviera todo hecho. Pero eso no suele ocurrir, así que estimo que a medio plazo (hasta 2020 más o menos) estaremos rondando los 3 o 4 TB.
Aparte lo que nos preocupa es que montemos un sistema del cual tengamos una fuerte dependencia, que luego no nos permita escalar exponencialmente si se requiriese. Obviamente no existe ninguna solución escalable infinitamente y a prueba de la evolución tecnológica pero queremos elegir bien.
Aparte, mencionas que quizás habría que realizar algún ajuste. ¿Podrías ser más concreto?
Muchas gracias de nuevo.
01-11-2018 03:33 AM
No creo que tengáis problemas de escalabilidad si lo instaláis por componentes. En cuanto a los ajustes, incluyo algunas recomendaciones de carácter general, aunque habría que analizar con más detalle el entorno para poder afinar el rendimiento.
Usar sistemas operativos Linux de 64 bits
Usar un servidor con CPU de frecuencia 2.0 GHz o superior
Proveer memoria específica para cada componente: sistema operativo, JVM, SOLR, LibreOffice y base de datos
Usar el disco local (preferiblemente SDD) para almacenar los índices de búsqueda de SOLR
Optimizar los sistemas de entrada/salida
- Comunicación entre Alfresco y base de datos
- Comunicación entre Alfresco y SOLR
- Comunicación entre Alfresco y el sistema de ficheros (NAS o NFS)
Deshabilitar servicios y protocolos no requeridos en Alfresco
Controlar el crecimiento de la anidación en las jerarquías de grupos y utilizar intensivamente el mecanismo de herencia de permisos de Alfresco
Controlar el máximo número de nodos hijos de un mismo nodo, suele establecerse como 3.000 el número mágico
Utilizar una máquina de TEST para probar cualquier cambio antes de realizarlo en PRO
Incluir un plan de capacidad en el proceso de validación de la arquitectura
Si se configura detrás de un Web Server, SOLR puede ser configurado en HTTP
Utilizar cualquier herramienta de monitorización
En vuestro caso lo más peligroso parece el número de sujetos, ya que podrían superar ese límite de 3.000 nodos hijos si creáis una carpeta para cada uno debajo del mismo sitio. Podéis organizarlos por proyecto, año o cualquier otro criterio que os permita reducir ese número.
01-13-2018 10:56 AM
¿Se consideran nodos hijos solo los inmediatamente posteriores?¿o todo el árbol?
Por ejemplo, actualmente tenemos unos 6000 sujetos. En su momento decidimos crear la siguiente estructura:
Sitio "Sujetos"
Por tanto tenemos 500 sujetos por cada carpeta SujetosXXXXX-YYYYY pero todas cuelgan de "documentLibrary" del sitio Sujetos.
01-14-2018 04:10 AM
Nodos al mismo nivel, así que con esa división será suficiente.
Tags
Find what you came for
We want to make your experience in Hyland Connect as valuable as possible, so we put together some helpful links.