02-22-2018 10:23 AM
Buenas tardes,
Desde hace un tiempo una máquina anda algo saturada y revisando javamelody encuentro un alto número de peticiones http, en los logs me he encontrado que en 'localhost_access_log' se realizan peticiones cada 30 segundos, sobre los mismos 500 nodos (más o menos).
"GET /alfresco/service/api/solr/textContent?nodeId=5627219&propertyQName=%7bhttp%3a%2f%2fwww.alfresco.org%2fmodel%2fcontent%2f1.0%7dcontent HTTP/1.1" 200
Esto conlleva a que las peticiones que se realizan superan el millón con facilidad.
Algunos de los documentos que he observado, son imágenes que han pasado por un tratamiento de OCR y transformado a pdf, seguramente todos sean de esa procedencia. Aporto este dato por el tipo de petición que realiza.
Esos documentos se almacenaron pero ya no han sido modificados.
¿Sabéis el motivo?¿Alguna sugerencia para detener el acoso de dichas peticiones?
Muchas gracias de antemano!
02-22-2018 10:40 AM
SOLR está tratando de indexar el contenido del fichero. Para ello le pide a Tika que extraiga el contenido del PDF. Esa es la llamada que estás observando.
Entiendo que esta operación estará generando un problema en el log que quizá pueda arrojar alguna pista.
02-22-2018 10:51 AM
Gracias Angel Borroy, a qué log te refieres?
Un saludo!
02-22-2018 10:54 AM
alfresco.log
02-23-2018 02:04 AM
Ya lo miré y no hay nada sobre ello. Seguiré con la búsqueda y en el momento que lo solucione, os comento
Un saludo,
02-23-2018 12:18 PM
Buenas:
SOLR cada 15 segundos pregunta a los servicios de Alfresco cuantas transacciones le quedan por indexar, asi que si se esta subiendo o actualizando contenido con frecuencia en tu servidor veras esos logs. Si estáis haciendo muchas cargas de datos, procesos OCR locales en el servidor, y peticiones de SOLR que derivan en transformaciones, puede que SOLR esté consumiendo muchos recursos de CPU o necesite mas memoria RAM. Si las peticiones son siempre sobre los mismos nodos ya es un poco mas extraño, pero si no hay errores...
Por último, cuidado con el tamaño de los índices de SOLR cuando se hacen procesos OCR, porque tienden a ocupar mucho.
Saludos.
--C.
02-26-2018 03:29 AM
Buenas,
Muchas gracias por la información. El proceso de OCR lo hicimos antes de subir los nodos a Alfresco en una máquina explícita para ese proceso, y posteriormente fueron cargados. Al importarlos eramos conscientes de que la máquina iría saturada para indexar todos los nodos y su contenido. Pero pasado un tiempo de ello, nos dimos cuenta que la máquina estaba algo saturada y ya no era normal, es aquí cuando vimos estas peticiones recurrentes de los mismos nodos.
Os mantendré informados
Un saludo y gracias!
02-26-2018 04:07 AM
¿Habéis leído esto http://www.keensoft.es/alfresco-y-el-extrano-caso-del-pdf-asesino/?
Quizá estéis afectados por esta incidencia: https://github.com/keensoft/alf-21970-repo
02-26-2018 06:11 AM
Sí, lo leímos antes de darnos cuenta de esto, y en principio no nos parecía que fuera eso. Pero visto lo visto, no descartamos nada y lo vamos a investigar más a fondo.
Gracias!
Tags
Find what you came for
We want to make your experience in Hyland Connect as valuable as possible, so we put together some helpful links.