Hyland Connect

pedrogonzalez · ‎02-22-2018

Buenas tardes,

Desde hace un tiempo una máquina anda algo saturada y revisando javamelody encuentro un alto número de peticiones http, en los logs me he encontrado que en 'localhost_access_log' se realizan peticiones cada 30 segundos, sobre los mismos 500 nodos (más o menos).

"GET /alfresco/service/api/solr/textContent?nodeId=5627219&propertyQName=%7bhttp%3a%2f%2fwww.alfresco.org%2fmodel%2fcontent%2f1.0%7dcontent HTTP/1.1" 200

Esto conlleva a que las peticiones que se realizan superan el millón con facilidad.

Algunos de los documentos que he observado, son imágenes que han pasado por un tratamiento de OCR y transformado a pdf, seguramente todos sean de esa procedencia. Aporto este dato por el tipo de petición que realiza.

Esos documentos se almacenaron pero ya no han sido modificados.

¿Sabéis el motivo?¿Alguna sugerencia para detener el acoso de dichas peticiones?

Muchas gracias de antemano!

angelborroy · ‎02-22-2018

SOLR está tratando de indexar el contenido del fichero. Para ello le pide a Tika que extraiga el contenido del PDF. Esa es la llamada que estás observando.

Entiendo que esta operación estará generando un problema en el log que quizá pueda arrojar alguna pista.

Hyland Developer Evangelist

pedrogonzalez · ‎02-22-2018

Gracias Angel Borroy‌, a qué log te refieres?

Un saludo!

angelborroy · ‎02-22-2018

alfresco.log

Hyland Developer Evangelist

pedrogonzalez · ‎02-23-2018

Ya lo miré y no hay nada sobre ello. Seguiré con la búsqueda y en el momento que lo solucione, os comento

Un saludo,

cesarista · ‎02-23-2018

Buenas:

SOLR cada 15 segundos pregunta a los servicios de Alfresco cuantas transacciones le quedan por indexar, asi que si se esta subiendo o actualizando contenido con frecuencia en tu servidor veras esos logs. Si estáis haciendo muchas cargas de datos, procesos OCR locales en el servidor, y peticiones de SOLR que derivan en transformaciones, puede que SOLR esté consumiendo muchos recursos de CPU o necesite mas memoria RAM. Si las peticiones son siempre sobre los mismos nodos ya es un poco mas extraño, pero si no hay errores...

Por último, cuidado con el tamaño de los índices de SOLR cuando se hacen procesos OCR, porque tienden a ocupar mucho.

Saludos.

--C.

pedrogonzalez · ‎02-26-2018

Buenas,

Muchas gracias por la información. El proceso de OCR lo hicimos antes de subir los nodos a Alfresco en una máquina explícita para ese proceso, y posteriormente fueron cargados. Al importarlos eramos conscientes de que la máquina iría saturada para indexar todos los nodos y su contenido. Pero pasado un tiempo de ello, nos dimos cuenta que la máquina estaba algo saturada y ya no era normal, es aquí cuando vimos estas peticiones recurrentes de los mismos nodos.

Os mantendré informados

Un saludo y gracias!

angelborroy · ‎02-26-2018

¿Habéis leído esto http://www.keensoft.es/alfresco-y-el-extrano-caso-del-pdf-asesino/?

Quizá estéis afectados por esta incidencia: https://github.com/keensoft/alf-21970-repo

Hyland Developer Evangelist

pedrogonzalez · ‎02-26-2018

Sí, lo leímos antes de darnos cuenta de esto, y en principio no nos parecía que fuera eso. Pero visto lo visto, no descartamos nada y lo vamos a investigar más a fondo.

Gracias!

Hyland Connect

Excesivas peticiones a solr