cancel
Showing results for 
Search instead for 
Did you mean: 

Excesivas peticiones a solr

pedrogonzalez
Champ on-the-rise
Champ on-the-rise

Buenas tardes,

Desde hace un tiempo una máquina anda algo saturada y revisando javamelody encuentro un alto número de peticiones http, en los logs me he encontrado que en 'localhost_access_log' se realizan peticiones cada 30 segundos, sobre los mismos 500 nodos (más o menos).

"GET /alfresco/service/api/solr/textContent?nodeId=5627219&propertyQName=%7bhttp%3a%2f%2fwww.alfresco.org%2fmodel%2fcontent%2f1.0%7dcontent HTTP/1.1" 200

Esto conlleva a que las peticiones que se realizan superan el millón con facilidad.

Algunos de los documentos que he observado, son imágenes que han pasado por un tratamiento de OCR y transformado a pdf, seguramente todos sean de esa procedencia. Aporto este dato por el tipo de petición que realiza.

Esos documentos se almacenaron pero ya no han sido modificados.

¿Sabéis el motivo?¿Alguna sugerencia para detener el acoso de dichas peticiones?

Muchas gracias de antemano!

8 REPLIES 8

angelborroy
Community Manager Community Manager
Community Manager

SOLR está tratando de indexar el contenido del fichero. Para ello le pide a Tika que extraiga el contenido del PDF. Esa es la llamada que estás observando.

Entiendo que esta operación estará generando un problema en el log que quizá pueda arrojar alguna pista.

Hyland Developer Evangelist

Gracias Angel Borroy‌, a qué log te refieres?

Un saludo!

alfresco.log

Hyland Developer Evangelist

Ya lo miré y no hay nada sobre ello. Seguiré con la búsqueda y en el momento que lo solucione, os comento

Un saludo,

cesarista
World-Class Innovator
World-Class Innovator

Buenas:

SOLR cada 15 segundos pregunta a los servicios de Alfresco cuantas transacciones le quedan por indexar, asi que si se esta subiendo o actualizando contenido con frecuencia en tu servidor veras esos logs. Si estáis haciendo muchas cargas de datos, procesos OCR locales en el servidor, y peticiones de SOLR que derivan en transformaciones, puede que SOLR esté consumiendo muchos recursos de CPU o necesite mas memoria RAM. Si las peticiones son siempre sobre los mismos nodos ya es un poco mas extraño, pero si no hay errores...

Por último, cuidado con el tamaño de los índices de SOLR cuando se hacen procesos OCR, porque tienden a ocupar mucho.

Saludos.

--C.

Buenas,

Muchas gracias por la información. El proceso de OCR lo hicimos antes de subir los nodos a Alfresco en una máquina explícita para ese proceso, y posteriormente fueron cargados. Al importarlos eramos conscientes de que la máquina iría saturada para indexar todos los nodos y su contenido. Pero pasado un tiempo de ello, nos dimos cuenta que la máquina estaba algo saturada y ya no era normal, es aquí cuando vimos estas peticiones recurrentes de los mismos nodos.

Os mantendré informados

Un saludo y gracias!

¿Habéis leído esto http://www.keensoft.es/alfresco-y-el-extrano-caso-del-pdf-asesino/?

Quizá estéis afectados por esta incidencia: https://github.com/keensoft/alf-21970-repo

Hyland Developer Evangelist

Sí, lo leímos antes de darnos cuenta de esto, y en principio no nos parecía que fuera eso. Pero visto lo visto, no descartamos nada y lo vamos a investigar más a fondo. 

Gracias!

Getting started

Tags


Find what you came for

We want to make your experience in Hyland Connect as valuable as possible, so we put together some helpful links.