Tengo una duda que no me deja dormir. Alfresco realiza un OCR en los archivos PDF? Porque he subido un y me halla todas las palabras que contiene. El PDF es el producto de un escaneo gráfico. No comprendo cómo es posible. Si alguien quiere ver el PDF lo puedo subir a mi servidor.
Efectivamente, a través del api iText Alfresco convierte el contenido de los pdfs subidos en texto "plano". La parte fundamental para que este contenido extraido sea válido, es decir contenga las palabras correctas y bien escritas, es que el scanner pase ocr sobre el documento digitalizado (en la mayoría de los casos lo hace por defecto). Saludos,