cancel
Showing results for 
Search instead for 
Did you mean: 

¿Es posible limpiar los metadatos de un documento cuando el usuario lo sube al repositorio?

cloud
Champ on-the-rise
Champ on-the-rise

Me gustaría saber, si existe alguna posibilidad, mediante la cual se limpien los metadatos de un documento (word, pdf, etc..) que un usuario suba al repositorio. De modo que le documento quede almacenado en Alfresco, limpio de metadatos que incorpore el documento.

4 REPLIES 4

angelborroy
Community Manager Community Manager
Community Manager

Deberías ajustar la configuración de los extractores de metadatos:

Metadata Extractors | Alfresco Documentation 

Existe uno diferente por cada tipo de formato.

O también puedes desactivarlos de manera global:

- How to deactivate metadata extraction in Alfresco - zylk 

Hyland Developer Evangelist

cloud
Champ on-the-rise
Champ on-the-rise

Gracias Ángel.

Pero esto afecta a la extracción de Alfresco de los metadatos, pero el documento subido (el binario por asi decirlo) ¿le limpia los metadatos? Es decir, por ejemplo:

- Tengo un word, con cierta información en sus metadatos (usuario de windows, fecha de ultima apertura, creación, etc...) ajustando los extractores de metadatos limpio el documento? o limpio los metadatos que lee Alfresco del documento pero el documento queda almacenado con esos metadatos?

No descarto modificar los extractores y en caso de que no limpien el documento, meter ffmpeg exiftool o algo de ese estilo, para que lo que entre en /data borrarle los metadatos... pero preguntaba por si hay algo 'más elegante' en el propio Alfresco (plugin o similar).

Gracias.

angelborroy
Community Manager Community Manager
Community Manager

Eso solo afecta a los metadatos que Alfresco extrae del documento, pero no los limpia del propio documento. Supongo que la mejor alternativa sería utilizar la misma herramienta que utiliza Alfresco: Apache Tika. 

Pero tampoco conozco nada similar que pueda ser aplicado.

Hyland Developer Evangelist

joseantonionava
Star Contributor
Star Contributor

Hola Cloud Consultas,

no se si javascript en reglas de contenido con herencia te puede servir.

Pj:

"Limpiar" el metadato autor que MS Word escribe en sus ficheros:

document.properties["cm:author"] = "";
document.save();

Puede ser laborioso y un script largo si son muchos metadatos diferentes los que necesitas eliminar, pero es sencillo.

Para fotografías incluso podrías quitar el aspecto EXIF desde reglas de contenido también.

Espero te sirva, un saludo.

Getting started

Tags


Find what you came for

We want to make your experience in Hyland Connect as valuable as possible, so we put together some helpful links.