Llevo unos meses trabajando en un proyecto donde debo extraer y limpiar datos de miles de documentos PDF con estructuras muy distintas, y la verdad es que se ha vuelto un cuello de botella enorme. He probado varias librerías y enfoques, pero siento que me falta una visión más sistemática para abordar este tipo de problemas de forma eficiente. Me pregunto si alguien más ha pasado por esto y cómo ha manejado la etapa de preprocesamiento cuando los datos vienen en formatos tan caóticos.
|
Cómo optimizar el preprocesamiento de datos en pdfs con estructuras distintas?
|
|
Veo que el cuello de botella es el preprocesamiento y la variabilidad de las estructuras. Una ruta es crear un pipeline de preprocesamiento por etapas y definir reglas para cada tipo de documento. Empezar por catalogar tipos de PDFs y extraer metadatos para priorizar limpieza.
Me da una mezcla de frustración y esperanza. El preprocesamiento debe ordenarse pero a veces el caos parece inteligente y sabe evitar reglas simples.
yo pienso que basta con volcar todo a texto plano y ya ver despues que pasa. si la estructura cambia todo el tiempo no importa mientras aparezcan las palabras clave.
¿Y si en lugar de limpiar cada doc uno por uno se aprovechan modelos de extracción que aprendan de ejemplos?
Sinceramente dudaría de que la culpa sea solo la librería. Quizás el problema está en la calidad de los datos y no en la técnica. No me fío de la idea de que más código solucione todo.
y si el enfoque fuera pensar menos en limpiar y mas en estandarizar desde origen. detectar patrones y construir un meta modelo que maneje variaciones sin tocar cada caso.
|
|
« Tema anterior | Tema siguiente »
|

