ADVERTISEMENT - LEADERBOARD

Detección automatizada de duplicados y conciliación de registros maestros

Seed: RawData with ID, Name, Email, Date; MasterKey with canonical IDs; Formula: fuzzy match using helper columns and scoring
ADVERTISEMENT - IN-ARTICLE

Guía de Implementación

Este libro proporciona un flujo de trabajo de conciliación semiautomático para detectar duplicados y asignar registros sin procesar a ID maestras mediante coincidencias deterministas y difusas.Comience con claves deterministas (correo electrónico, identificación nacional) mediante COINCIDENCIA/BUSCARX exacta.Para casi duplicados, calcule campos normalizados (recortar, reducir, eliminar puntuación) y utilice una coincidencia de cadenas aproximada mediante algoritmos auxiliares: distancia de Levenshtein en VBA o coincidencia aproximada mediante INDEX/MATCH con LEFT/N y umbrales de similitud.Cree una columna de puntuación de coincidencia que combine coincidencias exactas, superposición de tokens y proximidad de fechas;marque coincidencias de alta confianza para la fusión automática y presente candidatos de baja confianza en una hoja de revisión.Incluya registros de conciliación, pistas de auditoría y un proceso incremental que escriba las fusiones aceptadas en MasterKey.Esto reduce la limpieza manual y prepara los datos para análisis posteriores con alta integridad.
ADVERTISEMENT - STICKY