ADVERTISEMENT - LEADERBOARD

Rilevamento automatico dei duplicati e riconciliazione dei record anagrafici

Seed: RawData with ID, Name, Email, Date; MasterKey with canonical IDs; Formula: fuzzy match using helper columns and scoring
ADVERTISEMENT - IN-ARTICLE

Guida Professionale

Questa cartella di lavoro fornisce un flusso di lavoro di riconciliazione semiautomatico per rilevare i duplicati e mappare i record non elaborati sugli ID principali utilizzando la corrispondenza deterministica e fuzzy.Inizia con chiavi deterministiche (e-mail, ID nazionale) tramite CORRISPONDENZA esatta/CERCAX.Per i quasi duplicati, calcola i campi normalizzati (taglia, abbassa, rimuovi la punteggiatura) e utilizza la corrispondenza approssimativa delle stringhe tramite algoritmi di supporto: distanza Levenshtein in VBA o corrispondenza approssimativa tramite INDICE/MATCH con SINISTRA/N e soglie di somiglianza.Crea una colonna del punteggio di corrispondenza che combina corrispondenze esatte, sovrapposizione di token e vicinanza della data;contrassegnare le corrispondenze con elevata probabilità per l'unione automatica e presentare i candidati con scarsa probabilità in un foglio di revisione.Includi registri di riconciliazione, audit trail e un processo incrementale che scrive le unioni accettate su MasterKey.Ciò riduce la pulizia manuale e prepara i dati per l'analisi downstream con elevata integrità.
ADVERTISEMENT - STICKY