ADVERTISEMENT - LEADERBOARD

Автоматическое обнаружение дубликатов и сверка основной записи

Seed: RawData with ID, Name, Email, Date; MasterKey with canonical IDs; Formula: fuzzy match using helper columns and scoring
ADVERTISEMENT - IN-ARTICLE

Руководство

Эта книга предоставляет полуавтоматический рабочий процесс сверки для обнаружения дубликатов и сопоставления необработанных записей с основными идентификаторами с использованием детерминированного и нечеткого сопоставления.Начните с детерминированных ключей (электронная почта, национальный идентификатор) с помощью точного ПОИСКПОЗ/XLOOKUP.Для почти дубликатов вычислите нормализованные поля (обрежьте, уменьшите, удалите знаки препинания) и используйте приблизительное сопоставление строк с помощью вспомогательных алгоритмов: расстояние Левенштейна в VBA или приблизительное сопоставление с помощью INDEX/MATCH с LEFT/N и порогами сходства.Создайте столбец оценки соответствия, объединяющий точные совпадения, перекрытие токенов и близость дат;отмечайте совпадения с высоким уровнем достоверности для автоматического объединения и представляйте кандидатов с низким уровнем достоверности в листе обзора.Включите журналы сверки, журналы аудита и инкрементальный процесс записи принятых слияний в MasterKey.Это сокращает необходимость ручной очистки и обеспечивает высокую целостность данных для последующей аналитики.
ADVERTISEMENT - STICKY