Автоматическое обнаружение дубликатов и сверка основной записи
Seed: RawData with ID, Name, Email, Date; MasterKey with canonical IDs; Formula: fuzzy match using helper columns and scoringADVERTISEMENT - IN-ARTICLE
Руководство
Эта книга предоставляет полуавтоматический рабочий процесс сверки для обнаружения дубликатов и сопоставления необработанных записей с основными идентификаторами с использованием детерминированного и нечеткого сопоставления.Начните с детерминированных ключей (электронная почта, национальный идентификатор) с помощью точного ПОИСКПОЗ/XLOOKUP.Для почти дубликатов вычислите нормализованные поля (обрежьте, уменьшите, удалите знаки препинания) и используйте приблизительное сопоставление строк с помощью вспомогательных алгоритмов: расстояние Левенштейна в VBA или приблизительное сопоставление с помощью INDEX/MATCH с LEFT/N и порогами сходства.Создайте столбец оценки соответствия, объединяющий точные совпадения, перекрытие токенов и близость дат;отмечайте совпадения с высоким уровнем достоверности для автоматического объединения и представляйте кандидатов с низким уровнем достоверности в листе обзора.Включите журналы сверки, журналы аудита и инкрементальный процесс записи принятых слияний в MasterKey.Это сокращает необходимость ручной очистки и обеспечивает высокую целостность данных для последующей аналитики.