自動重複検出とマスターレコード調整
Seed: RawData with ID, Name, Email, Date; MasterKey with canonical IDs; Formula: fuzzy match using helper columns and scoringADVERTISEMENT - IN-ARTICLE
導入ガイド
このワークブックは、決定論的およびあいまい一致を使用して重複を検出し、生のレコードをマスター ID にマッピングする半自動調整ワークフローを提供します。正確な MATCH/XLOOKUP を介して、決定論的なキー (電子メール、国民 ID) から開始します。類似した重複の場合は、正規化されたフィールド (トリム、下限、句読点の削除) を計算し、ヘルパー アルゴリズム (VBA のレーベンシュタイン距離) によるおおよその文字列一致、または LEFT/N および類似性のしきい値を使用した INDEX/MATCH によるおおよその一致を使用します。完全一致、トークンの重複、および日付の近さを組み合わせた一致スコア列を作成します。信頼性の高い一致に自動マージのフラグを立て、信頼性の低い候補をレビュー シートに表示します。調整ログ、監査証跡、および受け入れられたマージを MasterKey に書き込む増分プロセスが含まれます。これにより、手動によるクリーンアップが減り、高い整合性を保ったまま下流分析用にデータが準備されます。
💡 よくある質問
Q: \
これを 100,000 行まで拡張できますか?\" \"