Identity Resolution: Von 6 Signalen zur einheitlichen Kundenidentität

Der durchschnittliche E-Commerce-Kunde wird von sechs verschiedenen Geräten aus 11 Touchpoints aus sichtbar, bevor er eine Kaufentscheidung trifft. GA4 erfasst diese als 4 unterschiedliche User, das CRM registriert 2 verschiedene Leads, die E-Mail-Plattform 1 Subscriber. In einer Cookie-losen Welt ist Attribution ohne Zusammenführung dieser Fragmente unmöglich, Segmentierung bedeutungslos, die Berechnung des Customer Lifetime Value nicht durchführbar. Identity Resolution ist die Data Engineering-Disziplin, die diese Fragmente zusammenbringt – eine 3-schichtige Architektur, die vom deterministischen Hash Matching bis zum Probabilistic Linking reicht.

Hash Matching: Die deterministische Identitäts-Wirbelsäule

Deterministisches Matching funktioniert auf Basis von SHA-256 Hashes. Die E-Mail-Adresse "[email protected]" wird zu Hash "5e884898da28047151d0e56f8dc6292773603d0d6aabbdd62a11ef721d1542d8" – wenn jedes System denselben Hash hat, ist es dieselbe Person. Du fügst die user_data.email_sha256-Parameter zur Server-seitigen GTM Event Payload hinzu, sobald sich der Nutzer anmeldet. In BigQuery werden Web-Sessions, CRM-Leads und Klaviyo-Subscriber in einer Zeile über diesen Hash zusammengeführt.

Zwei kritische Punkte: Hash-Salt-Strategie und Collision-Risiko. Wenn du einen Hash direkt ohne Salt berechnest, besteht ein Rainbow-Table-Angriffsrisiko – aber in einer Pazarlama-Datenpipeline muss der Salt über alle Systeme hinweg konsistent sein, sonst generiert dieselbe E-Mail verschiedene Hashes. Das Collision-Risiko ist bei SHA-256 theoretisch – praktische Kollisionen im 2^256-Raum sind nicht realistisch, aber bei Feldern mit niedriger Entropie wie Telefonnummern wird der Determinismus schwächer. Deshalb ist eine E-Mail + Telefonnummern-Kombination eine sicherere Identitäts-Grundlage.

Wenn du Daten aus Klaviyo in BigQuery ziehst, fügst du die user_properties.email_sha256-Spalte hinzu und machst in deinem dbt-Modell ein LEFT JOIN web_events USING (email_sha256). So wird die anonyme Web-Session mit dem Subscriber-Profil in einer Zeile zusammengeführt. Die Snapshot-Tabellen-Strategie ist entscheidend – Hash-Matches sollten in täglichen Snapshots gespeichert werden, da alte Matches nicht verloren gehen dürfen, wenn ein Nutzer seine E-Mail-Adresse ändert.

Probabilistic Linking: Fuzzy Logic zur Signalverschmelzung

Deterministisches Matching reicht in der cookie-losen mobilen Web nicht aus. Ein Nutzer meldet sich ab, ohne sich einzuloggen oder eine E-Mail anzugeben, aber die Kombination IP + User Agent + Zeitzone + Sprache ist mit 87% Wahrscheinlichkeit dieselbe Person. Hier kommt der probabilistische Identity Graph ins Spiel – du gewichtest Signale mit Bayesscher Wahrscheinlichkeit.

Es gibt sechs grundlegende Signalschichten: Device Fingerprint (Canvas Hash, WebGL Renderer), Netzwerkschicht (IP-Subnetz, ASN), Verhaltensmuster (Session Duration, Path Sequence), Geolokalisierung (GPS lat/long Clustering), Zeitsignal (Active Hour Pattern) und Kontextuelle Metadaten (Referrer Domain, UTM Konsistenz). Jedes Signal erhält einen Konfidenz-Score von 0–100, und wenn die gewichtete Summe über 70 liegt, wird eine temporäre probabilistic_id zugewiesen.

In BigQuery modellierst du das folgendermaßen:

WITH signal_scores AS (
  SELECT
    session_id,
    device_fingerprint,
    ip_subnet,
    SUM(
      CASE WHEN device_fingerprint_match THEN 40 ELSE 0 END +
      CASE WHEN ip_subnet_match AND hour_diff < 4 THEN 25 ELSE 0 END +
      CASE WHEN behavior_vector_similarity > 0.8 THEN 20 ELSE 0 END
    ) AS total_confidence
  FROM event_stream
  WHERE timestamp > TIMESTAMP_SUB(CURRENT_TIMESTAMP(), INTERVAL 7 DAY)
)
SELECT session_id, device_fingerprint, total_confidence,
  CASE WHEN total_confidence >= 70 
    THEN GENERATE_UUID() 
    ELSE NULL 
  END AS probabilistic_id
FROM signal_scores

Der Trade-off dieses Ansatzes ist das False-Positive-Risiko – geteilte Geräte (Office-Computer) oder VPN-Nutzung können verschiedene Personen zusammenführen. Deshalb müssen probabilistische IDs immer gegen deterministische Hashes validiert werden – wenn sich ein Nutzer anmeldet, wird eine "Merge"-Operation über den Hash durchgeführt und alte probabilistische Sessions werden korrigiert.

Household Identity: Von Device-Clustern zur Haushaltseinheit

Die Entscheidungseinheit ist normalerweise nicht das Individuum, sondern der Haushalt. Von derselben IP aus nutzen 3 Geräte: MacBook (morgens nutzt ihn eine Frau), iPhone (tagsüber), iPad (abends nutzt es ein Kind). Diese als ein "Individuum" zu mergen ist falsch, aber als "Haushalt" zu gruppieren ist für Segmentierung kritisch – besonders bei Gebrauchsgütern (Weiße Ware, Möbel), wo die Kaufentscheidung auf Haushaltsebene getroffen wird.

Der Household Graph wird über Router/Modem MAC-Adresse + IP-Subnetz + GPS-Standort aufgebaut. Device Fingerprint reicht nicht aus, du brauchst Network Fingerprint, da der WiFi-Router auf jedem Gerät die gleiche Gateway-MAC liefert. Hier ist Vorsicht bei öffentlichem WiFi geboten – wenn du 200 Geräte von einer Starbucks-IP als "Haushalt" gruppierst, bricht dein Modell zusammen. Das filterst du durch Session-Count Threshold (dieselbe IP + 50+ unique Devices → Blacklist) und Dwelling-Time Pattern (dieselbe IP, 2+ Stunden Session nicht vorhanden → Einzelhandel/Cafe).

In BigQuery vergibst du die Household ID folgendermaßen:

CREATE OR REPLACE TABLE households AS
WITH network_clusters AS (
  SELECT ip_subnet, router_mac, GPS_lat, GPS_long,
    APPROX_COUNT_DISTINCT(device_id) AS device_count,
    AVG(session_duration_sec) AS avg_session
  FROM sessions
  WHERE DATE(timestamp) > DATE_SUB(CURRENT_DATE(), INTERVAL 30 DAY)
  GROUP BY 1,2,3,4
  HAVING device_count BETWEEN 1 AND 8 AND avg_session > 120
)
SELECT *, GENERATE_UUID() AS household_id
FROM network_clusters

Auf Haushaltsebene ist die Lifetime-Value-Berechnung aussagekräftiger, da der Kauf von Weiße Ware nicht von einer Person entschieden wird, sondern für den Haushalt. In CDP & Retention Engineering Architekturen liefern Haushalt-Segmente 23% höhere ROAS in Kampagnenzielgruppen als individuelle Segmente – weil eine einzelne Telefonnummer Nachrichten über verschiedene Geräte zu versenden ersetzt wird durch Haushalt-Strategie als zielgerichtete Einheit.

Graph Stitching: Zeitlich verteilte Identitätsverschmelzung

Der Identity Graph ist nicht statisch – der Nutzer ist heute anonym, morgen gibt er eine E-Mail an, in 5 Tagen meldet er sich an, in 2 Monaten aktualisiert er seine Telefonnummer. Mit jedem neuen Signal werden alte Fragmente "gesticht" – das heißt, alte probabilistische IDs werden mit dem neuen deterministischen Hash gemerged.

Du löst das in einer Event-driven-Architektur: jedes user_identified Event geht in Pub/Sub, eine Cloud Function wird ausgelöst, ein BigQuery MERGE Statement läuft. Beispiel: Ein Nutzer meldet sich an → E-Mail-Hash kommt → alle probabilistische IDs aus den letzten 90 Tagen, die mit demselben Device Fingerprint erstellt wurden, werden an diesen Hash gebunden. Diese Backfill-Operation sollte so lange zurückgehen wie dein Attribution Window – mit einem 30-Tage-Conversion-Window solltest du 30 Tage zurück stitchen.

MERGE INTO unified_identity AS target
USING (
  SELECT probabilistic_id, email_sha256, MAX(timestamp) AS last_seen
  FROM identification_events
  WHERE event_name = 'user_login'
  GROUP BY 1,2
) AS source
ON target.probabilistic_id = source.probabilistic_id
WHEN MATCHED THEN UPDATE SET 
  target.email_sha256 = source.email_sha256,
  target.is_deterministic = TRUE,
  target.stitched_at = CURRENT_TIMESTAMP()

Stitching birgt Race-Condition-Risiken – wenn sich ein Nutzer von 2 Geräten gleichzeitig anmeldet, können zwei unterschiedliche Hash-Merge-Versuche kollidieren. Du löst das mit Transaction Locks oder Idempotency Keys. Der Idempotency Key ist normalerweise device_id + timestamp_truncated_to_second – zwei user_login Events vom selben Gerät in derselben Sekunde werden als Duplikat behandelt und lösen nur einen Merge aus.

Datenschutz + Compliance: Gehashte PII und Datenminimierung

Identity Resolution fällt unter KVKK und GDPR unter die Kategorien "automatisierte Entscheidungsfindung" und "Profiling" – das heißt, ohne explizite Zustimmung nicht möglich. Wenn vom Consent Management Platform (OneTrust, Cookiebot) kein analytics_storage=granted Signal kommt, kannst du nicht einmal einen Hash erfassen. Im Consent Mode v2 ist mit grundlegender Zustimmung der user_data-Parameter leer, nach verbesserter Zustimmung wird der Hash hinzugefügt.

Hash ist keine PII, aber Pseudonymisierung – das heißt, unter GDPR "Recht auf Vergessenwerden" müssen auch Hashes gelöscht werden. In BigQuery musst du bei Löschanfragen ein DELETE Statement über email_sha256 ausführen und diese Löschung muss zu Downstream-Systemen (CDP, CRM) propagiert werden. Deshalb sollte die Hash-Mapping-Tabelle zentral sein – in verteilten Systemen sollten Hashes nicht verstreut vorhanden sein, sondern von einer Single Source of Truth stammen.

Das Datenminimumspeicherungsprinzip sollte deinen Identity Graph auf 90 Tage begrenzen. Probabilistische IDs älter als 90 Tage sollten archiviert werden; nur deterministische Hashes sollten langfristig gespeichert werden. Das ist sowohl für Compliance als auch für Storage-Kosten kritisch – in BigQuery reduziert Partition Pruning mit einem 90-Tage-Rolling-Window die Query-Kosten um 60%.

Produktions-Pipeline-Architektur: Batch + Streaming Hybrid

Die Identity Resolution Pipeline läuft in zwei Schichten: Streaming Layer (Echtzeit-Signalerfassung) und Batch Layer (nächtliches Stitching). Der Streaming Layer läuft mit Pub/Sub → Dataflow → BigQuery write mit Streaming Insert, Latenz <10 Sekunden. Der Batch Layer wird mit dbt Scheduled Run um 04:00 Uhr morgens ausgelöst; alles Graph Stitching und Household Clustering läuft in dieser Schicht.

Im Streaming Layer werden nur Signale erfasst – Hash Matching und Probabilistic Scoring werden nicht durchgeführt, weil komplexe JOINs im Streaming teuer sind. Events werden in Firestore geschrieben, eine event_id Unique Constraint verhindert Duplikat-Schreibvorgänge. Der Batch Layer liest diese Events und transformiert sie in BigQuery zu einem Dimensional Model. dbt Macros verketten Hash Generation, Score Calculation und Graph Merge in einer Pipeline.

Für Monitoring ist die Graph-Coverage-Metrik entscheidend: identified_users / total_active_users Verhältnis. Unter 40% deutet auf fehlende deterministische Signale hin – Login Flows sollten optimiert werden, Lead Forms sollten auf E-Mail-Erfassung ausgerichtet sein. Über 75% ist gesunde Coverage. Diese Metrik wird als dbt Test in data_tests/identity_coverage.sql definiert und läuft vor jedem Deployment in der CI/CD.

Identity Resolution ist das Rückgrat des modernen Marketing Stack. Die cookie-lose Welt hat deterministisches Hashing zur Goldstandard gemacht, aber allein reicht es nicht aus – mit Probabilistic Linking und Household Clustering aufgebaut sollte dein 3-schichtiger Identity Graph Consent-aware, Privacy-compliant und Production-ready sein. Wenn dieser in BigQuery mit dbt modellierte Pipeline läuft, kannst du Attribution Modelle, Segmentierungsstrategien und Lifetime-Value-Vorhersagen auf einer einzigen Kundenansicht aufbauen.