Datengedanke 6 - Ist es der Hans Meier oder der Hans Meier?

Warum es schwer ist, Entitäten zu erkennen

Die Problematik des Erkennens besteht auch jenseits der Nutzungsebene im Innenleben algorithmischer Systeme: viele Systeme nutzen Daten aus mehreren Quellen, internen und externen. Die Herausforderung besteht darin, innerhalb jeder dieser Quellen die Entität korrekt zu identifizieren, die sogenannte Entity Recognition. Dabei kann eine Entität eine natürliche Person, eine juristische Einheit oder auch eine technische Komponente sein. Um für diese Zwecke nutzbar zu sein, muss eine Datenquelle Informationen enthalten, die das Erkennen einer Entität überhaupt ermöglicht. Bei einer natürlichen Person kann dies der Name, die Adresse oder auch das Geburtsdatum sein. Einen weitverbreiteten und gesellschaftlich akzeptierten Identifikator für Personen gibt es in Deutschland nicht. Keiner der Identifikatoren in den spezifischen Kontexten wird für alle Zwecke verwendet, nachdem das Bundesverfassungsgericht in mehreren Entscheidungen eine sektorübergreifend verwendete nationale Personenkennziffer für mit der Menschenwürde nicht vereinbar und daher für verfassungswidrig hielt. Ich möchte an dieser Stelle nicht zum Ausdruck bringen, dass ich diese Entscheidung nicht anzweifle. Sie kommt mit gravierenden Nachteilen und Problemen im digitalen Alltag. Für alle Beteiligten. Die Sozialversicherungsnummer ist durch ihre Verwendung von Geburtsdatum und Geburtsnamen für den Alltagsgebrauch ungeeignet. Die Angabe der Steuernummer bei einem Online Einkauf würde irritieren und vermutlich auf Ablehnung stoßen.

Ohne einen solchen Identifikator muss die Entity Recognition mit aus Datenqualitätssicht kritischen Merkmalen auskommen. Nicht jeder Nachname ist einzigartig: Müller, Meier, Schmidt und Schulz. Nachnamen können sich über die Zeit ändern. Jedes Jahr teilen sich viele Neugeborene einen Vornamen. Ein einziger kleiner Buchstaben-Dreher kann einen großen Unterschied machen: Christina und Christian. Die Transkription eines Namens – etwa aus dem thailändischen, griechischen, russischen, chinesischen oder japanischen – kann zu sehr unterschiedlichen Schreibweisen führen. Allein mit dem Namen ist daher eine qualitativ hochwertige Entity Recognition nicht umsetzbar. Adressen sind im Hinblick auf Schreibfehler genauso anfällig wie Namen. Sie sind zum Zeitpunkt, zu dem sie in ein System eingepflegt werden, in aller Regel korrekt. Nur bei gut gepflegten Systemen, die regelmäßig die Daten überprüfen und aktualisieren, gilt dies auch für spätere Zeitpunkte. Ein Geburtsdatum gehört zu den wenigen Konstanten im Leben eines Menschen. Eingabefehler können auch beim Geburtsdatum nicht ausgeschlossen werden.

Image - Ist es der Hans Meier oder der Hans Meier
Illustration 1: Alltägliche Herausforderung – Zusammenführen von Daten aus mehreren Quellen

Die Herausforderung wird dadurch noch weiter erhöht, dass in den meisten Datenquellen unterschiedliche Informationen zur Entity Recognition vorliegen. Dieses Problemfeld kann in einer Welt, in der die digitale Automatisierung immer weitere Lebensfelder betrifft, nicht kritisch genug gesehen werden. Bei juristischen Personen ist die Problematik noch dadurch erhöht, dass es keinen Kanon an Informationen gibt, mittels derer man identifiziert. Neben dem Namen, der in seiner Uneindeutigkeit dem von natürlichen Personen in nichts nachsteht, gibt es manchmal die Information zu einem Handelsregistereintrag, eine Steuernummer oder auch nur eine Adresse. Die Herausforderung, in einer Welt voller APIs und Microservices diese eindeutig zu kennzeichnen und damit nicht nur eine Entity Recognition zuzulassen, ist in ihrem Umfang noch gar nicht absehbar.

Autorin: Christin Schäfer

Erscheinungsdatum: 20.03.2020