Datengedanke 3 - Kaggle me, if you can

Das Prinzip des Kaggle Wettbewerbs zur fairen und effizienten Auswahl guter Ensembles

Im zweiten Teil der Datengedanken wurde der Ansatz eines Ensembles von algorithmischen Systemen zur Bewertung eines Sachverhalts beschrieben. Diese Vorgehensweise bietet noch weitere Vorzüge, auf die hier eingegangen wird: Gerade in Behörden mangelt es an Erfahrung im Umgang mit datengetriebenen Systemen. Externe Anbieter könnten vieles erzählen. Möglicherweise sogar Korrektes, verstanden werden sie selten. Wie kann man trotzdem ohne Risiken einzugehen, digitale Systeme zur Unterstützung einsetzen? Man kombiniert den Ensemble Ansatz mit Kaggle Strategien (www.kaggle.com).

Kaggle ist ein Veranstalter von Data Science Wettbewerben und spätestens durch die Netflix Competition im Jahr 2009 weltbekannt geworden. Bei Kaggle Wettbewerben stehen allen teilnehmenden Teams identische Daten zur Verfügung. Jeder erarbeitet für sich die bestmögliche Methode. Diese wird an den Veranstalter zurückgesandt und auf Daten getestet, die für alle Teilnehmer unbekannt sind. Es ist ein freier, fairer Wettbewerb der Methodiken. Die Ergebnisse werden allen bekannt geben. Gelingt es diesen Wettbewerb als natürlichen Bestandteil des Einsatzes der Systeme umzusetzen, bedarf es keiner Fachkompetenz, um die Lösungen zu bewerten. Die vergleichenden Resultate sprechen für sich.

Als Beispiel sollen die automatische Prüfung und Entscheidung von Einkommenssteuererklärungen dienen. Es wird beschlossen drei Marktlösungen über einen Ensemble Ansatz zu kombinieren. Die finale Entscheidung basiert ähnlich wie in Illustration 1 dargestellt, auf drei unabhängigen digitalen Meinungen. Zweifelsfälle werden vom Sachbearbeiter angesehen.

Image - Kaggle me, if you can
Illustration 1: Schematischer Ablauf eines in die Produktion integrierten "Kaggle"-Prozesses.

Um zu Beginn die Verfahren zu spezifizieren, brauchen die Anbieter reale Daten von Einkommensteuererklärungen und deren Einordnung (korrekt / unvollständig / Betrug). Selbstverständlich ist ein hoher Wert auf Pseudonymisierung der Daten zu legen. In diesem Rahmen darf man ruhig auch mit hohen Strafen für Zuwiderhandlung oder Weitergabe der Daten arbeiten. Aus den gelabelten Daten wird ein Datenpool gebildet. Dieser steht den Wettbewerbern zu Beginn zur Verfügung. Auf diesen Pool können sie ihre Systeme entwerfen. Gesetzliche Änderungen, die am 01.01. des Folgejahres gültig sein werden, werden spätestens am 01.07. bekanntgegeben. Alle Systeme müssen sich an eine festgesetzte Schnittstellendefinition für Input und Output halten. Sie müssen mittels Container-Technologie einfach deployed werden können. Am 31.11. werden von jedem teilnehmenden Anbieter die aktuellen Systeme "eingereicht". Unter Aufsicht von Notaren und vor allem Technikern wird ein System nach dem anderen auf einen bisher nicht bekannten Datenpool angewandt. Die Qualität des Ergebnisses wird am 15.12. öffentlich zugänglich gemacht. Jedes Bundesland erhält via Losverfahren drei Systeme. An der Verlosung können nur Systeme teilnehmen, die die geforderte Mindestqualität erfüllen. Die besten in der Liste können mehrfach gezogen werden. Das Deployment erfolgt dann am 31.12. nachmittags. Sobald das Ensemble einmal seine Arbeit aufgenommen hat, entstehen die neuen Wettbewerbsdatensätze ganz nebenbei: Im laufenden Jahr werden die klaren Fälle, insbesondere die korrekten, mehrheitlich durch das Ensemble an Systemen entschieden. Allerdings wird das gesamte Jahr über ein kontrollierter Anteil der durch alle drei Systeme als korrekt eingestuften Steuererklärungen, an die Sachbearbeiter weitergereicht. Diese erhalten sowieso alle unklaren und alle offensichtlich kritischen Fälle. Ihre Entscheidung wird vermerkt. Die Systementscheidungen kennt der Sachbearbeiter vor seiner eigenen Bewertung nicht. Diese Sachbearbeiter-Daten formen den nächsten Datenpool. Zum Trainieren aus dem ersten Halbjahr und zum Evaluieren aus dem Zweiten.

Für die Marktteilnehmer ist der Markt attraktiv und berechenbar. Investitionen lohnen sich, wenn bei Erreichen der Mindestqualität mit mindestens einem Mandat zu rechnen ist. Gehört man zu den Besten in der Liste, liegt ein gutes Jahr vor einem. Für Betrüger wird es unmöglich, potenzielle Bugs auszunutzen, da zum einen davon auszugehen ist, dass drei Systeme nicht auf demselben Auge blind sind, und da niemand rechtzeitig weiß, welches System in welchem Bundesland in welchem Jahr im Einsatz sein wird. Die Behörde kann sicher sein, mit qualitativ hochwertigen Systemen zu arbeiten, bei den Mitgliedern im Ensemble nicht auf ein falsches Pferd gesetzt zu haben und die Dokumentation dieser Qualität ergibt sich aus dem Wettbewerb ohne weiteren Aufwand.

Mit einem solchen Ansatz kann man folglich auch ohne eigene Kenntnis über die Algorithmen zu haben, ein qualitativ hochwertiges System implementieren und effizient produktiv betreiben. Dabei werden Lock-in Effekte – Effekte, die zur Bindung an einen Anbieter und zu unwirtschaftlich hohen Kosten beim Wechsel dessen führen – vermieden und ein attraktiver, kompetitiver Markt geschaffen.

Autorin: Christin Schäfer

Erscheinungsdatum: 20.03.2020