Interpretierbares maschinelles Lernen

Von Giuseppe Casalicchio / 12. November 2021

Machine Learning-Modelle als Black Box

In vielen Branchen können manuelle Aufgaben und Entscheidungen durch Machine Learning (ML) vereinfacht und ganz oder teilweise automatisiert werden. So kann beispielsweise ein ML-Modell in der Versicherungsbranche eingesetzt werden, um die erwarteten Kosten (z.B. Schadenshöhe von Versicherten) anhand von Eigenschaften der Versicherten (und ggf. des Versicherungsgegenstands) vorherzusagen und deren Zusammenhang datengetrieben zu lernen, um damit dann unter anderem über künftige (preisliche) Tarifanpassungen zu entscheiden. Einerseits sind in vielen Anwendungen möglichst akkurate Modell-Vorhersagen wichtig, andererseits müssen die Modelle aber auch interpretierbar und verständlich sein. Die Forderung nach der Interpretierbarkeit von Modellen wurde durch Einführung von Grundprinzipien wie den „Ethics guidelines for trustworthy AI“^[1] nochmals deutlich verstärkt. Auch die seit 2018 geltende EU-Datenschutz-Grundverordnung (DSGVO) unterstreicht die Notwendigkeit zur Interpretierbarkeit und fordert bei automatisierten Entscheidungen den Anspruch auf eine Begründung („right to explanation“)^[2].

In der Praxis werden ML-Modelle häufig als Black Box betrachtet, die aus Daten (Input) gute Vorhersagen (Output) liefern, ohne dabei nachvollziehbare Erklärungen für den Output zu liefern (siehe Bild 1). In vielen Anwendungen stellt sich daher die Frage, wie die Vertrauenswürdigkeit (Trustworthiness) und Interpretierbarkeit (z.B. im Sinne der „right to explanation“ der DSGV) von ML-Modellen überprüft und sichergestellt werden kann.

Statistische Modelle als inhärent interpretierbare Modelle

Im Gegensatz zu ML-Modellen werden einfache statistische Modelle wie das lineare Regressionsmodell oft als inhärent interpretierbare Modelle bezeichnet, da sie einerseits statistische Inferenz (d.h. anhand der Daten und des Modells Schlussfolgerungen über die zugrundeliegenden kausalen Zusammenhänge in der realen Welt) erlauben und andererseits Modellparameter schätzen (z.B. Regressionskoeffizienten), die zur Interpretation des Modells und der Nachvollziehbarkeit der Modellvorhersagen verwendet werden können. Bei einem linearen Modell ist es beispielsweise möglich, direkt den Einfluss bzw. Effekt eines Merkmals (z.B. das Alter eines Versicherten) bezüglich der Modellvorhersage (z.B. die erwartete Schadenshöhe des Versicherten) zu interpretieren, indem man den geschätzten Regressionskoeffizienten des Merkmals betrachtet: Wenn das betrachtete Merkmal um eine Einheit steigt, z.B. das Alter des Versicherten sich um 1 Jahr erhöht (während alle anderen Merkmalswerte festgehalten werden), ändert sich der erwartete Wert der vorhergesagten Zielvariable, z.B. die erwartete Schadenshöhe des Versicherten, jeweils um den Wert des jeweiligen Regressionskoeffizienten des betrachteten Merkmals. Zusätzlich gibt ein lineares Modell auch Aufschluss darüber, welche dieser Merkmalseffekte statistisch signifikant sind und welche nicht.

Ein Nachteil solcher einfachen Modelle ist, dass man die Struktur des Modells in der Regel vorab manuell spezifizieren muss (z.B. ob und wenn ja, welche Interaktionen zwischen Merkmalen in das Modell aufzunehmen sind) und bestimmte Modellannahmen getroffen werden, die zusätzlich manuell überprüft werden müssen (z.B. überprüfen der additiven Struktur des Modells und der Linearität bzgl. seiner Merkmale). Dies ist nicht nur mühsam, sondern schränkt auch die Flexibilität eines Modells ein. Folglich können die Vorhersagen solcher vergleichsweise einfachen Modelle oft nicht mit der Vorhersagegenauigkeit von ML-Modellen mithalten, insbesondere wenn die wahren Zusammenhänge in den Daten sehr komplex sind und mangels Flexibilität vom Modell nicht erfasst werden können.

Der Trade-off zwischen Vorhersagegenauigkeit und Interpretierbarkeit

Grundsätzlich gibt es einen Trade-off zwischen flexiblen Modellen mit guter Vorhersagegenauigkeit (d.h. deren Vorhersagen gut auf neue Daten verallgemeinern) und (statistischen) Modellen, die als inhärent interpretierbar gelten. Bei statistischen Modellen wird durch die getroffenen Modellannahmen und die im Vorfeld eingeschränkte Modellkomplexität implizit eine bessere Interpretierbarkeit des Modells ermöglicht, wodurch in komplexen Anwendungen die Vorhersagegenauigkeit darunter leiden kann.

Bei ML-Modellen wird ein etwas anderer Modellierungsansatz verfolgt. Anstatt Modellannahmen zu treffen und die Modellkomplexität von vornherein einzuschränken, verfolgen ML-Algorithmen in der Regel einen flexibleren Ansatz, bei dem die Modellkomplexität durch einen oder mehrere Hyperparameter gesteuert wird und durch Kreuzvalidierung datengetrieben ausgewählt wird. Diese Flexibilität führt oft zu komplexen und weniger interpretierbaren Modellen mit guter Vorhersagegenauigkeit^[3].

Möchte ein Anwender komplexe Zusammenhänge in den Daten modellieren und gute Vorhersagen erreichen, braucht er in der Regel flexible ML-Modelle, die automatisch komplexe Zusammenhänge in den Daten lernen können. Zur besseren Interpretierbarkeit können im Anschluss durch sogenannte modell-agnostische Interpretationsmethoden die gewünschten Erklärungen für das vorliegende Modell generiert werden. Inzwischen gibt es eine Vielzahl solcher Methoden, die zur Interpretierbarkeit von Modellen verwendet werden können (siehe ^[4] für eine Übersicht einiger Methoden). Diese Vielzahl von Methoden hat aber den Nachteil, dass Anwender nicht genau wissen welche Interpretationsmethoden für ihre eigenen Zwecke geeignet sind und was bei der Anwendung dieser Methoden beachtet werden muss, um keine Fehlschlüsse zu ziehen (siehe ^[5] für eine Zusammenfassung möglicher Fallstricke). Da modell-agnostische Interpretationsmethoden auf beliebige Modelle angewendet werden können, sind sie sowohl für ML-Modelle, aber auch für inhärent interpretierbare Modelle nützlich.

Liegt der Fokus auf der Interpretierbarkeit und der Möglichkeit, anhand des Modells Schlussfolgerungen über die Zusammenhänge in der realen Welt zu ziehen (d.h. statistische Inferenz zu betreiben), sind statistische Modelle üblicherweise besser geeignet. Allerdings ist hierbei zu beachten, dass deren Anwendung oftmals zusätzliche manuelle und zeitaufwendige Schritte benötigt (z.B. Überlegungen, welche Merkmale und Interaktionen im Modell aufgenommen werden sollen, das Überprüfen von Modellannahmen und was zu tun ist, wenn diese Annahmen verletzt sind). Die Vorhersagegenauigkeit solcher einfachen Modelle kann durch verschiedene Maßnahmen verbessert werden (z.B. durch allgemeine Datenvorverarbeitung, Variablentransformation oder Variablenselektion), wodurch jedoch die Interpretierbarkeit beeinflusst wird.

Abschließende Anmerkungen

Meistens wird Anwendern empfohlen, mit einfachen inhärent interpretierbaren (statistischen) Modellen zu beginnen und die Vorhersagegenauigkeit dieses Modells auf ungesehene Daten im jeweiligen Anwendungsfall zu messen. Wichtig ist hierbei die für den Anwendungsfall richtige Metrik zu verwenden und die richtige Strategie für die Schätzung der Vorhersagegenauigkeit (z.B. stratifizierte k-fache Kreuzvalidierung vs. nicht-stratifizierte k-fache Kreuzvalidierung) zu wählen^[6]. Sollte die Vorhersagegenauigkeit nicht ausreichend gut sein oder sogar signifikant schlechter als die eines ML-Modells, so sind die Vor- und Nachteile der Modelle für den Einsatz in der Praxis abzuwägen.

Fällt die Wahl auf einfache inhärent interpretierbare (statistische) Modelle, kann die Anwendung von Methoden zur modell-agnostischen Interpretierbarkeit dennoch zusätzliche wertvolle Erkenntnisse und Erklärungen liefern, die ein inhärent interpretierbares Modell sonst nicht liefern kann. Ein Beispiel hierfür sind Counterfactual Explanation Methoden^[7]. Counterfactuals können Aufschluss darüber geben, welche Merkmale in welchem Umfang verändert werden müssten, damit das Modell einen bestimmten Wert vorhersagt. Beispielsweise werden bei der Kreditvergabe in Banken häufig Risikomodelle eingesetzt, die einen beantragten Kredit ablehnen können, wenn das Risikomodell ein zu hohes Ausfallrisiko vorhersagt. Hier können Counterfactuals sehr hilfreich sein und zusätzliche Erklärungen liefern, welche minimalen Änderungen im Kreditantrag (z.B. Kredithöhe oder Kreditlaufzeit) vorgenommen werden könnten, damit es nicht zu einer Ablehnung des Kredits kommt.

Letztendlich darf auch im Hinblick auf Interpretierbarkeit nicht vergessen werden, dass alle Modelle nur eine Vereinfachung und Approximation komplexer Zusammenhänge aus der realen Welt darstellen, ein Aspekt, welcher bereits von Box im Jahr 1979^[8] mit dem berühmten Statement „all models are wrong, but some are useful“ unterstrichen wird. Hinzu kommt, dass „Interpretierbarkeit“ und „Erklärbarkeit“ im Kontext von ML nicht klar definiert sind (siehe ^[9] und ^[10] für eine umfangreiche und nützliche Diskussion aus philosophischer ,aber auch praktischer und mathematischer Sicht). Eine Interpretationsmethode sollte idealerweise Erklärungen liefern, die für die zugrunde liegende Anwendung und für das beabsichtigte Interpretationsziel des Anwenders geeignet und verständlich sind. Dies erfordert in erster Linie eine klare Definition des Interpretationsziels für die vorliegende Anwendung, aber auch Grundkenntnisse welche Interpretationsmethoden hierfür am passendsten sind. Das kann durch gute und frühzeitige Beratung oder berufliche Weiterbildung in diesem Bereich erreicht werden.

Literaturverzeichnis

[1] Directorate-General for Communications Networks, Content and Technology (European Commission): Ethics guidelines for trustworthy AI, Publication office of the EU, 2019. https://doi.org/10.2759/346720

[2] Goodman, B., & Flaxman, S. (2017). European Union Regulations on Algorithmic Decision-Making and a “Right to Explanation”. AI Magazine, 38(3), 50-57. https://doi.org/10.1609/aimag.v38i3.2741

[3] Molnar C., Casalicchio G., Bischl B. (2020) Interpretable Machine Learning – A Brief History, State-of-the-Art and Challenges. In: Koprinska I. et al. (eds) ECML PKDD 2020 Workshops. ECML PKDD 2020. Communications in Computer and Information Science, vol 1323. Springer, Cham. https://doi.org/10.1007/978-3-030-65965-3_28

[4] Molnar, C. (2020). Interpretable Machine Learning. Lulu.com. https://christophm.github.io/interpretable-ml-book/

[5] Molnar, C., König, G., Herbinger, J., Freiesleben, T., Dandl, S., Scholbeck, C. A., Casalicchio G., Grosse-Wentrup M., & Bischl, B. (2020). General Pitfalls of Model-agnostic Interpretation Methods for Machine Learning Models. arXiv preprint arXiv:2007.04131. https://arxiv.org/abs/2007.04131

[6] Japkowicz, N., & Shah, M. (2011). Evaluating Learning Algorithms: A Classification Perspective. Cambridge University Press. https://doi.org/10.1017/CBO9780511921803

[7] Dandl, S., Molnar, C., Binder, M., & Bischl, B. (2020, September). Multi-objective Counterfactual Explanations. In International Conference on Parallel Problem Solving from Nature (pp. 448-469). Springer, Cham. https://doi.org/10.1007/978-3-030-58112-1_31

[8] Box, G. E. (1979). Robustness in the Strategy of Scientific Model Building. In Robustness in Statistics (pp. 201-236). Academic Press. https://doi.org/10.1016/B978-0-12-438150-6.50018-2

[9] Miller, T. (2019). Explanation in Artificial Intelligence: Insights from the Social Sciences. Artificial intelligence, 267, 1-38. https://doi.org/10.1016/j.artint.2018.07.007

[10] Lipton, Z. C. (2018). The Mythos of Model Interpretability: In Machine Learning, the Concept of Interpretability is both Important and Slippery. Queue, 16(3), 31-57. https://doi.org/10.1145/3236386.3241340

Autoreninfo