Die optimale KI-Konfiguration ist eine Frage der Perspektive

Strategische und menschliche Faktoren lassen sich nicht in Formeln fassen.

Dr. Michael Köpf
14. Juni 2020

Will man Künstliche Intelligenz (KI) bzw. Machine Learning (ML) in einem Unternehmen operationalisieren, dann ist die Mathematik der einfache Teil. Sie ist einfach, weil objektiv entscheidbar aufgrund universell akzeptierter Standards. Viele der wichtigsten Entscheidungen fallen jedoch nicht in diese Kategorie. Stehen solche Entscheidungen an, beginnen harte Diskussionen: Dutzende Stakeholder bringen ebenso viele Meinungen mit und jeder Standpunkt wird mit durchaus stichhaltigen Argumenten untermauert. Dann ist Führung gefragt, um ein unproduktives Chaos zu verhindern und früher oder später eskalieren diese Themen unweigerlich bis auf den C-Level.

Um ein KI-Projekt zum Erfolg zu führen, müssen Mathematik, Ökonomie, Strategie und Psychologie gleichermaßen berücksichtigt werden. Zur Veranschaulichung betrachten wir in diesem Post eine Machine-Learning-Anwendung im Bereich der Kfz-Versicherung.

Stellen Sie sich ein ML-System vor, welches darauf trainiert ist, Kfz-Schadenfälle zu prüfen. Typischerweise ist ein solcher Schaden durch ein Schadengutachten eines Kfz-Sachverständigen, einen Kostenvoranschlag oder eine Werkstattrechnung belegt. Auf Grundlage dieser Dokumente klassifiziert das ML-System nun jeden Fall in eine von zwei Kategorien: Entweder, der Schaden wird als „in Ordnung“ gekennzeichnet und zur Auszahlung empfohlen, oder, falls die Forderung teilweise oder vollständig beanstandet werden kann, wird diese zur detaillierten Prüfung an einen menschlichen Sachverständigen weiter geleitet.

Wie AXA und Controlexpert, zwei Schwergewichte im deutschen Kfz-Versicherungsmarkt, in einem gemeinsamen Artikel berichten, sind knapp 40% der Forderungen in Ordnung [1]. Erlaubt nun eine KI den menschlichen Sachverständigen, sich auf die verbleibenden 60% relevanter Fälle zu konzentrieren, verspricht dies erhebliche Einsparpotenziale in Zeit und Geld. Dieses Potenzial zu realisieren erfordert jedoch, das ML-System zum größtmöglichen Nutzen des Anwenders (z.B. des Versicherers) zu konfigurieren.

An dieser Stelle beginnen nun die Schwierigkeiten. Was genau ist der größtmögliche Nutzen für den Anwender?

Vielleicht ist man versucht zu denken, im hochgradig mathematischen und quantitativen Feld des maschinellen Lernens gebe es sicherlich die eine „magische“ Metrik, mit der sich die optimale Konfiguration eindeutig finden ließe. Es gibt sie leider nicht.

Aber bevor wir uns anschauen, warum dies so ist, lassen Sie uns damit anfangen, was trotz allem objektiv und eindeutig gesagt werden kann.  

Wie man einen Klassifikator quantitativ beurteilt

(Dieser Abschnitt behandelt grundlegende Konzepte der binären Klassifikation. Falls Sie mit Wahrheitsmatrizen (confusion matrices) und ROC-Kurven vertraut sind, können Sie direkt zum nächsten Abschnitt springen.) 

Natürlich gibt es quantitative Methoden, um die Leistungsfähigkeit eines ML-Modells zu evaluieren. Bei unserem hier beschriebenen Schadenfall-Klassifikator handelt es es sich sogar um einen besonders einfachen Fall, einen sogenannten binären Klassifikator. Binär, weil er Entweder-oder-Fragen mit zwei möglichen Ergebnissen beantwortet: Ja oder nein, 0 oder 1, Daumen hoch oder Daumen runter. Oder, in unserem konkreten Szenario: Ist der Schadenfall zu beanstanden oder nicht?  

Ein Klassifikator wird auf Basis einer (möglichst umfangreichen) Fallhistorie trainiert. Um seine Performance auf ihm unbekannten Fällen einzuschätzen, wird ein Teil der Fallhistorie beim Training zurückgehalten. Dieser Teil, die sogenannte Testmenge, wird stattdessen verwendet, um das Modell auf die Probe zu stellen. Aus Perspektive des Algorithmus sind diese Testdaten genauso unbekannt wie es komplett neue Daten wären, jedoch wissen Sie, der Tester, für jeden Testdatenpunkt genau, wie dieser in der Vergangenheit von einem menschlichen Sachverständigen entschieden wurde. Diese vergangene menschliche Entscheidung definiert nun das Verum, also das wahre bzw. richtige Klassifikationsergebnis.     

Mit Kenntnis des Verums können Sie nun jede Entscheidung des Klassifikators auf der Testmenge einer von vier Kategorien zuordnen:

1. Empfiehlt der Klassifikator eine detaillierte Prüfung des Falls und wurde der Fall in der Vergangenheit tatsächlich von einem Sachverständigen beanstandet, so wird dies als richtig positiv (True Positive oder kurz TP) gezählt.

2. Markiert der Klassifikator den Fall als „in Ordnung“ und der Sachverständige kam zur selben Entscheidung, so wird dies als richtig negativ (True Negative oder kurz TN) gezählt.

3. Empfielt der Klassifikator die Prüfung, der Sachverständige hat den Fall jedoch als „in Ordnung“ bewertet, so wird dies als falsch positiv (False Positive oder kurz FP) gezählt.

4. Markiert der Klassifikator den Fall als „in Ordnung“, obwohl der Fall in der Vergangenheit vom Sachverständigen beanstandet wurde, so wird dies als falsch negativ (False Negative oder kurz FN) gezählt.

Die konkreten Fallzahlen in den vier Kategorien werden gewöhnlich in Form einer Wahrheitsmatrix (auch bekannt als Vierfeldertafel oder Confusion-Matrix) dargestellt:

Obwohl die Wahrheitsmatrix aus vier Zahlen, TP, FP, FN und TN, besteht, sind nur zwei von diesen tatsächlich unabhängige Größen. Dies liegt daran, dass die in der Testmenge enthaltene Fallhistorie zum Zeitpunkt der Berechnung der Wahrheitsmatrix feststeht und damit die Gesamtzahl P der tatsächlich Positiven und die Gesamtzahl N der tatsächlich Negativen bestimmt ist. Daher gilt unabhängig von der Leistungsfähigkeit des Klassifikators immer TP+FN=P und TN+FP=N. Dies sind zwei Gleichungen mit vier Unbekannten, sodass zwei Freiheitsgrade bleiben. Ein üblicher (aber nicht der einzige) Weg, diese Freiheitsgrade zu parametrisieren, ist die Verwendung der True Positive Rate (TPR)  und False Positive Rate (FPR).

Mathematisch sind diese definiert als

Ausgehend von diesen Definitionen können Sie sich mit minimaler algebraischer Anstrengung davon überzeugen, dass alle vier Einträge der Wahrheitsmatrix durch TPR und FPR vollständig bestimmt sind. Sie finden dann:

Im echten (Wirtschafts-)Leben ist es allerdings mit der binären Einteilung in positiv und negativ nicht immer ganz einfach. Ob für eine KI oder für Menschen – kein Fall ist hundertprozentig klar. Entscheidungen werden mal mit mehr, mal mit weniger Gewissheit getroffen, abhängig von der Sachlage (Evidenz) – aber auch nicht zuletzt von der persönlichen Inklination (lies: Bias) des individuellen Entscheiders.

Eine Frage der Strenge

Stellen Sie sich vor, die Klassifikationsaufgabe aus unserem Beispiel müsste statt durch KI von einem menschlichen Sachverständigen erledigt werden. Stellen Sie sich weiter vor, es gäbe nun zwei Kandidaten für diesen Job.

Auf der einen Seite haben wir die ultra-skeptische Sachverständige. Aus ihrer Sicht ist jeder Schadenfall hochverdächtig. Deshalb geht sie erst gar kein Risiko ein und empfiehlt ausnahmslos jeden Fall detailliert zu prüfen – völlig unabhängig von der jeweiligen Sachlage. Interessanterweise führt diese Arbeitsweise all ihrer Oberflächlichkeit zum Trotz, zu einer nicht unerheblichen Erfolgsquote: Die ultra-skeptische Sachverständige entscheidet jeden echt beanstandungswürdigen Fall korrekt. Da dies, wie eingangs erwähnt, auf bis zu 60% der Kfz-Schäden zutrifft, entscheidet sie also erstaunliche 6 von 10 Fällen korrekt, ohne diese überhaupt jemals anzuschauen.

Der zweite Kandidat ist das genaue Gegenteil seiner Mitbewerberin. Sein Vertrauen in „seine“ Versicherten ist grenzenlos. Auch bei den kuriosesten Schadenfällen ist er sicher, dass schon alles seine Richtigkeit haben wird. Deshalb entscheidet auch er, ohne weiteres Ansehen der Falldetails, direkt und markiert jede Forderung als „in Ordnung“. Auch dieser Experte kann nun eine Erfolgsquote von immerhin 40% vorweisen.

Zwischen den beiden Extrempositionen dieser fiktiven Charaktere kann man sich ein ganzes kontinuierliches Spektrum mehr oder weniger strenger Entscheider vorstellen. Um dieses Spektrum darzustellen, können wir einen „Strenge-Parameter“ p einführen. Der gebräuchliche Fachterminus für diesen Parameter ist Discrimination Threshold, und sein Wert kann zwischen 0% und 100% gewählt werden.

Ist eine Forderung aufgrund der Sachlage mit 70%-iger Wahrscheinlichkeit zu beanstanden, dann würde ein Sachverständiger mit Strenge p diesen Fall zur tieferen Prüfung empfehlen, falls p<70%.

Genauso arbeitet nun auch der algorithmische Entscheider, also das ML-Schadenprünfungsmodell, in unserem Beispiel. Es berechnet die Beanstandungswahrscheinlichkeit und übersetzt diese mit Hilfe eines vorher konfigurierten Schwellwertes p in eine binäre Entscheidung, 

Dementsprechend hängen TPR und FPR und damit auch alle vier Einträge der Wahrheitsmatrix von diesem Schwellwert ab. Wie genau TPR und FPR auf Änderungen des Schwellwertes reagieren, lässt sich mittels einer ROC-Kurve [2] verstehen. Diese erhält man, indem man die Punkte (FPR(p), TPR(p)) für alle Werte von p zwischen 0% und 100% in ein FPR-TPR-Koordinatensystem einzeichnet.

Abbildung 1. Der durch die blaue Kurve charakterisierte Klassifikator ist dem durch die grüne Kurve charakterisierten Klassifikator eindeutig überlegen, da er an jedem möglichen Arbeitspunkt weniger Fehler macht.

Abbildung 2. Zwei (oder mehr) Modelle können zu einer einzigen gemeinsamen ROC-Kurve kombiniert werden. Diese Kurve entspricht der konvexen Hülle der beiden individuellen ROC-Kurven.

Mittels ROC-Kurve lassen sich zwei Klassifikatoren vergleichen. Ein Klassifikator ist eindeutig besser als ein anderer, wenn seine TPR für alle möglichen Werte der FPR größer ist als die des anderen. Dies ist genau dann der Fall, wenn seine Kurve Im ROC-Graphen überall oberhalb der Kurve des anderen Klassifikators liegt (siehe Abbildung 1). 

Auf diese Weise lassen sich verschiedene Modelle systematisch vergleichen, bis dasjenige mit der besten ROC-Kurve gefunden ist. Dabei ist es möglich, dass die beste Kurve nicht von einem einzelnen Klassifikator stammt, sondern durch Kombination aus zwei oder mehr Klassifikatoren hervor geht. In jedem Fall hat man am Ende immer eine definitiv beste ROC-Kurve. (Im Falle der Kombination mehrerer Klassifikatoren handelt es sich dabei um die konvexe Hülle der individuellen ROC-Kurven der beteiligten Klassifikatoren [3], siehe Abbildung 2.)

Bis hierhin bewegen wir uns immer noch in der einfachen Welt. Das beste Modell lässt sich objektiv auswählen. Man braucht sich bloß für dasjenige Modell zu entscheiden, dessen ROC-Kurve denen aller anderen Modellkandidaten überlegen ist. Eine bessere Wahl kann es nicht geben.

Leider ist die Arbeit damit noch (lange) nicht getan. Man muss schließlich immer noch entscheiden, welcher Punkt auf der Kurve der optimale Arbeitspunkt ist. Oder anders formuliert: Welcher Schwellwert p ist aus Sicht des Anwenders optimal?

Die höchste Trefferquote

(Im Folgenden zeigen wir eine ROC-Kurve und weitere Charakteristika eines trainierten binären Klassifikatormodells. Dieses Modell dient ausschließlich Illustrationszwecken – es wurde nicht mit tatsächlichen Versichertendaten trainiert, sondern basiert auf dem „Adult“-Datensatz [4]).

Auf den ersten Blick erscheint die Frage nach dem besten Schwellwert trivial. Logischerweise sollte man einfach den Arbeitspunkt mit der maximalen Korrektklassifikationsrate, auch bekannt als Trefferquote oder Accuracy, einstellen, also den Punkt, an dem der Klassifikator so viele Fälle wie möglich korrekt entscheidet. Jede andere Wahl führt unweigerlich zu einer höheren (und vermeidbaren!) Fehlerquote. Dies wollen wir sicher verhindern, oder?

Die Trefferquote ist formal definiert als der Anteil aller richtigen Entscheidungen an der Gesamtzahl aller Entscheidungen, also

Berechnen wir ACC für jeden Punkt auf der ROC-Kurve unseres Beispielmodells, so finden wir eine maximale Trefferquote von 85% (siehe Abbildungen 3 und 4). Wäre dies also der optimale Arbeitspunkt?

Abbildung 3. Die maximale Trefferquote unseres Beispielmodells beträgt 85%. Doch was ist mit den Kosten?

Er könnte es sein, allerdings nur in einem ganz speziellen Fall, nämlich dann, wenn beide Fehlerarten, falsch positive und falsch negative, aus der Business-Sicht des Anwenders gleichermaßen schmerzhaft wären. Meistens jedoch unterscheidet sich der resultierende Schaden je nach Fehlerarten drastisch, wobei unser Beispiel der Kfz-Schadenprüfung keine Ausnahme ist.

Abbildung 4. Trefferquote (ACC), Kosten (CST) und Wahrheitsmatrix (TP, FP, FN, TN) entlang der ROC-Kurve unseres Beispielmodells. Zwecks verbesserter Darstellbarkeit wurde CST skaliert, sodass die maximal möglichen Kosten 1 betragen.

Die niedrigsten Kosten 

Der Schaden, den falsche Entscheidungen anrichten, ist nicht immer einfach zu quantifizieren. Falsch positive und falsch negative gegeneinander abzuwägen ist ein klassisches Dilemma: Ist es schlimmer, eine unschuldige Person zu verurteilen (falsch positv), als eine Schuldige freizusprechen (falsch negativ)? Wenn ja, wieviel schlimmer?

Glücklicherweise stellen sich im Wirtschaftsleben meist weniger dramatische Fragen und wir können den aufgrund von Fehlentscheidungen entstehenden finanziellen Schaden im Rahmen einer Kostenschätzung erfassen. Um die beiden möglichen Fehlerarten jeweils mit einem Preisschild zu versehen, müssen wir genau untersuchen, was im Falle eines Fehlers tatsächlich geschieht.  

Im falsch positiven Fall, wird ein einwandfreier Schadenfall unnötigerweise an einen Sachverständigen weiter geleitet, der dann einen Teil seiner wertvollen Arbeitszeit damit verbringt, ein Problem zu suchen, das es gar nicht gibt. Lassen Sie uns der Einfachheit annehmen, dieser Prozess koste den Sachverständigen 12 Minuten und seine Arbeit koste sein Unternehmen 100 € pro Stunde. Jedes False Positive führt demnach zur Verschwendung von 20 €.

Im Falle eines False Negative wird eine Schadenfall als „in Ordnung“ durchgewunken, obwohl es bei Beanstandungs- oder zumindest Kürzungspotenzial gäbe. In diesem Fall begleicht der Versicherer also einen Schaden in ungerechtfertigter Höhe. Der durchschnittliche Geldwert ungerechtfertigter Forderungen kann auf Basis der Fallhistorie abgeschätzt werden, da in dieser eine große Zahl von Forderungen durch Sachverständige beanstandet bzw. gekürzt wurde. Nehmen wir der Einfachheit an, dieser durchschnittliche Betrag liege bei 100 €. 

Natürlich ist eine Kostenschätzung in Wirklichkeit deutlich aufwändiger, dennoch genügen die einfachen Zahlen, um die Idee zu illustieren. Am Ende der Schätzung steht ein fixer Geldbetrag für jeden Fehlertyp. In unserem Beispiel ergeben sich daher die folgenden Kosten für die Fälle in der Testmenge:

oder, äquivalent durch die TPR und FPR ausgedrückt:

Da FP und FN, aber auch TPR und FPR, letztlich vom weiter oben definierten Schwellwert p abhängen, lassen sich die Kosten ebenfalls als Funktion von p auffassen. Zum Verständnis ist es hilfreich, Kosten und Trefferquote gemeinsam in einem Graphen darzustellen. Dafür skalieren wir CST, sodass die Kosten nicht als absoluter Geldwert, sondern als prozentualer Anteil an den maximal möglichen Kosten dargestellt werden (siehe Abbildung 5).

Abbildung 5. Trefferquote (ACC) und Kosten (CST) als Funktion der discrimination threshold. Zum Vergleich ist rechts unten die vollständige Wahrheitsmatrix (TP, FP, FN, TN) gezeigt.

Der kostenmäßig optimale Arbeitspunkt kann anhand der ROC-Kurve auch geometrisch konstruiert werden. Aus der oben gezeigten Gleichung, die CST als Funktion von TPR und FPR zeigt, können wir folgern, dass

Das bedeutet, dass Punkte mit gleichen Kosten entlang von Geraden mit der Steigung 0.2⋅(N/P) liegen. Diese Geraden sind in der Fachliteratur unter dem Namen Iso-Performance Lines bekannt [3]. Die Kosten steigen mit steigender Fehlerrate, also von links oben nach rechts unten im ROC-Graphen. Dementsprechend finden wir den Punkt mit den niedrigsten Kosten dort, wo die höchstmögliche Iso-Perfomance Line tangential zur ROC-Kurve liegt (siehe Abbildung 6).

Abbildung 6. Die ROC-Kurve unseres Beispielmodells (blau) mit mehreren Iso-Performance-Lines (gelb), von denen jede einem bestimmten konstanten Geldwert entspricht. Die Kosten steigen senkrecht zu den Iso-Performance-Lines, von oben links nach unten rechts. 

Abbildung 7. Die Kostendifferenz zwischen dem Arbeitspunkt mit der höchsten Trefferquote und dem Arbeitspunkt mit den niedrigsten Kosten kann zu erheblicher Verschwendung führen.

Die optimalen, d.h. niedrigsten Kosten sind in unserem Beispiel 29%, bei einer Trefferquote von 76%. Zum Vergleich: Am Punkt der maximalen Trefferquote, den wir im vorangegangenen Abschnitt diskutiert hatten, liegt die diese bei 85% bei Kosten von 40%. Das bedeutet, dass eine Steigerung der Trefferquote um 9 Prozentpunkte zu einem Anstieg der Kosten von 11 Prozentpunkten führt (siehe Abbildung 7). Das Modell mit der deutlich höheren Trefferquote zu  betreiben, bedeutet für den Anwender also effektiv eine nicht unerhebliche Geldvernichtung!

Dieses Beispiel verdeutlich, dass die Trefferquote (und genauso auch alternative Metriken wie der F1-Score oder Matthews-Correlation-Coefficient) keinen Wert an sich haben. Erst wenn sie durch eine gründliche Kostenanalyse mit tatsächlichen Kosten verknüpft werden, entstehen bedeutsame Metriken.

Eine Frage der Perspektive

Nun da wir den Threshold-Parameter des Kostenoptimum skennen, sollten wir das KI-System entsprechend konfigurieren? Das hängt davon ab, ob eine solche Entscheidung in die Gesamtstrategie des Anwenders passt. Betrachten wir z.B. die unterschiedlichen Perspektiven zweier typischer, aber sehr verschiedener Unternehmens im Kfz-Schadengeschäft.

Das erste Unternehmen ist ein klassischer Versicherer. Vom Einsatz der KI profitiert er in Form gesteigerter Kosteneffizienz bei der Schadenprüfung. Das zweite Unternehmen ist ein Dienstleister, der seinen Kfz-Sachverstand an Versicherer wie das erste Unternehmen verkauft.

Viele Versicherer haben die Kfz-Schadenprüfung für verschiedene Schadenarten an spezialisierte Unternehmen wie CarExpert, ControlExpert, Dekra, Eucon und andere outgesourct [5]. Teil ihres Auftrages ist dabei, unberechtigte Forderungen und damit verbundene Kürzungsmöglichkeiten zu erkennen. Dass die Sachverständigenhäuser diese Aufgabe durchaus ernst nehmen, erkennt man daran, dass die Presse diesen Vorgang seit Jahren immer wieder als „Streichkonzert“ bezeichnet [6].

Auf den ersten Blick scheint sich die Situation der beiden Unternehmen zu gleichen. Dennoch kann das Sachverständigenhaus die KI nicht einfach am Kostenoptimum betreiben, um die Kosteneffizienz zu maximieren, da es die Erwartungen seiner Kunden, der Versicherer, als Randbedingungen zu berücksichtigen hat. Salopp ausgedrückt, interessieren sich diese nicht für den unnötigen Aufwand auf Seiten ihrer Dienstleister, der durch falsch positive verursacht wird. Sehr wohl interessieren sie jedoch durch unberechtigte Forderungen entstehende Verluste, die im Falle falsch negativer eintreten. Mit Hilfe der oben definierten Metriken ausgedrückt, messen die Versicherer die Qualität der Dienstleistung eines Sachverständigenhauses an der TPR und werden nichts anderes als sehr hohe Werte akzeptieren. Wie wir oben in Abbildung 6 gesehen haben, liegt das Kostenoptimum bei einer TPR von etwa 90%. Aus Sicht eines Versicherers ist dieser Wert nicht akzeptabel, steht er doch für 10% unberechtigter Forderungen, die möglicherweise unerkannt bis zur Auszahlung kommen.

Anstatt also einfach am Kostenoptimum zu arbeiten, muss das Sachverständigenhaus eine Balance zwischen direkter Kosteneffizienz und ausreichend hoher TPR finden. Es bleiben nur zwei Möglichkeiten. Entweder wird die Kosteneffizienz priorisiert und gleichzeitig der Preis der Dienstleisung gesenkt, um trotz geringerer TPR auf dem Markt attraktiv zu bleiben. Oder es wird bewusst die Qualität der Dienstleistung priorisiert, z.B. um den Ruf eines Hochqualitätsanbieters zu pflegen und von langfristiger Kundenzufriedenheit zu profitieren. Eine Entscheidung für letztere Option ermöglicht dem Unternehmen eine immerhin moderate Automatisierungsquote bei gleichzeitig sehr geringer Fehlerquote, die nahezu Human-Level-Performance entspricht.

Andererseits bedeutet der Betrieb bei hoher TPR höhere Kosten und geringere Trefferquote als der Betrieb am Kostenoptimum. Nahezu die gesamten Trefferquoteneinbußen können auf falsch positve zurückgeführt werden, was der Logik entspricht, dass Mehrarbeit der menschlichen Sachverständigen toleriert wird, solange die allermeisten unberechtigten Forderungen aufgedeckt werden.

Es lässt sich mathematisch nicht beweisen, welche Entscheidung für das Unternehmen richtig wäre. Die Frage der langfristigen Marktpositionierung liegt jenseits dessen, was sich in Formeln fassen lässt. Selbst wenn dies möglich wäre, so wäre man noch lange nicht am Ende der Schwierigkeiten. Faktoren wie Unternehmenstrategie, Compliance und regulatorische Themen, politische und ethische Fragestellungen und vieles mehr müssen ebenfalls Berücksichtigung finden. All diese Punkte haben eines gemeinsam: Sie sind – wenn überhaupt! – sehr schwer zu quantifizieren. Diese Probleme lassen sich nicht allein durch Mathematik lösen. Es erfordert starke und vorallem smarte Führung, in dieser komplexen Situation den richtigen Weg zu finden. Dies ist der Moment, in dem erfahrene Executives (und die Berater an ihrer Seite) zeigen müssen, was sie können.

Abbildung 8. Die TPR zu priorisieren reduziert die Zahl der falsch negativen, kostet den Benutzer jedoch sowohl Geld als auch Trefferquote.

Die Wirtschaft ist kein Kaggle-Wettbewerb

Die Wirtschaft ist kein Kaggle-Wettbewerb und die Performance einer KI in der echten Welt kann nicht wie ein solcher mittels Auto-Scoring bewertet werden. Erfolg auf der strategischen und menschlichen Ebene lässt sich nicht in Formeln fassen. In diesem Sinne unterscheidet sich die Einführung einer KI nicht von anderen großen Umstellungen der Betriebsorganisation. Eine KI in die Unternehmensrealität einzugliedern involviert eine Vielzahl von Stakeholdern, welche den Erfolg oder Misserfolg einer Lösung aufgrund sehr unterschiedlicher, zum Teil quantitativ kaum greifbarer, Kriterien bewerten. Indirekte Kosten, verursacht zum Beispiel durch unzufriedene Mitarbeiter oder Kunden, wirken sich möglicherweise erst mit mehreren Monaten bis Jahren Verzögerung aus, sodass die dazu gehörigen Risiken nur schwer zu beziffern sind. Aus diesem Grund spielen technische Perfomance-Metriken im KI-bezogenen Change-Management ein wichtige, aber letztendlich sekundäre Rolle.  

(For the English translation please see How to operate an AI optimally is a matter of perspective)

References

[1] TEAM POWER, C€-Profile 2019, S. 21, (Download am 30.05.2020)

[2] T. Fawcett, An introduction to ROC analysis (2006), Pattern Recognition Letters, 27, Seiten 861874

[3] F. Provost and T. Fawcett, Robust Classification for Imprecise Environments (2001), Machine Learning42, Seiten 203231 (oder von arχiv)

[4] Adult dataset (1996), bereitgestellt durch Dua, D. und Graff, C. (2019), UCI Machine Learning Repository

[5] K. Braunwarth, Wertorientiertes Prozessmanagement von Dienstleistungsprozessen (2009), Doktorarbeit, Abschnitt II.B1-8 

[6] P. Weyer, Ausgebremst und abgezockt, Stern vom 27. Januar 2008 (Download am 08.06.2020); I. Noé, Wie Kfz-Versicherer Kosten sparen, N-TV vom 13.05.2012(Download am 08.06.2020); B. Haschek, Vorsicht, Falle!, Auto Motor Sport vom 23.09.2013 (Download am 08.06.2020)

 

Über den Autor

Dr. Michael Köpf
Geschäftsführer

Als KI-Experte und zertifizierter Software-Architekt verantwortet Michael Köpf unsere technische Expertise und überbrückt für Sie das Gap zwischen Wissenschaft und Praxis.