Tags: Innovation, False Negative, False Positive, Facebook, Peter Thiel, Machine Learning
Über False Positives und False Negatives, oder: Warum man Experimente immer genau analysieren sollte
Es gibt Menschen, die bewerten ein Spiel oder einen Prozess nach dem Ergebnis (z.B. Fussballfans, Fanatiker oder Hacker). Und es gibt diejenigen, die den Prozess oder das Spiel fokussieren, weil sie mit ungewissen Resultaten leben können (z.B. Wissenschaftler, Ingenieure, Trainer oder Ärzte). Letztere wissen, dass ein positives Resultat erzeugt werden kann, obwohl die Bedingung nicht vorliegt (False Positive). Auch wissen sie, dass Experimente negative Testergebnisse erzeugen, obwohl das Resultat positiv sein müsste (False Negative). Lehrreich wird es dann, wenn Entscheidungen auf Basis von False Positives oder False Negatives getroffen werden. So geht die Gründung von Netflix auf einen False Positive zurück. Hätte man gewusst, was man Monate später herausfand, wäre Netflix nie aus der Taufe gehoben worden. Gleichzeitig kann das Hinterfragen einer Überzeugung zu einer Erkenntnis führen, die andere nicht erreichen, weil sie geblendet wurden. Dieses Wissen kann in Wettbewerbsvorteile übersetzt werden, wie es das Investment von Peter Thiel in Facebook zeigt. Natürlich vereinfachen solche Anekdoten die Realität. Dennoch sind sie nicht komplett ungültig. Sie zeigen wie wichtig eine kritische Haltung ist. Besonders dann, wenn man ein Spiel spielt, dessen Ausgang ungewiss ist.
False Positives
Im Sommer 1997 starteten Marc Randolph und Reed Hastings ein Experiment. Sie wollten ihr gerade erdachtes Next-Day-Delivery-DVD-by-Mail Geschäftsmodell testen. Sie kauften eine CD, packten sie in einen Umschlag und adressierten ihn an Hastings. Falls die CD unbeschadet bei Hastings ankommen sollte, wollten sie das Unternehmen gründen, welches später Netflix werden sollte. Keine 24 Stunden danach lag die CD heil im Briefkasten von Hastings und man stürzte sich in das Abenteuer.
Allerdings war das Resultat ein False Positive, wie sich ein paar Monate später bei einem Besuch einer Postfiliale herausstellen sollte. Oder anders ausgedrückt: Sie hatten verdammtes Glück gehabt. Man hatte die CD in die lokale Post gegeben, die damals noch feinsäuberlich per Hand sortiert und organisiert wurde. Hätte man sie an Randolph verschickt, der etwas außerhalb wohnte, wäre sie mit Sicherheit in der automatischen Sortierungsanlage zerkratzt oder zerbrochen worden. Randolph und Hastings nahmen zu ihrem Glück fälschlicherweise an, dass ihr Experiment einen solch rauen Transport beinhaltete. Manchmal hat man einfach Glück.
Wenn Künstliche Intelligenz Panzer im Gebüsch erkennen soll
Besonders häufig sprechen Machine Learning Developer über False Positives. Auch, weil sie bisweilen kurzweilige Resultate generieren. Diese treten immer dann auf, wenn der Maschine falsche Muster einprogrammiert wurden oder die Maschine fälschlicherweise Muster erlernt, die eigentlich nicht vorhanden sind.
I spent the day laughing at the false positives of a DNN trained to detect NSFW material.
— Tim Kietzmann (@TimKietzmann) September 24, 2019
I probably should do an exhibit on them. Name suggestions? pic.twitter.com/EbAizgRSe8
Treffen jedoch Maschinen Entscheidungen mit realen Auswirkungen, sind False Positives verheerend. Es gibt eine Geschichte, die in diesem Kontext immer wieder erzählt wird. Tatsächlich wurde sie so oft erzählt, dass man ihren Ursprung nur mit Mühe ausmachen kann. Sie ist mehr urbaner Mythos, als belegt. Aber dennoch enthält dieser Mythos eine Einsicht, welche es wert ist, geteilt zu werden:
Irgendwann beschloss die US-Armee ein Computersystem zur Erkennung getarnter Panzer zu entwickeln. Man baute ein neuronales Netzwerk und trainierten es mit hunderten von Fotos von Panzern, die zwischen Bäumen versteckt waren. Hinzu kamen hunderte von Fotos von Bäumen ohne Panzer, bis das neuronale Netzwerk den Unterschied zwischen ihnen erkannte. Weitere hunderte nichtklassifizierte Bilder wurden zusätzlich gespeichert, um sie später zu testen. Als man der Maschine den zweiten Satz von Bildern zeigte, funktionierte sie perfekt. Sie unterschied Bilder mit Panzern und Bilder ohne Panzer. Die Entwickler schickten ihre Maschine an das Militär, welches aber innerhalb kürzester Zeit Beschwerde erhob und die Maschine zurückschickte, mit der Begrünung, sie sei nutzlos. Man untersuchte die Maschine und stellte fest, dass die Aufnahmen mit Panzer nur bei schönem Wetter in einem begrenztem Zeitraum aufgenommen wurden. Die Aufnahmen ohne Panzer entstanden hingegen bei bewölktem Wetter. Die Maschine hatte nicht gelernt, zwischen Panzern zu unterscheiden, sondern zwischen den Wetterbedingungen und Tageszeiten.
Die Moral der Geschichte: Machine Learning ist vor allem dann großartig, wenn die Bedingungen speziell und eng sind. Es besteht aber immer die Gefahr der Ungewissheit, was die Maschine überhaupt gelernt hat beziehungsweise auf was man optimiert. Die Geschichte wird deswegen immer dann hervorgeholt, wenn man vor den Grenzen der Algorithmen und der Bedeutung der Datenerfassung warnen möchte. Ein Data Bias sollte tunlichst vermieden werden, wenn die Maschine in der echten Welt wirkt, denn eingesetztes Machine Learning kann man nicht debuggen. Wenn Machine Learning etwas falsch erkennt, kann man es nicht reparieren. Man kann die Algorithmen nur nachtrainieren. Mit mehr oder weniger Erfolg. Denn oft ruiniert das Nachtrainieren die ursprüngliche Instanz.
In Datensätzen können immer Verzerrungen auftreten, womit Maschinen auf eine falsche Nutzungsfunktion hin optimiert werden. Es lohnt sich daher genau hinzuschauen und ein Experiment zu wiederholen, damit man keine folgenschweren Entscheidungen auf False Positives trifft.
False Negatives
Im Gegensatz zu False Positives beschreibt ein False Negative ein negativ ausfallendes Testergebnis, obwohl das Resultat eigentlich hätte positiv sein sollen. Mit anderen Worten: Irrtümlich wurde keine Wirkung festgestellt. Ein Beispiel für ein False Negative ist ein Schwangerschaftstest, der anzeigt, dass eine Frau nicht schwanger ist, während sie tatsächlich schwanger ist. Oder ein schuldiger Gefangener, der von einem Verbrechen freigesprochen wird. Die Bedingung “Der Gefangene ist schuldig” gilt zwar, denn der Gefangene ist schuldig. Aber der „Test“ — ein Gerichtsprozess — konnte diesen Zustand nicht erkennen.
Die Ursache für ein False Negative liegt häufig im Design des Tests oder Experiments, welches falsch ausgerichtet ist, beziehungsweise die falschen Kennwerte misst. Auch — und vielleicht besonders — im Digitalen trifft man auf False Negatives. Oft dann, wenn man mit neuen „disruptiven Geschäftsmodellen“ oder „radikalen Technologien“ experimentiert — beziehungsweise in sie über das Vehikel Startup investiert — die den unternehmerischen Status Quo in Frage stellen. Denn diese Modelle oder Technologien sind ungetestet und roh, weswegen ihre Wirkungen und Qualitäten zunächst stark ungewiss sind. Diese Ungewissheit fließt jedoch leider häufig in die Meinungsbildung mit ein. Und je mehr wir uns von Resultaten leiten lassen, desto größer ist die Gefahr, dass sich ein Denkstil mit einer hohen Beharrungstendenz manifestiert, welcher auf falsch-negative Ergebnissen aufsetzt.
Peter Thiel und Facebook
Kurz nach der Dotcom-Blase begann das Internet die Portal-Welt hinter sich zu lassen. Damals drehte sich alles um Verweilzeiten. Nutzer sollten möglichst lange auf digitalen Grundstücken gehalten werden, damit man ihnen so viel statische Banner-Werbung wie möglich präsentieren konnte. Dies galt auch für die ersten soziale Netzwerke. Sean Percival, damals VP Marketing bei Friendster, beschreibt die Gründungsgeschichte von MySpace mit den Worten:
“They looked at Friendster and said: ‘Wow, people are spending insane amounts of time on this site. We should copy it.’ And all they wanted to do was build a social network so they could have distribution for their ads, selling these horrible products to people. And that’s where it began.”
Doch das Problem von Friendster, Myspace, aber auch von ihren Vorgängern Classmates, Sixdegrees, Live-Journal, StumbleUpon, Delicious oder hi5 war, dass kein soziales Netzwerk eine langfristige Beziehung zu ihren Nutzern aufbauen konnte. Diese sprangen lieber von Netzwerk zu Netzwerk. Denn immerhin gab es vieles Neues zu entdecken und ein neues Netzwerk war per se immer spannender als sein Vorgänger.
Irgendwann galt dann das Experiment “Soziales Netzwerk” unter Risikokapitalgebern als gescheitert. Der Großteil war davon überzeugt, dass Nutzer soziale Netzwerke genauso häufig wechseln, wie ihre Klamotten. Und je mehr die Kunden sprangen, desto weniger Geld konnte man verdienen. Ausgerechnet in dieser Zeit bat Mark Zuckerberg bei Investoren um Geld. Es verwundert sicherlich nicht, dass viele dankend ablehnten. Sie sahen in einem weiteren sozialen Netzwerk keine Investmentopportunität. Niemand hinterfragte den Denkstil und kaum einer machte sich die Mühe und hinterfragte das Wechselverhalten.
Wie wir heute wissen, gaben sich nicht alle damit zufrieden. Zuckerberg stand auch bei Peter Thiel auf der Matte, der von sozialen Netzwerke grundlegend überzeugt war. Er hatte unter anderem in Friendster investiert, die ihre Nutzer zu der Zeit massiv an MySpace verloren. Entgegen der weit verbreiteten Überzeugung hatte er jedoch die Vermutung, dass man nicht sich nicht vom Resultat blenden lassen sollte. Die Frage, die er und sein Team sich stellte, war so banal wie effektiv: Warum wandern die Nutzer von Friendster überhaupt ab? Das Team von Thiel wusste, dass die Friendster-Website unter Last in die Knie ging, weil man einer robusten Infrastruktur keine Aufmerksamkeit geschenkt hatte. Die Website kam mit hunderttausend Besuchern klar, aber nicht mit Millionen von Anfragen. Man wandte sich zudem an Friendster und bat um User Retention Statistiken. Zu ihrer Überraschung zeigten die Daten überdurchschnittlich lange Verweilzeiten, ungeachtet der Tatsache, dass das Netzwerk regelmäßig abstürzte. Man erarbeitete deswegen die Hypothese, dass die Nutzer Friendster nicht verließen, weil der Garten auf der anderen Seite des Zaunes schöner zu sein schien. Sie verließen Friendster, weil die Performance und das Produkt nicht stimmte. Und hier zeigte Facebook großes Potential. Thiel soll über das erste Meeting mit Zuckerberg über Zuckerberg gesagt haben:
“Somewhat introverted, very smart and very driven. And a very strong engineer, which would be critical if Facebook would solve the scalability problems that caused Friendster to founder.”
Im Juni 2004 stieg Thiel dann als erster Investor mit einem Darlehen von 500.000 US-Dollar bei Facebook ein. Später wandelte er es in 7 Prozent Anteile an Facebook um. Beim Facebook-Börsengang im Mai 2012 verkaufte Thiel 16,8 Millionen Facebook-Anteile im Wert von 640 Millionen US-Dollar. Nach dem Ende der Haltefrist für Investoren verkaufte er weitere 20 Millionen Aktien für rund 400 Millionen US-Dollar.
Thiel und sein Team haben den Prozess des Experiments auf Herz und Nieren geprüft, weil sie sich nicht mit der allgemein gültigen Meinung zum Ergebnis zufrieden gaben. Ihre erschöpfende Fehleranalyse machte den Unterschied. Die einheitliche Meinung „Nutzer wechseln soziale Netzwerke genauso wie Klamotten“ war ein False Negative und der eigentliche Grund der Wechselwilligkeit lag simpel und einfach in der ungenügenden Qualität des Produktes.
Prozess versus Ergebnis
Natürlich lassen sich False Negatives und False Positives im Rückblick einfacher identifizieren als im Tagesgeschäft. Und natürlich ist die Realität viel komplizierter, als die hier geschilderten Anekdoten. Doch was man mitnehmen kann ist, dass die eigene Überzeugung manchmal auf falsch gemessenen Indikatoren beruht, weil beispielsweise alte Maßstäbe angelegt wurden. Manchmal wird auch einfach irrtümlicherweise keine Wirkung festgestellt oder Resultate gehen nicht konform mit den eigenen Überzeugungen.
Das einfache Wissen über False Positives und False kann deswegen Experimente und Entscheidungen besser machen. Man sollte sich nach und vor jedem Experiment immer fragen: Wie können wir unsere Hypothesen besser evaluieren? Denn jeder, auch der Prozess oder der Test, macht irgendwann einmal Fehler oder biegt falsch ab. Besonders dann, wenn man ein Experiment fährt oder Spiel spielt, dessen Ausgang ungewiss ist. Versucht man jedoch die Funktionsweise der Prinzipien hinter den Prozessen zu verstehen, entwickelt man nach und nach einen Prozess, welcher Antworten generiert, denen man vertrauen kann, auch wenn die Antworten möglicherweise in dem Moment nicht zu einem weit verbreitetem Glaubenssystem passen.