Einzigartige Visualisierungen neuronaler Netze: maschineller Decoder versus menschliche Sinneserkennung

Einzigartige Visualisierungen neuronaler Netze: maschineller Decoder versus menschliche Sinneserkennung

Zusammenfassung: Eine neue Studie befasst sich mit der mysteriösen Welt tiefer neuronaler Netze und stellt fest, dass diese Modelle zwar Objekte erkennen können, die menschlichen Sinnessystemen ähneln, ihre Erkennungsstrategien sich jedoch von der menschlichen Wahrnehmung unterscheiden. Wenn Netzwerke aufgefordert werden, Reize zu erzeugen, die einer bestimmten Eingabe ähneln, erzeugen sie häufig nicht erkennbare oder verzerrte Bilder und Töne.

Dies deutet darauf hin, dass neuronale Netze ihre eigenen „Konstanten“ entwickeln, die sich stark von menschlichen Wahrnehmungsmustern unterscheiden. Die Forschung liefert Einblicke in die Bewertung von Modellen, die menschliche Sinneswahrnehmungen nachahmen.

Wichtige Fakten:

  1. Wenn tiefe neuronale Netze Reize erzeugen, die einer bestimmten Eingabe ähneln, erzeugen sie oft Bilder oder Töne, die keine Ähnlichkeit mit dem Ziel haben.
  2. Modelle scheinen einzigartige Konstanten zu entwickeln, die sich von menschlichen Wahrnehmungssystemen unterscheiden und dazu führen, dass sie Reize anders wahrnehmen als Menschen.
  3. Durch Wettkampftraining können modellgenerierte Reize für Menschen besser erkennbar gemacht werden, auch wenn sie nicht mit der ursprünglichen Eingabe identisch sind.

Quelle: Massachusetts Institute of Technology

Menschliche Sinnessysteme sind sehr gut darin, Dinge, die wir sehen, oder Worte, die wir hören, zu erkennen, selbst wenn das Objekt auf dem Kopf steht oder das Wort in einem Ton gesprochen wird, den wir noch nie zuvor gehört haben.

Computermodelle, die als tiefe neuronale Netze bekannt sind, können darauf trainiert werden, dasselbe zu tun: das Bild eines Hundes unabhängig von der Farbe seines Fells korrekt zu identifizieren oder ein Wort unabhängig vom Tonfall der Stimme eines Sprechers zu identifizieren. Eine neue Studie von Neurowissenschaftlern am MIT kommt jedoch zu dem Ergebnis, dass diese Modelle häufig auf die gleiche Weise auf Bilder oder Wörter reagieren, die sich vom Ziel unterscheiden.

Wenn diese neuronalen Netze verwendet wurden, um ein Bild oder Wort zu erzeugen, das auf die gleiche Weise reagierte wie eine bestimmte natürliche Eingabe, beispielsweise das Bild eines Bären, erzeugten die meisten von ihnen Bilder oder Töne, die menschliche Beobachter nicht erkennen konnten. Dies deutet darauf hin, dass diese Modelle ihre eigenen „Invarianten“ bilden, was bedeutet, dass sie auf Reize mit sehr unterschiedlichen Merkmalen in gleicher Weise reagieren.

Die Ergebnisse bieten Forschern eine neue Möglichkeit zu bewerten, wie gut diese Modelle die Organisation der menschlichen Sinneswahrnehmung nachahmen, sagt Josh McDermott, außerordentlicher Professor für Gehirn- und Kognitionswissenschaften am MIT und Mitglied des McGovern Institute for Brain Research und des Center for Brains des MIT . Köpfe und Maschinen.

Siehe auch  Feuerballlinien von St. Louis Arch während eines Meteoritenschauers in Leonid

„Diese Arbeit zeigt, dass man diese Modelle verwenden kann, um abnormale Signale zu extrahieren, die letztendlich zu einer Diagnose der Darstellungen im Modell führen“, sagt McDermott, der Hauptautor der Studie. „Dieser Test sollte Teil einer Reihe von Tests werden, die wir als Feld zur Bewertung von Modellen nutzen.“

Jenelle Feather Ph.D. ’22, jetzt wissenschaftliche Mitarbeiterin am Center for Computational Neuroscience des Flatiron Institute, ist Hauptautorin des Open-Access-Artikels, der heute in erscheint Normale Neurowissenschaften. Guillaume Leclerc, ein Doktorand am MIT, und Alexandre Madry, Cadence-Professor für Designsysteme für Computer am MIT, sind ebenfalls Autoren des Artikels.

Unterschiedliche Wahrnehmungen

In den letzten Jahren haben Forscher tiefe neuronale Netze trainiert, die Millionen von Eingaben (Töne oder Bilder) analysieren und gemeinsame Merkmale lernen können, die es ihnen ermöglichen, ein Zielwort oder -objekt mit der gleichen Genauigkeit wie Menschen zu klassifizieren. Diese Modelle gelten derzeit als die führenden Modelle biologischer Sinnessysteme.

Es wird angenommen, dass das menschliche Sinnessystem bei dieser Art der Kategorisierung lernt, Merkmale zu ignorieren, die nichts mit der grundlegenden Identität des Objekts zu tun haben, etwa die Menge des auf das Objekt fallenden Lichts oder den Winkel, aus dem es betrachtet wird. Dies wird als Invarianz bezeichnet, was bedeutet, dass Objekte als gleich wahrgenommen werden, auch wenn sie Unterschiede in weniger wichtigen Merkmalen aufweisen.

„Klassischerweise haben wir über sensorische Systeme so gedacht, dass sie Invarianten für alle Variationsquellen bilden, die verschiedene Beispiele derselben Sache haben können“, sagt Feather. „Der Organismus muss wahrnehmen, dass es sich um dasselbe handelt, auch wenn sie als völlig unterschiedliche Sinnessignale erscheinen.“

Die Forscher fragten sich, ob tiefe neuronale Netze, die für die Durchführung von Klassifizierungsaufgaben trainiert wurden, ähnliche Invarianten entwickeln könnten. Um diese Frage zu beantworten, verwendeten sie diese Modelle, um Reize zu erzeugen, die innerhalb des Modells die gleiche Art von Reaktion hervorriefen wie ein Beispielreiz, den die Forscher dem Modell bereitgestellt hatten.

Sie nennen diese Reize „typische Maße“ und greifen damit eine Idee aus der klassischen Wahrnehmungsforschung auf, bei der Reize, die von einem System nicht unterscheidbar sind, zur Diagnose seiner Konstanten verwendet werden können. Das Konzept der Analogien wurde ursprünglich in der Erforschung der menschlichen Wahrnehmung entwickelt, um Farben zu beschreiben, die identisch erscheinen, obwohl sie aus unterschiedlichen Lichtwellenlängen bestehen.

Zu ihrer Überraschung stellten die Forscher fest, dass die meisten der auf diese Weise erzeugten Bilder und Töne nicht den ursprünglich von den Modellen gelieferten Beispielen ähnelten. Die meisten Bilder waren ein Durcheinander zufällig aussehender Pixel und die Geräusche waren wie unverständliches Rauschen. Als die Forscher die Bilder menschlichen Beobachtern zeigten, ordneten die Menschen die von den Modellen synthetisierten Bilder in den meisten Fällen nicht derselben Kategorie wie das ursprüngliche Zielbeispiel zu.

Siehe auch  In China wurden versteinerte Überreste eines Dinosauriers gefunden, der auf Eiern mit Embryonen sitzt

„Sie sind für Menschen eigentlich völlig unkenntlich. Sie sehen nicht natürlich aus und klingen auch nicht natürlich, und sie verfügen nicht über interpretierbare Merkmale, anhand derer jemand ein Objekt oder Wort klassifizieren könnte“, sagt Feather.

Die Ergebnisse deuten darauf hin, dass die Modelle irgendwie ihre eigenen Konstanten entwickelt haben, die sich von denen in menschlichen kognitiven Systemen unterscheiden. Dies führt dazu, dass Modelle Reizpaare als gleich wahrnehmen, obwohl sie sich deutlich vom Menschen unterscheiden.

Jurisprudenzielle Konstanten

Die Forscher fanden den gleichen Effekt bei vielen verschiedenen Seh- und Hörparadigmen. Allerdings scheint jedes dieser Modelle seine eigenen einzigartigen Konstanten zu entwickeln. Wenn Messgeräte eines Modells einem anderen Modell präsentiert wurden, waren die Messgeräte des zweiten Modells für menschliche Beobachter nicht so erkennbar wie sie es waren.

„Die wichtigste Erkenntnis daraus ist, dass diese Modelle scheinbar das haben, was wir charakteristische Invarianten nennen“, sagt McDermott. „Sie haben gelernt, gegenüber diesen spezifischen Dimensionen des Reizfeldes, die für ein bestimmtes Modell spezifisch sind, invariant zu sein, sodass andere Modelle nicht die gleichen Invarianten haben.“

Die Forscher fanden außerdem heraus, dass sie die Metriken des Modells mithilfe eines Ansatzes namens „Adversarial Training“ dazu anregen konnten, sie für Menschen besser erkennbar zu machen. Dieser Ansatz wurde ursprünglich entwickelt, um einer weiteren Einschränkung von Objekterkennungsmodellen entgegenzuwirken, nämlich dass kleine, fast unmerkliche Änderungen an einem Bild dazu führen können, dass das Modell es falsch erkennt.

Die Forscher fanden heraus, dass beim Wettkampftraining, bei dem einige dieser leicht veränderten Bilder in die Trainingsdaten einbezogen wurden, Modelle entstanden, deren Messwerte für Menschen besser erkennbar waren, obwohl sie immer noch nicht so gut erkennbar waren wie die ursprünglichen Reize. Die Forscher sagen, dass diese Verbesserung offenbar unabhängig von der Auswirkung des Trainings auf die Fähigkeit der Modelle ist, feindlichen Angriffen zu widerstehen.

„Diese Art von Training hat einen großen Effekt, aber wir wissen nicht wirklich, warum es diesen Effekt gibt“, sagt Feather. „Dies ist ein Bereich für zukünftige Forschung.“

Siehe auch  Spoon sagt Konzert aufgrund der COVID-19-Richtlinien von Iowa ab

Die Analyse der von Computermodellen erzeugten Metriken könnte ein nützliches Werkzeug sein, um zu beurteilen, wie genau ein Computermodell die grundlegende Organisation menschlicher Wahrnehmungssysteme nachahmt, sagen die Forscher.

„Dies ist ein Verhaltenstest, den Sie an einem bestimmten Modell durchführen können, um zu sehen, ob die Konstanten zwischen dem Modell und menschlichen Beobachtern geteilt werden“, sagt Feather. „Es kann auch verwendet werden, um zu bewerten, wie spezifisch die Konstanten innerhalb eines bestimmten Modells sind, was dazu beitragen kann, potenzielle Möglichkeiten zur Verbesserung unserer Modelle in der Zukunft aufzudecken.“

Finanzierung: Die Forschung wurde von der National Science Foundation, den National Institutes of Health, dem Department of Energy Graduate Fellowship in Computational Science und einem Friends of the McGovern Institute Fellowship finanziert.

Über Neuigkeiten aus der Forschung zu künstlicher Intelligenz und Kognition

Autor: Sarah McDonnell
Quelle: Massachusetts Institute of Technology
Kommunikation: Sarah McDonnell – Massachusetts Institute of Technology
Bild: Bildquelle: Neuroscience News

Ursprüngliche Suche: Offener Zugang.
Typische Messinstrumente zeigen unterschiedliche Invarianten zwischen biologischen und künstlichen neuronalen Netzen„Von Josh McDermott et al. Normale Neurowissenschaften


eine Zusammenfassung

Typische Messinstrumente zeigen unterschiedliche Invarianten zwischen biologischen und künstlichen neuronalen Netzen

Oft werden tiefe neuronale Netzwerkmodelle sensorischer Systeme vorgeschlagen, um Repräsentationstransformationen mit Invarianzen wie denen im Gehirn zu lernen. Um diese Invarianten aufzudecken, haben wir „Modellmetriken“ erstellt, bei denen es sich um Reize handelt, deren Aktivierungen innerhalb der Modellphase mit denen im natürlichen Reiz übereinstimmen.

Instrumente für moderne überwachte und unbeaufsichtigte neuronale Netzwerkmodelle des Sehens und Hörens waren für den Menschen oft völlig unkenntlich, wenn sie aus späten Modellstadien generiert wurden, was auf Unterschiede zwischen Modell- und menschlichen Invarianten schließen lässt. Gezielte Modelländerungen verbesserten die menschliche Erkennung von Modellmesswerkzeugen, beseitigten jedoch nicht die allgemeine Diskrepanz zwischen Mensch und Modell.

Die Erkennbarkeit von Modellmetriken durch den Menschen lässt sich gut durch ihre Erkennbarkeit durch andere Modelle vorhersagen, was darauf hindeutet, dass Modelle zusätzlich zu den für die Aufgabe erforderlichen Invarianten unterschiedliche Invarianten enthalten.

Die Erkennbarkeit von Metameren ist sowohl von herkömmlichen gehirnbasierten als auch von schwach kontradiktorischen Kriterien entkoppelt, was einen deutlichen Fehlermodus bestehender sensorischer Modelle aufdeckt und ein ergänzendes Kriterium für die Modellbewertung darstellt.

Schreibe einen Kommentar

Deine E-Mail-Adresse wird nicht veröffentlicht. Erforderliche Felder sind mit * markiert