Folgendes passiert tatsächlich im neuronalen Netzwerk des LLM

Folgendes passiert tatsächlich im neuronalen Netzwerk des LLM

Folgendes passiert tatsächlich im neuronalen Netzwerk des LLM

Urich Lawson | Getty Images

Bei den meisten Computerprogrammen, auch bei komplexen, können Sie den Code verfolgen und den Speicher präzise nutzen, um ihn herauszufinden Warum Dieses Programm erstellt ein bestimmtes Verhalten oder eine bestimmte Ausgabe. Dies gilt im Allgemeinen nicht für die generative KI, wo die diesen Modellen zugrunde liegenden unerklärlichen neuronalen Netze es selbst Experten schwierig machen, genau zu wissen, warum sie beispielsweise häufig Informationen kombinieren.

Jetzt, Neue Forschung von Anthropic Bietet ein neues Fenster zu dem, was in der „Black Box“ von Claude LLM passiert. Unternehmen Neues Papier In „Extracting Interpretable Features from Claude’s 3 Sonnet“ beschreibt er eine wirkungsvolle neue Methode, um zumindest teilweise zu erklären, wie Millionen künstlicher Neuronen im Modell feuern, um überraschend realistische Antworten auf allgemeine Fragen zu erzeugen.

Öffnen Sie die Haube

Bei der LLM-Analyse lässt sich leicht erkennen, welche spezifischen künstlichen Neuronen als Reaktion auf eine bestimmte Anfrage aktiviert werden. Aber ein MBA speichert nicht einfach verschiedene Wörter oder Konzepte in einem einzigen Neuron. Stattdessen, wie die Anthropic-Forscher erklären, „stellt sich heraus, dass jedes Konzept durch viele Neuronen repräsentiert wird und jedes Neuron an der Darstellung vieler Konzepte beteiligt ist.“

Um dieses Chaos von eins zu vielen und von vielen zu eins zu sortieren, ordnen Sie Sparse Autoencoder Für den Betrieb kann komplexe Mathematik verwendet werden Wörterbuch-Lernalgorithmus. per Formular. Dieser Prozess zeigt, welche Gruppen von Neuronen tendenziell konsistenter für bestimmte Wörter aktiviert werden, die in verschiedenen Textaufforderungen vorkommen.

Gleiches internes LLM
Hineinzoomen / Das gleiche interne LLM-„Feature“ beschreibt die Golden Gate Bridge in mehreren Sprachen und Modi.

Diese mehrdimensionalen neuronalen Muster werden dann in sogenannte „Merkmale“ sortiert, die bestimmten Wörtern oder Konzepten zugeordnet sind. Zu diesen Merkmalen kann alles gehören, von einfachen Eigennamen wie z Die Golden Gate Bridge Zu abstrakteren Konzepten wie z Programmierfehler oder Additionsfunktion Im Computercode stellt es häufig dasselbe Konzept über mehrere Sprachen und Kommunikationsmodi hinweg (z. B. Text, Bilder) dar.

Siehe auch  Ist Google Bard besser als ChatGPT? 8 exklusive Fähigkeiten für den Chatbot-Rivalen von OpenAI – Alphabet (NASDAQ: GOOG), Alphabet (NASDAQ: GOOGL), Adobe (NASDAQ: ADBE)

Das Oktober 2023 Anthropologische Studie Zeigen Sie, wie dieser grundlegende Prozess an sehr kleinen, einschichtigen Spielzeugmodellen funktionieren kann. Das neue Papierformat des Unternehmens erweitert sich erheblich und spezifiziert zig Millionen aktive Funktionen im Mittelklassemodell Claude 3.0 Sonnet. Die resultierende Feature-Map – die Sie erstellen können Teilweise erkundet– Erstellt eine „grobe konzeptionelle Karte von“. [Claude’s] „Interne Zustände haben die Hälfte ihrer Berechnung hinter sich“ und weisen „eine Tiefe, Breite und Abstraktion auf, die Sonnets fortgeschrittene Fähigkeiten widerspiegelt“, schreiben die Forscher. Gleichzeitig warnen die Forscher, dass es sich um eine „unvollständige Beschreibung der internen Darstellungen des Modells“ handele, die wahrscheinlich „um deutliche Zahlen“ kleiner sei als eine vollständige Abbildung von Claude 3.

Eine vereinfachte Karte, die einige der Konzepte erklärt "schließen" Die "Interner Konflikt" Der Vorteil in Claudes anthropischem Modell.
Hineinzoomen / Eine vereinfachte Karte, die einige Konzepte veranschaulicht, die dem „inneren Konflikt“ in Claudes anthropischem Modell „nahe“ sind.

Selbst auf einer oberflächlichen Ebene hilft das Durchsuchen dieser Feature-Map dabei, zu zeigen, wie Claude bestimmte Schlüsselwörter, Phrasen und Konzepte mit etwas in Verbindung bringt, das sich Wissen nähert. A Feature namens „Hauptstädte“ Beispielsweise werden sie tendenziell stark aktiviert, wenn der Ausdruck „Hauptstadt“ verwendet wird, aber auch bestimmte Städtenamen wie Riga, Berlin, Aserbaidschan, Islamabad und Montpelier, Vermont, um nur einige zu nennen.

Die Studie berechnet außerdem ein mathematisches Maß für den „Abstand“ zwischen verschiedenen Merkmalen basierend auf ihrer neuronalen Ähnlichkeit. Die „eindeutigen Nachbarschaften“, die sich aus diesem Prozess ergeben, „sind oft in geometrisch verwandte Gruppen organisiert, die eine semantische Beziehung teilen“, schrieben die Forscher und zeigten, dass „die interne Organisation von Konzepten im KI-Modell zumindest teilweise mit zu unseren menschlichen Vorstellungen.“ Konzepte der Ähnlichkeit.“ Der Film über die Golden Gate Bridge ist beispielsweise relativ „nah“ an den Filmen, die „die Insel Alcatraz, den Ghirardelli Square, die Golden State Warriors, den Gouverneur von Kalifornien, Gavin Newsom, das Erdbeben von 1906 und eine Filmkulisse von Alfred Hitchcock“ beschreiben in San Francisco“. Schwindel„.

Siehe auch  Sehr kraftvoller Schlag!! Versteckter Modus von Spielern nach 28 Jahren entdeckt
Einige der wichtigsten Merkmale, die bei der Beantwortung einer Anfrage zur Hauptstadt des Bundesstaates von Kobe Bryants Team enthalten waren.
Hineinzoomen / Einige der wichtigsten Merkmale, die bei der Beantwortung einer Anfrage zur Hauptstadt des Bundesstaates von Kobe Bryants Team enthalten waren.

Die Identifizierung spezifischer LLM-Merkmale kann Forschern auch dabei helfen, die Schlussfolgerungskette abzubilden, die das Modell zur Beantwortung komplexer Fragen verwendet. Beispielsweise zeigt eine Eingabeaufforderung zum Thema „Hauptstadt des Staates, in dem Kobe Bryant Basketball gespielt hat“ Aktivitäten in einer Reihe von Features im Zusammenhang mit „Kobe Bryant“, „Los Angeles Lakers“, „Kalifornien“, „Hauptstädte“ und „Sacramento“. “, um nur einige zu nennen, von denen berechnet wurde, dass sie den größten Einfluss auf die Ergebnisse haben.

Schreibe einen Kommentar

Deine E-Mail-Adresse wird nicht veröffentlicht. Erforderliche Felder sind mit * markiert