Forscher der University of Surrey entfesseln einen Game-Changer mit einem diagrammbasierten Objekterkennungstool für maschinelles Lernen
Schon in prähistorischen Zeiten nutzten Menschen Grafiken zur Kommunikation und Dokumentation. Im letzten Jahrzehnt haben Forscher große Fortschritte beim Verständnis gemacht, wie Skizzen von der Klassifizierung und Synthese bis hin zu neuartigeren Anwendungen wie visueller Abstraktionsmodellierung, Musterübertragung und kontinuierlicher Strichüberlagerung verwendet werden können. Allerdings haben nur das Diagramm-basierte Bildabrufverfahren (SBIR) und sein exaktes Gegenstück (FGSBIR) das Ausdruckspotenzial von Diagrammen untersucht. Moderne Systeme sind bereits reif für die kommerzielle Anpassung, was ein großartiger Beweis dafür ist, wie exponentiell der Ausdruck von Piktogrammen sein kann.
Die Grafiken sind unglaublich eindrucksvoll, da sie automatisch subtile, persönliche visuelle Hinweise einfangen. Die Untersuchung dieser inhärenten Qualitäten des menschlichen Zeichnens beschränkte sich jedoch auf den Bereich der Bildwiederherstellung. Zum ersten Mal trainieren Wissenschaftler Systeme, um die Schlussfolgerungskraft von Diagrammen für die grundlegendste Aufgabe des Sehens zu nutzen: das Erkennen von Objekten in einer Szene. Das Endprodukt ist ein Framework zur Objekterkennung auf der Grundlage von Diagrammen, sodass man sich auf ein bestimmtes „Zebra“ (z. B. das Fressen eines Grases) in einer Zebraherde konzentrieren kann. Darüber hinaus gehen die Forscher davon aus, dass das Modell erfolgreich ist, ohne:
- Gehen Sie mit einer Vorstellung davon, welche Ergebnisse zu erwarten sind (Nullhub), in den Test.
- Es sind keine zusätzlichen Rahmen oder Kapitelbeschriftungen erforderlich (wie bei der vollständigen Moderation).
Die Forscher geben weiter an, dass der schematisch basierte Detektor auch im Zero-Fire-Modus arbeitet, was die Neuheit des Systems erhöht. In den folgenden Abschnitten wird detailliert beschrieben, wie die Objekterkennung von einer geschlossenen Menge auf die Bildung von Singletons umgestellt wird. Objektdetektoren verwenden beispielsweise Prototyp-Lernen anstelle von Klassifizierungsheadern, wobei hartcodierte Funktionen zum Zeichnen von Abfragen als Hintergrundsatz fungieren. Das Modell wird dann mit einem Multiklassen-Entropieverlust über das Prototyping aller denkbaren Klassen oder Zustände in einer schwach überwachten Objekterkennungsumgebung (WSOD) trainiert. Die Objekterkennung erfolgt auf der Bildebene, während SBIR mithilfe von Grafikpaaren und Bildern einzelner Objekte trainiert wird. Aus diesem Grund erfordert das Training eines SBIR-Objektdetektors eine Brücke zwischen den Eigenschaften der Objektebene und der Bildebene.
Die Beiträge der Forscher sind:
- Entwickeln Sie die Ausdruckskraft der menschlichen Zeichnung, um Objekte freizulegen.
- Ein auf der Zeichnung aufgebauter Objektdetektor kann erkennen, was man vermitteln möchte
- Ein Objektdetektor, der eine konventionelle Erkennung auf Klassen-, Instanz- und Unterebenen ermöglicht.
- Eine neue Schnelllernkonfiguration, die CLIP und SBIR kombiniert, um einen grafikfähigen Detektor zu erzeugen, der auf eine Weise arbeiten kann, die ohne umgebende Boxanmerkungen oder Klassenbeschriftungen nicht ausgelöst werden kann.
- Die Ergebnisse sind denen von SOD und WSOD im Nullschussmodus überlegen.
Anstatt bei Null anzufangen, demonstrierten die Forscher intuitive Synergien zwischen Basismodellen (wie CLIP) und vorhandenen Zeichnungsmodellen für den zeichnungsbasierten Bildabruf (SBIR), die die Aufgabe tatsächlich elegant lösen können. Insbesondere führen sie zunächst eine separate Eingabeaufforderung für das SBIR-Modelldiagramm und die Bildzweige durch und nutzen dann die Generalisierungsfähigkeit von CLIP, um hochgradig generalisierbare Bilddiagramme und Encoder zu generieren. Um sicherzustellen, dass die in der Region erkannten quadratischen Verschmelzungen mit den SBIR-Schemata und -Bildern übereinstimmen, entwerfen sie ein Trainingsmodell, um die erlernte Codierung für die Elementerkennung anzupassen. Das Framework übertrifft überwachte (SOD) und schwach überwachte (WSOD) Objektdetektoren bei Zero-Shot-Einstellungen, wenn es mit branchenüblichen Objekterkennungsdatensätzen, einschließlich PASCAL-VOC und MS-COCO, getestet wird.
zusammengefasst werden
Um die Objekterkennung zu verbessern, fördern Forscher aktiv den Ausdruck menschlicher Zeichnungen. Das Objektidentifikations-Framework, das die vorgeschlagene Zeichnung ermöglicht, ist ein instanzen- und teilweise bewusster Objektdetektor, der verstehen kann, was man im Diagramm vermitteln möchte. Als Ergebnis entwickeln sie ein innovatives Schnelllern-Setup, das CLIP und SBIR kombiniert, um einen grafischen Preisdetektor zu lehren, der ohne Begrenzungsrahmenanmerkungen oder Klassenbeschriftungen funktioniert. Für verschiedene Zwecke ist der Melder außerdem für den Zero-Fire-Betrieb ausgelegt. Andererseits wird SBIR durch Paare von Zeichnungen und Bildern einer Sache gelehrt. Sie verwenden einen Datenerweiterungsansatz, der den Widerstand gegen Korruption und Verallgemeinerung über den Wortschatz hinaus erhöht, um die Lücke zwischen der Objekt- und der Bildebene zu schließen. Das resultierende Framework übertrifft schlecht überwachte und überwachte Objektdetektoren in einem Zero-Shot-Setup.
scannen Sie die Papier Und Referenzartikel. Vergessen Sie nicht, mitzumachen 25k+ML SubRedditUnd Discord-KanalUnd Und E-Mail-Newsletter, wo wir die neuesten Nachrichten aus der KI-Forschung, coole KI-Projekte und mehr teilen. Wenn Sie Fragen zum obigen Artikel haben oder wir etwas verpasst haben, schreiben Sie uns gerne eine E-Mail an [email protected]
🚀 Schauen Sie sich 100 AI Tools im AI Tools Club an
Dhanshree Shenwai ist ein Informatikingenieur mit fundierter Erfahrung in FinTech-Unternehmen in den Bereichen Finanzen, Karten, Zahlungen und Bankwesen und hat großes Interesse an KI-Anwendungen. Ihre Leidenschaft gilt der Erforschung neuer Technologien und Entwicklungen in der sich verändernden Welt von heute, die jedem das Leben leichter machen.
„Böser Kaffee-Nerd. Analyst. Unheilbarer Speckpraktiker. Totaler Twitter-Fan. Typischer Essensliebhaber.“