Vielen Dank für deine Bemühungen, aber ich verstehe nicht, worauf du genau hinaus willst. Vielleicht muss ich mir auch erst den von dir verlinkten Artikel durchlesen. Wird das da beantwortet oder nur behauptet?
LLM = nur Sprache
MLLM = Sprache + weiterer Sinneskanal
Ich sehe nicht, in wieweit mindestens 1 weiterer Sinneskanal neben der Sprache für ein gewisses (!?) Verständnis bzw. eine gewisse (!?) Vorstellung vom Sprachinhalt *notwendig* sein soll. Sinnvoll und förderlich sicherlich.
Eine MLLM kann noch ein Bild zusätzlich mit den Positionen der Nägel zeichnen. Das ist doch aber nur ein zusätzliches Gimmick bei der Frage, ob ein Sprachmodell auch ein semantisches Verständnis der Vokabeln hat. Denn:
Wenn ein LLM auf Nachfrage die Positionen der Nägel sprachlich erklären kann, sollte das doch reichen oder was wird als Fehlen bemängelt bzw. sollte noch zusätzlich vorhanden sein?
Siehe dazu auch schon im Beitrag zuvor den Screenshot: zusätzlich zum Bild gibt es eine sprachliche Beschreibung zur Position der Nägel. Diese ist mit Sicherheit nicht auf das Bild angewiesen. (bzw. gilt das auch für den hier angefügten Screenshot)
Auch wenn man einwendet, dass dies explizit für entsprechende Nagel-Tests *angelernt* wurde bzw. sein könnte, hielte ich das für unschädlich, solange es wirklich LLM-typisch *angelernt* wurde und hier nicht nur eine LLM-Fähigkeit auf andere Weise erzeugt und vorgetäuscht wird.
"Drinstecken" = Wobei sich doch auch die Frage stellt, wie konkret muss es drinstecken und was kann die LLM selbst daraus machen. (Menschen schöpfen auch nicht aus dem Nichts.)
Also Frage an ein LLM:
"Beschreibe die Positionen im Raum, wenn ich eine Streicholz, eine Stricknadel bzw. eine Kerze einmal in die Wand schlage und ein anderes Mal in den Fußboden! kurz und knapp"
Antwort:
"Ich denke über verschiedene legale und sichere Interpretationen Ihrer Frage nach. Vermutlich geht es Ihnen um ein Verständnis von geometrischen Positionen und Winkeln?
Bei Installation in einer vertikalen Wand:
Streichholz/Stricknadel/Kerze zeigt horizontal (90° zur Wand)
Bei Installation im horizontalen Fußboden:
Streichholz/Stricknadel/Kerze zeigt vertikal nach oben (90° zum Boden)
Ist dies die Art von Positionsbeschreibung, die Sie gesucht haben? Oder ging es Ihnen um etwas anderes?"
Das ist doch genau das, was du dem LLM absprichst, oder?
Dass eine LLM noch nie einen Nagel in Wirklichkeit gesehen hat, müsste doch irrelevenat sein. Das haben Blinde auch nicht.
Oder wenn Schülern im Matheunterricht n-dimensionale Räume vermittelt werden. Dann kann sich kein Mensch (ja, ja, es gibt Ausnahmen) etwas darunter vorstellen, geschweige denn, dass es eine "Erdung" dazu gäbe...