Meine praktischen Erfahrungen mit ollama (llava)

vorhergehende Artikel in: OpenSource
06.10.2025

Ich diskutiere immer wieder gern über das was heute Machine Intelligence oder Artificial Intelligence ( oder wie die ganzen anderen hohlen Phrasen heißen, die dafür heutzutage als Buzzwords missbraucht werden). Das geschieht online, in meinem $dayjob oder auch privat. Meine Meinung steht fest: das ist alles Quatsch und steht in keiner Relation zum Nutzen

Ich als jemand, der noch die Ausläufer des letzten KI-Winter mitgekriegt habe stehe diesem Müll deshalb ablehnend gegenüber weil die unfassbare Ressourcenverschwendung, die dafür betrieben wird mich fassungslos zurücklässt und weil diese Systeme einfach nur sinnlose Fehler produzieren.

Aber man soll mir nicht deshalb glauben, weil ich schlüssige Argumentationsketten aufbaue, das Thema bis zum Diplom studiert habe oder mit belegbaren Quellen und Fakten argumentiere - nachdem ich mir vor einigen Wochen eine neue Graphikkarte für meinen Windows PC zugelegt habe, inspirierte mich dieser Artikel all das einmal bei mir persönlich lokal auszuprobieren...

Ich wählte dafür als Szenario nicht das "fasse die Email zusammen" oder "extrahiere die Kernbotschaft aus jenem Fachartikel" - einfach weil die Diskussion über die Ergebnisse verspricht, bei echten Gläubigen und Jüngern nicht zu verfangen - die lesen den Artikel oder die EMail und erklären, dass das System ja eigentlich gar nicht so weit danebenliegt. Ich benutzte die immer wieder gern beworbene "Fähigkeit" dieser Systeme, Bildbeschreibungen in Textform zu erzeugen.

Dazu installierte ich ollama und begann mit dem Modell llava.

Ich nutzte dafür meine Testdatengenerator, der mir (ohne AI) Clickbait erzeugt, speiste den in eine Google-Bildersuche ein und benutzte Bilder, von denen ich der Meinung war, dass keine zwei Meinungen existieren können, was auf den Bildern zu sehen ist als Input für das Modell - Ich stellte jedes Mal die gleiche Frage: Describe this image!

Die Ergebnisse waren (für mich nicht) ernüchternd:

Beim ersten Bild war die Beschreibung noch so, dass zwar die Inhalte nicht falsch wiedergegeben wurden, jedoch ließen die Details noch zu wünschen übrig - etwas, was ich dacht, später durch Tuning des Modells zu verbessern - dazu kam es jedoch nicht mehr.

Bereits beim zweiten Bild begannen die Halluzinationen: Das System erklärte zwar korrekt, dass sich zwei Personen darin befanden - jedoch erklärte es, dass zu Füßen der einen eine schwarze Katze säße - die einfach nicht da war!

Weitere Halluzinationen anderer Art tauchten beim dritten Versuch auf: hier entdeckte das System wiederum die korrekte Anzahl der Personen - diesesmal waren sie nicht bildschirmfüllend abgebildet, sondern nur bis zur Hüfte - allerdimgs ging die Erkennung der Kleidung der Personen völlig schief: statt des Kleides sah das System eine Bluse und einen Rock, dazu eine Jacke und alles zusammen in komplett falschen Farben!

Der vierte Versuch verlief nicht besser: Ein Bild, in dem eine Person vor einem Spiegel steht und die Person von hinten und (im Spiegel) von vorn gleichzeitig sichtbar war. Das Resultat: In der Beschreibung wurde der Schriftzug "Future" auf der Kleidung erwähnt. Eigentlich überflüssig, zu erwähnen, dass da kein Schriftzug war - weder der genannte noch irgendein anderer.

Diese Halluzination von Aufschriften war ein wiederkehrendes Feature. Ein weiteres Bild mit drei Personen, die je einen Kuchen präsentieren erzählte von einer Person, die eine Schürze trug mit der Aufschrift "Northwest Pie Co.". Alle drei - nicht nur eine Person - trugen Schürzen und keine davon war mit einer Aufschrift versehen!

Das mit Abstand befremdlichste war, wie einfach das System zu groben Schnitzern zu bringen war: Ein Bild aus einer Kleinanzeige, in dem verschiedene Kleidungsstücke so angeordnet waren, wie sie an einer Person zu finden wären (Mütze oben, Jacke darunter und ganz unten Hose) wurde nicht als Bild dreier Kleidungsstücke wahrgenommen, sondern als Bild einer Pinup- oder Variete-Künstlerin. Das System sah also drei Kleidungsstücke und sah automatisch die Person, die si trug - obwohl eine solche nicht existierte. Dieses - in der Psychologie als Gestaltwahrnehmung bekannte Phänomen ließ sich übrigens mit vielen Bildern dieser Art provozieren.

Auch Wiederholungen machten die Ergebnisse nicht besser - nur anders: Ich war in diesr Phase dazu übergegangen, die Bilder so auszusuchen, dass sie subjektiv betrachtet wirklich einfach waren. Als ich das Bild einer PErson mit Brille, schwarzer Jacke und roter Hose zweimal anbot kam bei Versuch eins "rotes Outfit, trägt Brille" und bei Versuch zwei "rote Hose, schwarzes Top und große Sonnenbrille" heraus. Beides stufe ich als Fehlschlag ein.

Wer trotzdem Lust haben sollte, dies auch einmal selbst auszuprobieren - hier das Skript, mit dem sich dieser Prozess von Linux aus beschleunigen lässt:

#!/bin/bash
(
cat << 'EOF'
{
  "model" : "llava",
  "prompt": "Describe this image!",
  "stream": false,
  "images": [ 
EOF
)>te.json
echo -n "\"" >>te.json
base64 -w 0 -i "$1" >> te.json
echo -n "\"]}" >> te.json

curl -X POST http://luna:11434/api/generate -d @te.json

rm te.json

Ich habe mir die Zeiten nicht genau aufgeschrieben - aber ich habe geprüft, ob die (Nvidia-)GPU wirklich benutzt wurd - wurde sie - und kann sagen, dass die Analyse eines Bildes auf meiner Hardware zwischen einer halben und einer Minute in Anspruch nahm.

Alle Artikel rss Wochenübersicht Monatsübersicht Codeberg Repositories Mastodon Über mich home xmpp


Vor 5 Jahren hier im Blog

  • Synchronisierung von Lorenz-Systemen II

    09.10.2020

    Ich habe in einem vorhergehenden Artikel ein Paper zur Synchronisierung chaotischer Systeme nachvollzogen. Dort hatte ich gezeigt, dass - anders als im ursprünglichen Paper - eine Synchronisierung zweier gleich parametrierter Lorenz-Systeme bei geeigneter Parameterwahl auch über die Zustandsvariable z möglich ist.

    Weiterlesen

Neueste Artikel

  • Raspbian Upgrade von 11 (Bullseye) nach 12 (Bookworm)

    Ich habe neulich wieder einmal eine Upgrade- und Backup-Sitzung mit meinen diversen Linuxinstallationen veranstaltet. Der Zeitpunkt schien mir gekommen, da es eine neue stable Variante von Debian (Trixie) gibt.

    Weiterlesen
  • Horizontale Balkendiagramme mit Gnuplot

    Ich habe neulich wieder einmal neue Beispiele zu meinem Projekt der Gnuplot-Ressourcen hinzugefügt: Ich habe überlegt, ob es möglich wäre, Balkendiagramme mit horizontal verlaufenden Balken zu erzeugen

    Weiterlesen
  • Generated Key Management in der sQLshell

    Ich habe an einem neuen Feature der sQLshell gearbeitet, das die manuelle Dateiengabe extrem vereinfacht.

    Weiterlesen

Manche nennen es Blog, manche Web-Seite - ich schreibe hier hin und wieder über meine Erlebnisse, Rückschläge und Erleuchtungen bei meinen Hobbies.

Wer daran teilhaben und eventuell sogar davon profitieren möchte, muss damit leben, daß ich hin und wieder kleine Ausflüge in Bereiche mache, die nichts mit IT, Administration oder Softwareentwicklung zu tun haben.

Ich wünsche allen Lesern viel Spaß und hin und wieder einen kleinen AHA!-Effekt...

PS: Meine öffentlichen Codeberg-Repositories findet man hier.