Freeware WIA-Loader, neue Version

mortara · 16 Mai 2024

So, mittlerweile habe ich Version 2.9.0.0 fertig gemacht und auf die Homepage geladen bzw. beim Microsoft App-Store eingereicht.

Neben ein paar kleineren Bugfixes ist da in erster Linie eine weitere Möglichkeit hinzugekommen, Bilder automatisch Beschriften bzw. Taggen zu lassen: per lokal laufendem LLaVA KI Modell. Das heisst es entstehen keine weiteren Kosten und die Bilder verlassen nicht den Rechner in Richtung Microsoft oder OpenAI. lediglich eine NVIDIA Grafikkarte wird optimalerweise benötigt. Es geht theoretisch zwar auch ohne bzw. mit Karten anderer Hersteller, aber das dürfte langsam sein und kann ich auch gerade nicht testen. Auf meiner RTX 4060 braucht WIA-Loader für ein Bild zwischen 2 und 6 Sekunden.

Die Ergebnisse sind ähnlich gut wie bei OpenAI und deutlich besser als mit dem Azure oder dem ONNX Modell. Das Setup funktioniert ähnlich wie beim ONNX Modell, d.h. es müssen 2 Dateien heruntergeladen werden und in den Einstellungen von WIA-Loader hinterlegt werden. Um das alles noch einfacher zu machen habe ich eine Funktion eingebaut, die auch diesen Prozess automatisch vornimmt.

Die einfachste Möglichkeit, die Funktion schnell einmal auszuprobieren ist über das Kontext-Menü:

Hier noch ein paar Beispiele für das was die KI so in den Bildern erkennt:

Das funktioniert tatsächlich sogar so gut, dass ich nicht so wirklich weis ob ich noch Zeit in die Weiterentwicklung der anderen Tagging Methoden investieren soll. Azure und OpenAI liefern zwar gute Ergebnisse, kosten aber extra und das ONNX Modell ist zwar schnell und kostenlos, aber hinkt beim Ergebnis um Welten hinterher.

Edit:
Die Tagging Funktion mittels ChatGPT habe ich auf das neue Modell GPT-4o umgestellt. Das ist schneller und günstiger.

mortara · 17 Juni 2024

Version 2.9.1.0 ist nun auf dem Weg in den AppStore und auf meiner Homepage.
Neben kleineren Korrekturen habe ich in erster Linie nochmal am automatischen Tagging bzw. Beschriften mit dem LLaVA Modell gearbeitet. Vor allem das dazu leider notwendige CUDA Toolkit kann nun von WIA-Loader automatisch installiert werden. Weiterhin sollte das Tagging nun auch funktionieren, wenn keine NVIDIA Grafikkarte vorhanden ist, dann allerdings auch deutlich langsamer!

ChasingShadows · 22 Juni 2024

Moin Patrick, gibt es eine Möglichkeit (von mir aus mit Checkbox) um die englischen Tags aus der KI zusammen mit den Übersetzungen verwenden zu können?

ChasingShadows · 22 Juni 2024

Und dann habe ich noch ein kleines Problem. Manchmal kommen die Tags an und die Description nie. Dann habe ich bei den "EXIFTool Änderungen" die Checkbox "Leere Felder überspringen" entmarkiert und erhalte jetzt folgenden Fehler. BTW, den Text finde ich wirklich gelungen, bis auf das "Wolkenlos" ... einen Screenshot vom Bild habe ich noch dazu gepackt.

Es sieht für mich so aus, als findet er in dem NEF-File das Feld "Description" nicht.

ChasingShadows · 22 Juni 2024

Hier ein anderes Beispiel bei aktiviertem MWG-Modus:

Und ExifTool 12.87 sieht

Das heißt in diesem Fall sind die Keywords auf dem Feld "Subject" gelandet

Ohne "MWG Modus" gibt es das Exif-Feld "ImageDescription" nicht, aber immer noch das XMP-Feld "Description". Es gibt jetzt nicht mehr das XMP-Feld "Subject", davür gibt es jetzt aber

ChasingShadows · 22 Juni 2024

Sodele, ich denke ich habe eine vernünftige Lösung für mich gefunden. Damit erhalte ich immer das Exif-Feld "ImageDescription" und das IPTC-Feld "Keywords".

Vielleicht hilft das anderen auch weiter

ChasingShadows · 22 Juni 2024

Ich glaube der Fehler in #1024 ist ein Feldüberlauf. Ich habe den Prompt für die Beschreibung abgeändert zu "Describe the image with up to 50 words. Be brief and precise". Damit ist der Fehler mit dem PopUp weg. Die Keywords gehen verloren, ab dem 18. Bild in ein und der selben Session.

ChasingShadows · 23 Juni 2024

Ich habe noch etwas experimentiert und habe mich dabei auf die beiden Felder "iptc:caption_abstract" und "iptc:keywords" beschränkt. Das erste der beiden Felder hat laut https://www.iptc.org/std/IIM/4.2/specification/IIMV4.2.pdf eine maximale Länge von 2000 Bytes (octets). Da ich u.a Umlaute haben möchte, habe ich in einem dritten Feld "iptc:CodedCharacterSet" den Wert "ESC % G" eingefügt, der die Bedeutung hat: alle Texte sind in UTF8 codiert.

Ich gehe jetzt vom Worst-Case aus und habe den Prompt für die KI wie folgt geändert: "Describe the image with up to 1000 characters. Be brief and precise".

Ich gebe dem WIA-Loader 5 NEF-Files. Beim ersten Bild kommt im Schritt "ExifTool Änderungen" folgender Abbruch

Ich breche hier ab.

Im WIA Loader hovere ich auf dem ersten Bild. Hier der Screenshot

Man sieht hier deutlich, dass die KI 1027 Zeichen in der Beschreibung zurück gibt (also mehr als 1000) und wie eingestellt 10 Tags. Angezeigt werden aber 20 Tags.

Wenn ich im Prompt sage "bis zu 300 characters, dann läuft alles durch. Mit der Maus auf dem 1. Bild sieht es jetzt so aus

Der ExifToolGui zeigt mir beim gespeicherten Bild

Das Feld "iptc:Caption-Abstract" sieht gut aus, aber wo sind die Keywords. Ich hätte da jetzt 9 erwartet. Hier noch der Inhalt vom Schritt "ExifTool Änderungen"

Ich helfe gerne bei der Fehlersuche. Ich kann die auch gerne die 5 NEF-Files und mein Profil schicken.

ChasingShadows · 23 Juni 2024

Ha, ich glaube der Fehler ist viel einfacher zu lösen als erwartet. Nach einigen weiteren Tests ist mir aufgefallen, dass immer da, wo in der Fehlermeldung die Zeichenkette "File not found" steht, die AI einen Zeilenvorschub verwendet. Sprich es werden mehrere Paragraphen geliefert. Deshalb habe ich den Prompt geändert zu "Describe the image with one paragraph. Be brief and precise".

Sieht gut aus so.

ChasingShadows · 23 Juni 2024

Ich habe jetzt 300 Bilder prozessiert. Bei ca 5-10% davon kommen aus der AI trotzdem mehrere Absätze raus. Da muss also auf jeden Fall die Übergabe an das ExifTool überarbeitet werden.

mortara · 24 Juni 2024

Zu deiner Frage bzgl. der Tags: nein, aktuell lässt sich nur die englische oder die übersetzte Version benutzen, aber ich überlege mir was!

Zu den anderen Problemen:
Ja, zu lange Antworten der KI sind noch ein Problem, da tüftele ich auch noch. Leider hält sich die KI auch nicht immer exakt an die ihr gegebenen Anweisungen. Ich versuche so viele Ausnahmesituationen wie möglich schon im Code abzufangen, aber bislang die beste Lösung ist, die KI dazu anzuhalten sich kurz zu fassen. Mit der nächsten Version wird es da aber hoffentlich auch noch Verbesserungen geben.

mortara · 24 Juni 2024

ChasingShadows schrieb:
Ich habe jetzt 300 Bilder prozessiert. Bei ca 5-10% davon kommen aus der AI trotzdem mehrere Absätze raus. Da muss also auf jeden Fall die Übergabe an das ExifTool überarbeitet werden.

Eine Option zum Filtern von Steuerzeichen aus den EXIFTOOL Parametern wird kommen.

ChasingShadows · 24 Juni 2024

Dann würde ich vorschlagen CR/LF durch ein # zu ersetzen ... das dürfte im Text nicht vorkommen und ist damit sichtbar

ChasingShadows · 24 Juni 2024

Aber ansonsten ist es beachtlich, was das Teil aus einem Vorschaubild der Größe 160x120 macht

mortara · 24 Juni 2024

Eine neue beta Version ist auf der Homepage!
Es gibt ein von ExifTool vorgesehenes Handling für CR/LF, das habe ich nun umgesetzt. Alternativ kann man CR/LF auch komplette wegfiltern.
Die nicht-übersetzten Tags bekommst du nun per Variable <TAGS2> und für da LLaVA Modell habe ich die Parameter Context Size und Temperature einstellbar gemacht.

Ja, das ist schon beeindruckend, was die AI in dem kleinen Bildchen erkennt. Durch bessere Modelle sollte sich das Ergebnisse auch nochmal deutlich verbessern lassen.

ChasingShadows · 24 Juni 2024

Danke für das schnelle Umsetzen. Ob ich heute noch zum Testen komm weiß ich noch nicht. Was machen die Parameter Context Size und Temperature?

mortara · 25 Juni 2024

Bei der Context-Size bin ich mir noch nicht ganz sicher, inwiefern sich das auf die Bilderkennung auswirkt. Bei reinen Text erzeugenden Modellen gibt man damit in etwa an wieviel Text der vorangegangenen Unterhaltung für die Generierung der Antwort verwendet wird, bzw. wie viele Basisinformationen der KI mitgegeben können. Im WiA-Loader dürfte das nur eine Auswirkung auf die maximale Länge des Prompts haben, da ansonsten ja der KI keine weiteren Informationen mitgegeben werden und das Bild selbst da nicht mitzählt (glaube ich! Bin aber auch noch am lernen was das angeht)

Mit der Temperatur stellt du ein, wie vorhersehbar bzw. zufällig eine Ausgabe wird. Je höher die Temperatur, desto zufälliger, je niedriger desto vorhersehbarer. Default in WIA-Loader ist 0.1 und vermutlich macht es auch wenig Sinn, den Wert zu erhöhen, aber zum experimentieren wollte ich es wenigstens möglich machen.

ChasingShadows · 25 Juni 2024

Hätte der Fehler jetzt schon weg sein sollen?

mortara · 25 Juni 2024

Ja, mit der 2.9.1.1 beta von der Homepage hatte ich das Problem nicht mehr. Hast du im Import-Schritt 'ExifTool Änderungen' das Häkchen 'Zeichen für Zeilenvorschub etc. filtern' ?

ChasingShadows · 25 Juni 2024

Freeware WIA-Loader, neue Version

Anhänge