Okay, ich habe Win10, Faktor 1,5 kann dann hinkommen.
Die Performance Verbesserungen beruhen lt. Aussagen von DXO darauf, dass sie den Algo für DeepPrime umgebaut haben, damit es auch über FP16 statt FP32 Einheiten laufen kann.
Die Änderung hat keine visuellen Auswirkungen, führt aber dazu das GPUs oder Prozessoren die FP16 schneller als FP32 abarbeiten können oder sogar Spezialeinheiten für fp16 Matrixberechnungen haben ggf. besser abschneiden.
So auch bei Apple...dort wird deshalb jetzt die Apple Neural Engine statt der GPU genutzt. Daher auch die bis zu 4x Verbesserung.
Unter Windows sind es dann auch eher Turing und Ampere GPUs (also 2000 und 3000er) mit Tensor Cores die profitieren sollten, sowie Radeons die "Rapid Packed Math" (RDNA1/2 und VEGA) beherrschen.
Achja...und evtl. die GTX16xx nVidia Karten...die haben zwar keine Tensor Cores beherrschen aber wie die Radeons (und eigentlich alle Turings) den 2x Durchsatz über die FP32 ALUs mit "gepacktem" FP16.
Vor allem ältere nVidia GPUs (Pascal und Maxwell...also u.a. 900er und 1000er) können dagegen bspw. überhaupt nichts mit FP16 anfangen (bzw. laufen damit nativ eigentlich sogar deutlich langsamer...1/64 soweit ich mich erinnere) und sollten wohl höchstens durch Verbesserungen bei der CPU Performance profitieren und sonst wahrscheinlich eher den alten FP32 Rechenpfad vorgesetzt bekommen.
Deswegen tut sich da dann unter Umständen eher deutlich weniger.
Hängt halt echt von der verwendeten Hardware ab ob man eine Verbesserung sieht.
Der Code der über die CPU läuft sollte allerdings auch etwas schneller sein mit PL5...zumindest mit aktuellen Prozessoren.
Hat jemand hier ein Beispiel, dass zeigt, dass DeepPrime besser geworden sei?
Auf meiner 6900XT läuft es irgendwo zwischen ~25% bis 10% schneller als PL4, hängt aber stark vom RAW und der Kameraauflösung ab!
R6 RAWs profitieren bspw. weniger als 90D RAWs.
Je mehr MPix pro Datei zu verarbeiten sind umso stärker scheint der der Gewinn zu sein...also dürfte durch die Optimierungen hin zu FP16 teilweise andere Bottlenecks entstanden sein.
DeepPrime skaliert auch ungewöhnlich stark mit dem RAM Takt. Spricht m.E. dafür, dass viel Performance beim Kopieren zwischen den verschiedenen Speicherebenen drauf geht.