Bittiefe und Dithering

little-endian · 20. Juli 2017, 11:49

Hallo zusammen,

ich poste das folgende nun mal hier, obwohl ich zugegebenermaßen selbst offene Fragen habe, mir es thematisch hier jedoch ganz passend erscheint.

Beim jüngsten Hype um 4K und HDR sind in Reviews und sonstigen Artikeln zum Thema immer wieder Aussagen wie diese zu lesen:

"Die für das untrainierte Auge am schwersten zu entdeckende Neuerung ist die große Farbtiefe von 10 Bit, also 1.024 Stufen pro Farbe statt der bisher gewohnten 256 Stufen. Das ist immer noch ziemlich wenig, wenn man ein Extrembeispiel nimmt und über die Breite des Fernsehers einen Farbverlauf darstellen will."

golem.de

"HDR bringt größere Kontraste und knalligere Farben." Heise

"Um diese für HDR typischen hohen Kontraste und brillante Bildqualität erreichen zu können und störende Helligkeitsschwellen bzw. Helligkeitssprünge (Artefakte) unsichtbar zu halten, reicht die bisherige 8-Bit-Technik mit 256 Helligkeitsstufen nicht mehr aus." Burosch

Ich behaupte, dass diese Aussagen in dieser Verallgemeinerung allesamt so nicht korrekt sind, da sie das Thema Dithering bewusst oder unbewusst vollständig ausklammern.

Nachdem ich diesen Einwand kürzlich im Heise-Forum eingebracht hat und die Diskussion nach einigen Gegenargumenten à la "Dithering ist Mist" und "heute wird das Signal 1:1 von der Grafikkarte an den Bildschirm übertragen, da wird nix gedithert" inhaltlich leider recht schnell im Sande verlief, möchte ich das Ganze an dieser Stelle genauer wissen, da auch für mich noch einige Fragen offen sind.

Die Aussagen, eine größere Bittiefe verringere Banding und vergrößere den Farbraum, mögen zunächst einleuchtend klingen, kennen wir doch alle abrupte Farbübergänge bei Sonnenuntergängen, absaufende Schatten im Schwarz und Übersteuerung in hellen Bereichen. Ich behaupte dagegen: die Bittiefe eines Bildes oder Videos limitiert zunächst einmal das Signal-/Rauschverhältnis und sonst nichts.

Der Grund dafür ist folgender: im Audiobereich gibt es ebenfalls pauschale Aussagen wie "24-Bit PCM bietet 16777216 Lautstärkeabstufungen, während die Audio-CD gerade mal 65536 unterstützt". Diese sind, ordentliches Dithering vor Digitalisierung des Signals vorrausgesetzt, definitiv falsch. Dank hinzugefügtem Rauschen verliert man ein paar Dezibel Signal-/Rauschverhältnis und erhält dafür im Gegenzug im Idealfall ein sich völlig "analog verhaltendes" System, je nach verwendeter Bittiefe/Wortlänge auf Niveau einer alten Kompaktkassette ohne Rauschunterdrückung bis hin zu Highend-Bandmaschinen, was wohl bereits bei überschaubaren 16-Bit schon der Fall ist. Dies ist auch der Grund dafür, warum 24-Bit-Audio zwar während der Produktion zusätzliche Reserven bietet, als Enddistributionsformat jedoch mindestens 4 Bit pro Sample verschenkt, da selbst die besten DACs keine > 144dB SNR erreichen, die nötig wären (von den Ohren, die lange vorher limitieren, ganz abgesehen). Mehr oder weniger Konsens ohne Voodoo-Ambitionen scheint daher zu sein: mehr als 48kHz/20Bit braucht man auch in jungen Jahren und bereits viel Geld nicht beim Ton.

Nun haben einzige wie etwa FoLLgoTT hier bereits aufgezeigt, dass ein Bildsignal letztlich nichts anderes ist als ein Audiosignal, nur mit je nach Auflösung ungleich höherer Bandbreite (etwa Faktor 1000). In der Praxis zeigt sich dies im Alltag auch durch etliche 1:1 Entsprechungen von Bild und Ton:

Schärfe - Bandbreite (analog)
Auflösung/Pixel - Abtastrate (digital)
Kontrast - Dynamikumfang
Bildrauschen - Rauschen
Helligkeit - Lautstärke
Moiré - Aliasing

Selbst die Falschdarstellungen von einst analogen Quellen in ihrer digitalen Form weisen Gemeinsamkeiten auf: zoomt man weit genug in ein Bild hinein, werden Pixel sichtbar und etliche Audioeditoren stellen die Wellenform eines Audiosignals als direkte Verbindung einzelner Punkte dar. Ein Ton würde in dieser Form jedoch nie einen Lautsprecher erreichen, da dank der Rekonstruktionsfilter als Teil eines jeden D/A-Wandlers dafür sorgt, dass bei der Digitalisierung "entstande" Oberwellen entfernt werden und somit allein ein stufenloses Analogsignal zurückbleibt. Auch beim Bild dürfte es idealerweise gar keine Pixel geben, da diese nur die Messwerte für die analoge Rekonstruktion sind. Mit Ausnahme von Röhrenbildschirmen (zumindest in horizontaler Richtung) ist dies beim Bild jedoch oft nicht direkt der Fall, da man die "Rekonstruktion" und Filterung hier beim Einsatz der heutzutage (leider) üblichen pixelbasierten Bildschirme im Grunde dem Betrachter und dessen optischem System überlässt. Jedes Bild mit einer bestimmten Anzahl an Pixeln sieht in einem bestimmten Abstand somit nur deshalb einheitlich und fließend aus, weil die Optik des Auges hier die entstehenden hohen Frequenzen filtert und diese die Netzhaut nicht mehr erreichen.

Diese Filterung ist übrigens auch ohne jegliche technische Fragen im Leben von Bedeutung, da die lichtempfindlichen Stäbchen und Zapfen prinzipbedingt räumlich diskret abgeordnet sind und letztlich zumindest, was die Auflösung angeht, dem Vorgang des Samplings entsprechen. Läge die optische Auflösung des Auges über der der Netzhaut, würde bei ausreichend hohem Detailgrad der betrachteten Vorlage ebenfalls Aliasing/Moiré auftreten. Dass das bei hintereinander angeordneten Gittern oder Vorgängen tatsächlich beobachtbar ist, liegt daran, dass die erste Schicht die Auflösung faktisch reduziert und die dahinterliegneden Details dann keine Rücksicht auf Nyquist/Shannon nehmen, was immer Aliasing zur Folge hat.

Selbiges gilt beim Herunterskalieren von Bildern, eine Tugend, die die meisten Bildbetrachter eher schlecht als recht beherrschen. Wer das selbst mal testen will, vergleiche unter Android den integrierten Viewer mit dem um Welten besseren "AA Viewer".

Während man bei Filmen und Photos mit Fug und Recht behaupten kann, dass es sich hierbei um analoge Quellen handelt, die idealerweise auch so dargestellt werden, lässt sich bei computergenerierten Inhalten wie Schriften oder Grafiken einwenden, dass diese durchaus hart abgegrenzte Kanten aufweisen können und durch pixelbasierte Bildschirme auch so dargestellt werden. In Analogie zu Audio würde dies jedoch einer unendlichen Bandbreite entsprechen, die in keinem System erreicht werden kann. Dieser scheinbare Widerspruch lässt sich jedoch auflösen, wenn man bedenkt, dass selbst bei diskreter Ansteuerung von pixelrepräsentierenden Elementen Lichtstreuungen auftreten und man derart "steile" Übergänge auch bei perfekter Darstellung allein durch die Filterung der Augen so nie zu sehen bekäme. Nach dieser These sollte sich also auch bei künstlich generierten Inhalten in Sachen Schärfe optisch kein Vorteil durch pixelbasierte, bei ursprünglich analogen Inhalten per Definition falsche Darstellung ergeben, so dass auch hier eine grundsätzliche zusätzliche Tiefpassfilterung legitim wäre.

Bislang gibt es für mich aus den genannten Überlegungen heraus somit keinen Anhaltspunkt dafür, dass Bild und Ton im Grunde nicht dasselbe physikalische Phänomen sind, was zwingend zur Folge hätte, dass auch alle Maßnahmen im Rahmen der Digitalisierung 1:1 übertragbar sind.

Ein theoretisch rauschfreies Bild vorausgesetzt, ist die Anzahl der Helligkeits- oder Farbabstufungen durch die Bittiefe begrenzt. Je nach Größe dieser sind dann harte Übergänge sichtbar (Banding). Fügt man jedoch Rauschen hinzu, lässt sich im Extremfall mit nur einem Bit ein beliebiger Helligkeitsverlauf vollständig darstellen, wie es auch von Rastertechniken genutzt wird. Dies freilich auf Kosten eines entsprechend geringeren Signal-Rauschverhältnisses. Hierzu habe ich auch einen meiner Meinung nach sehr guten Artikel gefunden, bei dem es um die Bittiefe von RAW-Aufnahmen geht. Auch hier wieder die Parallele, dass eine Erhöhung der Bittiefe je nach Rauschanteil des zu digitalisierenden Signals keine Verbesserung mit sich bringt, da die zusätzlichen Bits dann nur noch redundant das Rauschen konservieren.

Die Aussage "mehr Bit, kräftigere Farben" wird bereits allein durch die Tatsache entkräftet, dass der erzielbare Farbraum vielmehr von der maximalen Sättigung der Grundfarben eines Bildschirms bestimmt wird denn durch die Bittiefe seiner Ansteuerung. Eine Verarbeitung auch mit 10-Bit wird aus einem mittelprächtigen LCD mit mauem Schwarzwert und Farben kein AdobeRGB und mehr zaubern. Dass mit "nur" 8 Bit HDR-Quellen quasi genauso prächtig darstellbar sind wie mit nativen 10-Bit-Panels, zeigen denn offenbar auch einige HDR-Fernseher. So schreibt man auf rtings.com:

"we consider 8-bit with dithering to be equivalent to 10-bit, as long as the 10-bit gradient looks smooth."

Ohne mich wirklich mit den Details auszukennen, gehe ich von einem Ditheringverfahren auf zeitlicher Ebene aus, wie sie bei Plasma-Fernsehern prinzipbedingt zum Einsatz kommt. Einzelne Elemente leuchten nicht in der Helligkeit entsprechend ihrem Farbwert, sondern werden unterschiedlich oft in entweder nur zwei oder zumindest weniger Stufen als es dem Eingangssignal entspricht, gezündet. Meinem Verständnis nach sind damit unabhängig von der Bittiefe beliebige Abstufungen möglich - auch hier auf Kosten des SNR, was besonders bei Plasma-Fernsehern aus der Nähe betrachtet auch bei statischen Bildern als "Grieseln" sichtbar wird.

Der Spruch "there's no such thing as a free lunch" gilt somit natürlich auch hier, macht aber die Aussagen, die die Bittiefe direkt an die darstellbaren Farben oder Helligkeitsstufen koppeln, jedoch auch nicht richtiger.

Nun ist beim Bild die Meinung ziemlich verbreitet, dass Dither seit jeher ein "fauler Kompromiss" längst vergangener Tage sei, den kein Anwender mehr ernsthaft haben wolle. Als man noch winzige GIF-Bildchen mit läppischen 256 Farben und Banding hatte. Wieder aus Sicht der Audiowelt ist es jedoch so, dass Dithering eben kein Notnagel für unzureichende Systeme ist, sondern integraler Bestandteil, um das digitalisierte Signal vom deterministischen und damit Verzerrungen verursachenden Quantisierungsfehler zu entkoppelt. Dither maskiert hier keine Fehler sondern führt trotz minimal erhöhtem Grundrauschen kontraintuitiv zu einer Erhöhung des Auflösungsvermögens auf Werteebene, so dass in der Praxis sogar Signale unterhalb eines Bits über einen Durchschnittsverlauf erfasst werden.

Ein weiterer Einwand ist der, dass Dithering beim Bild zwar den Mangel an Farbwerten ausgleichen könne, jedoch die Auflösung reduziere. Das ist die Stelle, an der ich selbst womöglich einem entscheidenden Denkfehler unterliege, was Grund für diesen Beitrag ist, da ich mir neue Einsichten erhoffe:

Warum das? Ich finde im Audiobereich zu dieser Auflösungsreduktion keine Entsprechung. Hierzu ein Beispiel:

Ein 16-Bit-PCM-Signal und 44,1 kHz Abtastrate wird in ein 8-Bit-PCM-Signal mit ebenfalls 44,1 kHz konvertiert. Zwar erhöht sich bei 8-Bit das Quantisierungsrauschen und der SNR sinkt von vielleicht 93dB auf nur noch 45dB, doch die Audiobandbreite bleibt erhalten. Man mag nun einwenden, dass das Rauschen feine Details (hoher) Frequenzen maskiert und diese so effektiv verloren gehen, jedoch ist es faktisch so, dass über die andernfalls mögliche Konstellation gleicher Datenmenge (halbe Abtastrate, 16-Bit) deutlich höhere Frequenzen möglich sind. Dither schränkt die Audiobandbreite per se also nicht ein, sondern reduziert lediglich den Dynamikumfang/SNR.

Insofern stelle ich mir bei einem geditherten, statischen Bild die Frage, ob das echter Auflösungverlust im Sinne der Ortsfrequenz ist oder man im Alltag voreilig Rauschen mit Auflösungverlust gleichsetzt, was nicht dasselbe ist. Erfahrungen mit Photoaufnahmen im Dunklen mit deutlich erkennbarem Auflösungverlust und Rauschen sind weniger hilfreich, da hier gerne wieder Pixel zur Rauschunterdrückung zusammengefasst werden, was freilich die nominelle Auflösung verringert.

Dass es einen Zusammenhang zwischen Auflösung und Rauschen gibt und man im Prinzip beides "verhandeln" kann, zeigt anschaulich ein Experiment mit GIMP. Da dessen Ditherfunktion bei der Konvertierung von 24-Bit RGB auf nur noch wenige Farben leider viele Bereiche gleichfarbig "zukleistert" und der Bildeindruck natürlich lange nicht mehr an das Original heranreicht, habe ich mir damit beholfen, die RGB-Kanäle zunächst in einzelne Ebenen aufzuteilen und dann jeden Farbkanal separat auf den Extremfall 1-Bit und Floyd-Steinberg zu dithern und dann wieder zusammenzufügen.

Das aufgenommene JPEG-Original eignet sich ob des Kontrastumfangs und die Details durch Mauerwerk und Jalousien recht gut für diesen Zweck:

Zum Vergleich das nach beschriebener Prozedur pro Farbkanal auf 1-Bit geditherte Variante bei gleicher Auflösung. Da das Rauschen je Farbkanal ungleich verteilt ist, ergeben sich ein paar wenige Mischfarben, das resultierende Bild hat daher statt 3 Farben ganze 8 von immerhin 239412 im Original.

Edit Ravenous: Externe Bilderhoster gelöscht

Zur Veranschaulichung der Auswirkung, wenn für das Dithering weniger Bandbreite zur Verfügung steht, habe ich das Original zunächst herunterskaliert und dann gedithert. Um Aliasing halbwegs zu vermeiden, kam dabei der BSpline-Filter zum Einsatz:

Edit Ravenous: Externe Bilderhoster gelöscht

Das herunterskalierte Bild wieder hochskaliert und dann gedithert zeigt, dass sich das durch Dither entstehende Rauschen analog zu Audio quasi via “Noise Shaping” in einen höheren (Orts)Frequenzbereich verschieben lässt und die Körnung im Verhältnis zum Bild so mehr und mehr abnimmt. In den hohen Frequenzen (reingezoomt) bleibt das Rauschen gleich, doch auf das Nutzsignal (das eigentliche Bild bezogen) entfernt sich das Rauschen mehr und mehr, ganz wie beim Ton.

Edit Ravenous: Externe Bilderhoster gelöscht

Beim Betrachten der Bilder sollte das verwendete Programm möglichst aliasingfrei auf die Zielauflösung des Displays skalieren können. Unter Windows habe ich auf die Schnelle nur XNView mit BSpline finden können (Lanczos führt ebenfalls zu Aliasing). Die mir bekannte beste Variante ist wie gesagt der AA Viewer unter Android. Auf einem Samsung Tablet oder Galaxy S6/S7 mit 2560x1600 respektive 2560x1440 mit sehr guter Darstellung.

Nun würde mich eure Meinung interessieren:

- verringert Dither in statischen Bildern tatsächlich die Auflösung oder wird hier die Reduktion des SNR als Auflösungsverlust (fehl)interpretiert? Wenn ja, welche Entsprechung hätte das bei Audio und wie lässt sich der Widerspruch auflösen, das Bild als Videosignal zu interpretieren und hier Dithering anzuwenden?

- sofern ausreichend Auflösung zur Verfügung steht und das Dithering zeitlich (durch Pulsung) entsteht, sollte dann nicht jeder beliebige Farbraum selbst mit nur einem Bit pro Farbkanal abbildbar sein? Ich denke da gerade spontan an DSD und die SACD.

FoLLgoTT · 20. Juli 2017, 13:21

Endlich mal wieder ein interessanter Beitrag.

little-endian schrieb:

"heute wird das Signal 1:1 von der Grafikkarte an den Bildschirm übertragen, da wird nix gedithert"

Und das bei Heise? Peinlich.

little-endian schrieb:

verringert Dither in statischen Bildern tatsächlich die Auflösung oder wird hier die Reduktion des SNR als Auflösungsverlust (fehl)interpretiert? Wenn ja, welche Entsprechung hätte das bei Audio und wie lässt sich der Widerspruch auflösen, das Bild als Videosignal zu interpretieren und hier Dithering anzuwenden?

Ich denke nicht, dass man direkt von Auflösungsverlust sprechen kann. Eher maskiert ein zu starkes Rauschen Details. Das ist ja bei Audio auch so. Ist das Rauschen zu hoch, gehen leise Passagen unter. Im Grunde sollte es das ganz gut treffen. Wobei das Rauschen dafür schon sehr hoch sein muss. 8 Bit mit Dithering sieht man in der Regel auch auf einer großen Leinwand überhaupt nicht.

MadVR benutzt ja auch hochwertiges Dithering und ich konnte es selbst in Standbilder noch nicht erkennen. 8 Bit + Dithering sah damals bei meiner Grafikkarte tatsächlich besser aus als 10-Bit-Ausgabe. Wobei die 10-Bit-Ausgabe auch nicht immer so funktioniert, wie man es erwartet. Teilweise werden wohl keine echten 10 Bit ausgegeben. Ich hatte mit madshi mal einen Mailverkehr dazu. Er meinte auch, dass 8 Bit + Dithering das Sicherste und in vielen Fällen auch das Beste ist, was man einstellen kann.

little-endian schrieb:

sofern ausreichend Auflösung zur Verfügung steht und das Dithering zeitlich (durch Pulsung) entsteht, sollte dann nicht jeder beliebige Farbraum selbst mit nur einem Bit pro Farbkanal abbildbar sein? Ich denke da gerade spontan an DSD und die SACD.

Ja. DLPs, Plasmas und seit einigen Jahren auch D-ILAs nutzen die zeitliche Pulsweitenmodulation, um mit 1 Bit alle Werte darzustellen. DSD arbeitet nach einem ähnlichen Verfahren. Das klappt mit einer hohen Schaltfrequenz erstaunlich gut.

Ansonsten stimme ich dir vollkommen zu. Es werden auch in Zeitschriften sehr viele Falschaussagen zur Bittiefe getroffen und Dithering komplett ignoriert. Wobei man zwischen dem Medium und der Datenverarbeitung während der Wiedergabe unterscheiden sollte. Das Rauschen ist nämlich für MPEG und Konsorten ganz und gar nicht gut, da es ja für den Enkoder nicht von Informationen unterscheidbar ist. Deswegen spricht vieles für eine hohe Bittiefe bei der Kodierung, aber für die weitere Verarbeitung kann sie auch über Dithering erhalten bleiben.

Koenich · 20. Juli 2017, 13:43

Hi Little-endian,

sehr interessanter Beitrag!
Kannst Du bitte die Bilder hier hochladen und wieder einfügen?
Leider ist der Beitrag so verstümmelt.

little-endian · 20. Juli 2017, 13:57

Vielen Dank für euer Lob, ich habe mir Mühe gegeben.

Ich nehme die Schuld im Sinne der Anklage auf mich, vor dem Posten nicht sämtliche Forenregeln studiert und so ohne mir viel dabei zu denken auf externe Bildhoster verlinkt zu haben. Wenige Minuten nach Absenden des Beitrags bekam ich dafür sogleich von einem Moderator etwas zwischen die Hörner. Man habe nicht auf externe Bildhoster zurückzugreifen, sondern das foreneigene Hosting zu verwenden. Dem würde ich gerne nachkommen, doch das Formular meint, dass hier maximal 1 MB erlaubt sind und die Bilder liegen auch als PNG darüber.

Gerne wollte ich auch ein paar kleinere Rechtschreibfehler korrigieren, doch nun kann ich den Beitrag nicht mehr editieren.

rumpeli · 20. Juli 2017, 14:33

Bilder runterladen, mit Tiniypic.exe verkleinern...ups... exakt bei diesem Beispiel eine Scheißidee. Also evtl. eine Anleitung einstellen wie man die Bilder bei Google findet.

little-endian · 20. Juli 2017, 15:50

Da das mit den erstellten Bildern hier knifflig zu sein scheint, hier eine kleine Anleitung für GIMP, falls jemand selbst experimentieren möchte. Für die hier leider gelöschten (damals selbst geschossen) bitte eine PM schicken.

Originalbild laden und dann im Menü unter "Colors" -> "Components" -> "Decompose" mit Haken bei "Decompose to Layers" auswählen. Im entstandenen Schwarz/Weißbild dann wieder im Menü unter "Image" -> "Mode" -> "Indexed..." -> "... 1-bit palette" und "Floyd-Steinberg (normal)" auswählen.

Bevor man die Bilder nun wieder zu einem farbigen Bild kombinieren kann, wählt man zuvor noch unter "Image" -> "Mode" -> "Grayscale" aus und dann "Colors" -> "Components" -> Compose ..." -> OK.

Das Ergebnis ist das dreifach überlagerte, mit 1-Bit pro Farbkanal geditherte Schwarz/Weißbild, was interessanterweise dann wie erwähnt zu 8 gezählten "Einzelfarben" führt, inkl. Cyan, Magenta, Gelb, Weiß und Schwarz. Also RGB+CMYK, wenn man so will.

Da das Ganze in einer aufgebläht-redundanten 24-Bit-Bitmap landet, kann man optional ohne Dithereinsatz die Palette dann nochmal über "Image" -> "Mode" -> "Indexed..." -> "Generate Optimum palette" auf 8 reduzieren. Weniger als 4 Bit scheint BMP bei Farbbildern nicht zu unterstützen, ein wenig Aufblähung bleibt also, aber das hat natürlich abgesehen vom Speicherbedarf keine Auswirkungen.

An dieser Stelle will ich noch auf eine Arbeit mit dem Titel Optimal Dither and Noise Shaping in Image Processing verweisen, in der unter dem Punkt 2.1 auf Seite 33 (laut Originaltext) ebenfalls die Brücke von Bild zu Ton geschlagen wird.

Punkt 2.5 auf Seite 39 geht dabei auf das behelfsweise Dithern einzelner Farbkanäle ein. Eine gewisse Freude war es mir durchaus, dies erst nach meiner Idee mit GIMP gelesen und so einige Bestätigung bekommen zu haben.

Auch wenn mir zum vollständigen Verständnis leider der mathematische Hintergrund fehlt, soweit ich das beurteilen kann, eine der besten Abhandlungen, die ich bislang zu dem Thema finden konnte.

Sehr interessant wäre nun ein Rasterverfahren, welches direkt für Farbbilder optimiert ist. Die direkte Reduktion auf eine bestimmte Farbpalette mit Dithering brachte bei mir leider keine brauchbaren Ergebnisse.

Natürlich ist das Dithering mit nur einem Bit pro Kanal ein Extremfall, aber es zeigt sehr eindrucksvoll die Möglichkeiten auf.

Neben dem Floyd-Steinberg-Dither habe ich auch mit anderen Varianten wie Bayer und Halftone experimentiert, doch die gehen alle mit Aliasing in kritischen Bildern einher, was den Auflösungverlust zumindest bei diesen Verfahren indirekt beweist (die Bilddetails liegen dann oberhalb der durch das Rastern neu festgelegten Nyquistfrequenz und führen so zu Moiré).

NormalZeit · 20. Juli 2017, 16:37

little-endian schrieb:

doch das Formular meint, dass hier maximal 1 MB erlaubt sind und die Bilder liegen auch als PNG darüber.

In der Galerie kannst Du hier Bilder bis 3 MB und max 3000x3000 Pixel hochladen. Die lassen sich dann im Beitrag direkt verlinken.

little-endian · 21. Juli 2017, 02:07

Vielen Dank für den Hinweis, doch das reicht leider beides nicht. Vielleicht erstelle ich noch Versionen mit geringerer Auflösung.

little-endian · 29. Juli 2017, 18:51

FoLLgoTT schrieb:

Und das bei Heise? Peinlich.

Dieser Artikel ist wieder ein Beispiel dafür, dass fast nur noch Aussagen Dritter zitiert und vielleicht noch ein paar Fakten zusammengetragen, jedoch keine eigenen Schlüsse mehr gezogen werden. So wird an keiner Stelle erwähnt, was nun der konkrete Nachteil der Übertragung mit "nur 8 Bit" sein soll, zumal man den Entwickler mit "AMD setzt ein spezielles Dithering-Verfahren im Bezug auf die Gamma-Kurve ein (Perceptual Curve), um die Farbverläufe dennoch möglichst abstufungsfrei darzustellen." zu zitieren weiß.

FoLLgoTT schrieb:

Ich denke nicht, dass man direkt von Auflösungsverlust sprechen kann. Eher maskiert ein zu starkes Rauschen Details. Das ist ja bei Audio auch so. Ist das Rauschen zu hoch, gehen leise Passagen unter. Im Grunde sollte es das ganz gut treffen. Wobei das Rauschen dafür schon sehr hoch sein muss. 8 Bit mit Dithering sieht man in der Regel auch auf einer großen Leinwand überhaupt nicht.

Um den Vergleich zu Audio (hohe Samplerate vs. hohe Bittiefe bei gleicher Datenmenge) mal halbwegs nachzustellen, habe ich ein Originalbild mit 1 Bit / Farbkanal bei gleicher nomineller Auflösung gedithert und zusätzlich das Original bei gleicher Bittiefe auf 12,5% der Auflösung skaliert, so dass annähernd die gleiche Datenmenge herauskommt. Da BSpline von den gängingen Varianten zwar das geringste Aliasing zeigt, jedoch auch ein gutes Stück unschärfer aussieht als Lanczos, habe ich hier letzterem den Vorzug gegeben, um der geditherten Version nicht extra einen Vorteil zu verschaffen. Ideal ist der Vergleich freilich nicht, da weder das Dithering noch die Skalierungen optimal sein dürften, aber es zeigt annähernd den Unterschied zwischen höherem Rauschen und geringerer Auflösung.

Original
beisammen.de/index.php?attachm…746d17d8d8bb4eab07ccec4aa

3 Bit Dither
beisammen.de/index.php?attachm…746d17d8d8bb4eab07ccec4aa

Lanczos Downscale
beisammen.de/index.php?attachm…746d17d8d8bb4eab07ccec4aa

Zusätzlich noch auf dem Tablet mit dem AA Viewer gezoomte Varianten (die stark gerasterte Version lässt sich natürlich wie von FoLLgoTT angedeutet nur sehr schwerlich durch die JPEG-Mühle drehen, aber ob der knausrigen und unzeitgemäßen Beschränkung hier geht es wohl nicht anders):

3 Bit Dither Zoom
beisammen.de/index.php?attachm…746d17d8d8bb4eab07ccec4aa

Lanczos Zoom
beisammen.de/index.php?attachm…746d17d8d8bb4eab07ccec4aa

FoLLgoTT schrieb:

MadVR benutzt ja auch hochwertiges Dithering und ich konnte es selbst in Standbilder noch nicht erkennen.

Der Hinweis auf madVR war Gold wert, denn mangels HTPC-Einsatz in den letzten Jahren hatte ich diesen Renderer schon wieder ganz vergessen. Zu Unrecht, zeigt dessen Dither-Funktion die Auswirkungen noch viel besser auf, als es meine bescheidenen Versuche mit GIMP, die wohl am ehesten den "error diffusion" - Varianten entsprechen, je könnten. Am Natürlichsten erscheint mir das "random dithering" zu sein, da es den Bildeindruck bis hin zum Extremfall "1 Bit" erhält und aussieht wie analoges Rauschen aus vergangenen Tagen bei suboptimalem Antennenempfang. Dies wird auch dadurch deutlich, dass etwa schwarze Balken nicht mehr schwarz, sondern durch das Rauschen aufgehellt erscheinen - die Gesamthelligkeit des Videos wird durch den erhöhten Rauschpegel also angehoben - wieder ganz so wie beim Ton.

Hierzu habe ich weitere Überlegungen angestellt:

Sofern man Dithering als eine Maßnahme ansieht, durch die man zwar ein wenig Signal-/Rauschabstand einbüßt, dafür jedoch den Quantisierungsfehler vollständig vom Eingangssignal entkoppelt, müsste man Dithering eigentlich bei jeder gegebenen Bittiefe begrüßen. Insofern dürfte es dann nicht mehr um die Frage "10 Bit oder doch lieber 8 Bit plus Dither?" gehen sondern vielmehr um "10 Bit plus Dither oder reichen auch 8 Bit plus Dither?". Wenn man bei madVR die Bittiefe bitweise von 1 bis 8 anhebt und das Ergebnis vergleicht, wird man schnell einsehen, dass es eine vergleichsweise hohe Bittiefe braucht, bis quasi keine Bandingeffekte mehr sichtbar sind. Das mag je nach Material und dessen Eigenrauschen bereits bei 6 Bit der Fall sein, in anderen Fällen mag man selbst bei 10 Bit vielleicht noch Banding erkennen. Das ohne Dithering ungelöste Problem jedoch bleibt: der Quantisierungsfehler ist an das Eingangssignal gekoppelt und führt immer zu Banding, nur das dies dann mit steigender Bittiefe immer geringer wird. Technisch sauber ist das jedoch nicht, womit sich mir wieder die Frage stellt, weshalb Dithering beim Bild dennoch derart verpönt ist.

FoLLgoTT schrieb:

8 Bit + Dithering sah damals bei meiner Grafikkarte tatsächlich besser aus als 10-Bit-Ausgabe.

Sehr interessant. Meinem Verständnis nach müsste ausgehend von einem Quellmaterial mit 10 Bit (gedithert oder nicht) bei einer derart guten Implementierung wie madVR sie offenbar hat, der einzige qualitative Vorteil einer Ausgabe mit 10 Bit gegenüber der 8 Bit plus Dither - Variante eine Erhöhung des Signal-/Rauschverhältnis von gut 12 dB pro Farbkanal sein. Es ist nun die Gretchenfrage, ob man ein Bild oder Video mit 8 Bit und Dither als "HDR" bezeichnen darf oder nicht. Der Dynamikumfang sinkt bei geringerer Farbtiefe und erhöhtem Rauschen per Definition, auch wenn man durch Noise Shaping bestimmte Bereiche "freiräumen" und damit deutlich leisere/dunklere Werte darstellen kann, als es dem Gesamtrauschpegel entspricht. Interessanterweise erwähnt das Hydrogen-Wiki hierbei Floyd-Steinberg im visuellen Zusammenhang.

Während also beim Ton bei gutem Noise Shaping auch mit 16 Bit bis zu 120 dB Dynamik drin sind, die als völlig ausreichend angesehen werden, bleibt offen, wieviel Dynamik für extreme Bildeindrücke erforderlich sind. Immerhin setzt im Auge bei zu großen Unterschieden die Adaptation ein, was wieder einer Dynamikkompression gleichkommt, und das Eigenrauschen der Netzhaut, welches manch sensible Zeitgenossen durchaus wahrzunehmen scheinen (Stichworte: "Eigengrau" und "Visual Snow"), sorgt ebenfalls für eine Begrenzung des Dynamikumfangs.

FoLLgoTT schrieb:

Ja. DLPs, Plasmas und seit einigen Jahren auch D-ILAs nutzen die zeitliche Pulsweitenmodulation, um mit 1 Bit alle Werte darzustellen. DSD arbeitet nach einem ähnlichen Verfahren. Das klappt mit einer hohen Schaltfrequenz erstaunlich gut.

An dieser Stelle bin ich mir selbst noch unsicher, inwieweit das "lokale" Dithering und das temporale zusammenpassen und wie sich diese beiden Arten insbesondere in die Audio-Domäne übertragen lassen. Bei madVR und natürlich auch bei der Bildbearbeitung steht das temporale Dithering in der Praxis leider nicht zur Verfügung, da es kaum gelingen wird, derart hohe Bildwiederholraten zu übertragen, um über Einzelbilder die hohe Schaltfrequenz eines Plasma-Fernsehers zu erreichen. Würde der Fernseher das 1 Bit Dithering auf "lokaler" Ebene als Teil eines Bildes darstellen, wäre die Darstellung extrem viel verrauschter, offenbar kommt das temporale Dithering also einem Noise Shaping gleich, so dass ein großer Teil des "Rauschens" in Form der Helligkeitsfluktuation außerhalb des Sichtbaren liegen.

Interessant ist in diesem Zusammenhang, dass bei Videos trotz gleichem Rauschanteil der subjektive Schärfeeindruck bei Bewegung im Vergleich zu einem Standbild ansteigt, sobald sich das Dithering für jedes Bild ändert. Es finde quasi eine Summierung von Details statt, ähnlich zu der Beobachtung, vor einem Lattenzaun oder Mosquitonetz stehend nur wenig erkennen zu können, bei Bewegung jedoch deutlich mehr, obwohl jedes Einzelbild für sich keinen höheren Detailgrad aufweist.

FoLLgoTT schrieb:

Ansonsten stimme ich dir vollkommen zu. Es werden auch in Zeitschriften sehr viele Falschaussagen zur Bittiefe getroffen und Dithering komplett ignoriert.

Dies offenbar sogar von Leuten wie George Lucas hier, die es ob Heimkinoambitionen, die vermutlich Welten über den Meinen liegen, doch noch ungleich viel besser wissen müssten. Auch hier heißt es wieder:

"Allerdings ist die Durchzeichnung in dunklen und hellen Bereichen deutlich besser beim HDR-Film, weil hier 1024 Grauabstufungen zur Verfügung stehen - während der SDR-Film nur 220 Grauabstufungen besitzt."

Zunächst will ich dazu anmerken, dass die absichtliche Nichtausnutzung der vollen 8-Bit bei SDR und "TV-Pegel" wohl den Hintergrund hat, Übersteuerungen zu vermeiden, wie sie bei der Rekonstruktion auch bei Audio auftreten (Stichwort: Intersample Peaks). Da einige Operationen den Pegel erhöhen, müsste man das bei Nutzung des vollen Wertebereichs den Pegel womöglich erst absenken, um Clipping garantiert zu vermeiden. Ich möchte ja nicht wissen, wie viele Bildbetrachter allein diese Tatsache beim Skalieren beachten - vermutlich gar keiner.

Optimales Dithering mit einbezogen, dürfte es in hellen Bereichen eigentlich kaum Unterschiede geben, da hier das Nutzsignal ohnehin einen großen Abstand zum Rauschen hat - umgekehrt wird es zu Verlusten in dunklen Bereichen kommen, da das Rauschen hier den Detailgrad nach unten hin begrenzt.

Das wirft gleich mehrere Fragen auf:

- wieviel groß muss der Dynamikumfang und damit die Bittiefe denn nun sein, um im Heimbereich alles abdecken zu können?
- wie sehr erhöhen die 2 Bit und 12dB pro Farbkanal mehr SNR hier sichtbar das Rauschen?
- Dithering über den gesamten Bereich wie etwa das von madVR angebotene "random dithering" führt nach meiner Beobachtung dazu, dass - sofern die maximal mögliche Helligkeit erreicht werden soll - im Mittel niemals komplettes Schwarz erreicht wird, da das Rauschen - egal bei welcher Bittiefe - prinzipiell immer vorhanden sein wird, so wie man auch auf der besten CD-Aufnahme und den leisesten Stellen zu keinem Zeitpunkt weniger als -98dB am Analogausgang messen können wird.

FoLLgoTT schrieb:

Wobei man zwischen dem Medium und der Datenverarbeitung während der Wiedergabe unterscheiden sollte. Das Rauschen ist nämlich für MPEG und Konsorten ganz und gar nicht gut, da es ja für den Enkoder nicht von Informationen unterscheidbar ist. Deswegen spricht vieles für eine hohe Bittiefe bei der Kodierung, aber für die weitere Verarbeitung kann sie auch über Dithering erhalten bleiben.

Da bin ich völlig bei dir - ein PCM-Ton, der gedithert mit 96 kHz und 8 Bit quasi genauso gut klingt wie 48 kHz und 16 Bit, dürfte sich ebenfalls schlechter für eine Datenreduktion eignen, da man den ganzen Rauschteppich im Ultraschallbereich mitschleppt. Insofern habe ich freilich nichts gegen hohe Bittiefen und möchte lediglich eruieren, welche Auswirkungen ihre Reduktion hat, wenn man es möglichst korrekt darstellt.

Auch du siehst ja laut deinem Beitrag im Hifi-Forum neben der höheren Auflösung bei UHDs insbesondere Vorteile durch das Chroma-Subsampling sowie den DCI-Farbraum.

Das Chroma-Subsampling kann ich nachvollziehen, statt 4:2:0 bei BD-Video gibt es nun 4:2:2. An der Stelle sei erwähnt, dass du in diesem Beitrag von der vierfachen Auflösung der Farbdifferenzkanäle ausgehst. Sollte der Sprung von 4:2:0 zu 4:2:2 jedoch nicht nur in einer Verdopplung der vertikalen Auflösung liegen?

Beim Thema Farbraum wird allgemein BT.2020 ja auch wieder gerne an die Bittiefen 10 und 12 gekoppelt. Im Grunde kann auch das schon deswegen nicht richtig sein, da jeder Farbraum ja auch rein analog ohne jede Quantisierung existieren kann - bei VHS und der LaserDisc wurden ja auch Farbräume genutzt und von einer optional nachgeschalteten Quantisierung wissen die ja nichts.

Da du mit madVR und den 8 Bit plus Dithering ja recht zufrieden zu sein scheinst, frage ich mich wiederum, ob man die Qualität einer UHD nicht auch theoretisch mit nur 8 Bit im Endformat erzielen könnte - von etwaigen Kodierineffizienzen durch Dithering und das Chroma-Subsampling mal außen vor gelassen. Mir geht es eher um den Farbraum sowie die oft kolportierten unterschiedlichen Helligkeiten. Im Grunde ist doch auch die in der Praxis oft unterschiedliche Darstellung von SDR und HDR nichts suboptimale Implementierung in der Praxis. Was spräche somit konkret gegen BT.2020 und 8 Bit Farbtiefe (abgesehen vom 12 oder 24 dB höheren Grundrauschen im Vergleich zu 10 beziehungsweise 12 Bit)?

Bittiefe und Dithering

Bittiefe und Dithering

little-endian schrieb:

little-endian schrieb:

little-endian schrieb:

Ergänzung

little-endian schrieb:

FoLLgoTT schrieb:

FoLLgoTT schrieb:

FoLLgoTT schrieb:

FoLLgoTT schrieb:

FoLLgoTT schrieb:

FoLLgoTT schrieb:

FoLLgoTT schrieb:

Teilen

Tags