Hallo zusammen,
ich poste das folgende nun mal hier, obwohl ich zugegebenermaßen selbst offene Fragen habe, mir es thematisch hier jedoch ganz passend erscheint.
Beim jüngsten Hype um 4K und HDR sind in Reviews und sonstigen Artikeln zum Thema immer wieder Aussagen wie diese zu lesen:
"Die für das untrainierte Auge am schwersten zu entdeckende Neuerung ist die große Farbtiefe von 10 Bit, also 1.024 Stufen pro Farbe statt der bisher gewohnten 256 Stufen. Das ist immer noch ziemlich wenig, wenn man ein Extrembeispiel nimmt und über die Breite des Fernsehers einen Farbverlauf darstellen will."
golem.de
"HDR bringt größere Kontraste und knalligere Farben." Heise
"Um diese für HDR typischen hohen Kontraste und brillante Bildqualität erreichen zu können und störende Helligkeitsschwellen bzw. Helligkeitssprünge (Artefakte) unsichtbar zu halten, reicht die bisherige 8-Bit-Technik mit 256 Helligkeitsstufen nicht mehr aus." Burosch
Ich behaupte, dass diese Aussagen in dieser Verallgemeinerung allesamt so nicht korrekt sind, da sie das Thema Dithering bewusst oder unbewusst vollständig ausklammern.
Nachdem ich diesen Einwand kürzlich im Heise-Forum eingebracht hat und die Diskussion nach einigen Gegenargumenten à la "Dithering ist Mist" und "heute wird das Signal 1:1 von der Grafikkarte an den Bildschirm übertragen, da wird nix gedithert" inhaltlich leider recht schnell im Sande verlief, möchte ich das Ganze an dieser Stelle genauer wissen, da auch für mich noch einige Fragen offen sind.
Die Aussagen, eine größere Bittiefe verringere Banding und vergrößere den Farbraum, mögen zunächst einleuchtend klingen, kennen wir doch alle abrupte Farbübergänge bei Sonnenuntergängen, absaufende Schatten im Schwarz und Übersteuerung in hellen Bereichen. Ich behaupte dagegen: die Bittiefe eines Bildes oder Videos limitiert zunächst einmal das Signal-/Rauschverhältnis und sonst nichts.
Der Grund dafür ist folgender: im Audiobereich gibt es ebenfalls pauschale Aussagen wie "24-Bit PCM bietet 16777216 Lautstärkeabstufungen, während die Audio-CD gerade mal 65536 unterstützt". Diese sind, ordentliches Dithering vor Digitalisierung des Signals vorrausgesetzt, definitiv falsch. Dank hinzugefügtem Rauschen verliert man ein paar Dezibel Signal-/Rauschverhältnis und erhält dafür im Gegenzug im Idealfall ein sich völlig "analog verhaltendes" System, je nach verwendeter Bittiefe/Wortlänge auf Niveau einer alten Kompaktkassette ohne Rauschunterdrückung bis hin zu Highend-Bandmaschinen, was wohl bereits bei überschaubaren 16-Bit schon der Fall ist. Dies ist auch der Grund dafür, warum 24-Bit-Audio zwar während der Produktion zusätzliche Reserven bietet, als Enddistributionsformat jedoch mindestens 4 Bit pro Sample verschenkt, da selbst die besten DACs keine > 144dB SNR erreichen, die nötig wären (von den Ohren, die lange vorher limitieren, ganz abgesehen). Mehr oder weniger Konsens ohne Voodoo-Ambitionen scheint daher zu sein: mehr als 48kHz/20Bit braucht man auch in jungen Jahren und bereits viel Geld nicht beim Ton.
Nun haben einzige wie etwa FoLLgoTT hier bereits aufgezeigt, dass ein Bildsignal letztlich nichts anderes ist als ein Audiosignal, nur mit je nach Auflösung ungleich höherer Bandbreite (etwa Faktor 1000). In der Praxis zeigt sich dies im Alltag auch durch etliche 1:1 Entsprechungen von Bild und Ton:
Schärfe - Bandbreite (analog)
Auflösung/Pixel - Abtastrate (digital)
Kontrast - Dynamikumfang
Bildrauschen - Rauschen
Helligkeit - Lautstärke
Moiré - Aliasing
Selbst die Falschdarstellungen von einst analogen Quellen in ihrer digitalen Form weisen Gemeinsamkeiten auf: zoomt man weit genug in ein Bild hinein, werden Pixel sichtbar und etliche Audioeditoren stellen die Wellenform eines Audiosignals als direkte Verbindung einzelner Punkte dar. Ein Ton würde in dieser Form jedoch nie einen Lautsprecher erreichen, da dank der Rekonstruktionsfilter als Teil eines jeden D/A-Wandlers dafür sorgt, dass bei der Digitalisierung "entstande" Oberwellen entfernt werden und somit allein ein stufenloses Analogsignal zurückbleibt. Auch beim Bild dürfte es idealerweise gar keine Pixel geben, da diese nur die Messwerte für die analoge Rekonstruktion sind. Mit Ausnahme von Röhrenbildschirmen (zumindest in horizontaler Richtung) ist dies beim Bild jedoch oft nicht direkt der Fall, da man die "Rekonstruktion" und Filterung hier beim Einsatz der heutzutage (leider) üblichen pixelbasierten Bildschirme im Grunde dem Betrachter und dessen optischem System überlässt. Jedes Bild mit einer bestimmten Anzahl an Pixeln sieht in einem bestimmten Abstand somit nur deshalb einheitlich und fließend aus, weil die Optik des Auges hier die entstehenden hohen Frequenzen filtert und diese die Netzhaut nicht mehr erreichen.
Diese Filterung ist übrigens auch ohne jegliche technische Fragen im Leben von Bedeutung, da die lichtempfindlichen Stäbchen und Zapfen prinzipbedingt räumlich diskret abgeordnet sind und letztlich zumindest, was die Auflösung angeht, dem Vorgang des Samplings entsprechen. Läge die optische Auflösung des Auges über der der Netzhaut, würde bei ausreichend hohem Detailgrad der betrachteten Vorlage ebenfalls Aliasing/Moiré auftreten. Dass das bei hintereinander angeordneten Gittern oder Vorgängen tatsächlich beobachtbar ist, liegt daran, dass die erste Schicht die Auflösung faktisch reduziert und die dahinterliegneden Details dann keine Rücksicht auf Nyquist/Shannon nehmen, was immer Aliasing zur Folge hat.
Selbiges gilt beim Herunterskalieren von Bildern, eine Tugend, die die meisten Bildbetrachter eher schlecht als recht beherrschen. Wer das selbst mal testen will, vergleiche unter Android den integrierten Viewer mit dem um Welten besseren "AA Viewer".
Während man bei Filmen und Photos mit Fug und Recht behaupten kann, dass es sich hierbei um analoge Quellen handelt, die idealerweise auch so dargestellt werden, lässt sich bei computergenerierten Inhalten wie Schriften oder Grafiken einwenden, dass diese durchaus hart abgegrenzte Kanten aufweisen können und durch pixelbasierte Bildschirme auch so dargestellt werden. In Analogie zu Audio würde dies jedoch einer unendlichen Bandbreite entsprechen, die in keinem System erreicht werden kann. Dieser scheinbare Widerspruch lässt sich jedoch auflösen, wenn man bedenkt, dass selbst bei diskreter Ansteuerung von pixelrepräsentierenden Elementen Lichtstreuungen auftreten und man derart "steile" Übergänge auch bei perfekter Darstellung allein durch die Filterung der Augen so nie zu sehen bekäme. Nach dieser These sollte sich also auch bei künstlich generierten Inhalten in Sachen Schärfe optisch kein Vorteil durch pixelbasierte, bei ursprünglich analogen Inhalten per Definition falsche Darstellung ergeben, so dass auch hier eine grundsätzliche zusätzliche Tiefpassfilterung legitim wäre.
Bislang gibt es für mich aus den genannten Überlegungen heraus somit keinen Anhaltspunkt dafür, dass Bild und Ton im Grunde nicht dasselbe physikalische Phänomen sind, was zwingend zur Folge hätte, dass auch alle Maßnahmen im Rahmen der Digitalisierung 1:1 übertragbar sind.
Ein theoretisch rauschfreies Bild vorausgesetzt, ist die Anzahl der Helligkeits- oder Farbabstufungen durch die Bittiefe begrenzt. Je nach Größe dieser sind dann harte Übergänge sichtbar (Banding). Fügt man jedoch Rauschen hinzu, lässt sich im Extremfall mit nur einem Bit ein beliebiger Helligkeitsverlauf vollständig darstellen, wie es auch von Rastertechniken genutzt wird. Dies freilich auf Kosten eines entsprechend geringeren Signal-Rauschverhältnisses. Hierzu habe ich auch einen meiner Meinung nach sehr guten Artikel gefunden, bei dem es um die Bittiefe von RAW-Aufnahmen geht. Auch hier wieder die Parallele, dass eine Erhöhung der Bittiefe je nach Rauschanteil des zu digitalisierenden Signals keine Verbesserung mit sich bringt, da die zusätzlichen Bits dann nur noch redundant das Rauschen konservieren.
Die Aussage "mehr Bit, kräftigere Farben" wird bereits allein durch die Tatsache entkräftet, dass der erzielbare Farbraum vielmehr von der maximalen Sättigung der Grundfarben eines Bildschirms bestimmt wird denn durch die Bittiefe seiner Ansteuerung. Eine Verarbeitung auch mit 10-Bit wird aus einem mittelprächtigen LCD mit mauem Schwarzwert und Farben kein AdobeRGB und mehr zaubern. Dass mit "nur" 8 Bit HDR-Quellen quasi genauso prächtig darstellbar sind wie mit nativen 10-Bit-Panels, zeigen denn offenbar auch einige HDR-Fernseher. So schreibt man auf rtings.com:
"we consider 8-bit with dithering to be equivalent to 10-bit, as long as the 10-bit gradient looks smooth."
Ohne mich wirklich mit den Details auszukennen, gehe ich von einem Ditheringverfahren auf zeitlicher Ebene aus, wie sie bei Plasma-Fernsehern prinzipbedingt zum Einsatz kommt. Einzelne Elemente leuchten nicht in der Helligkeit entsprechend ihrem Farbwert, sondern werden unterschiedlich oft in entweder nur zwei oder zumindest weniger Stufen als es dem Eingangssignal entspricht, gezündet. Meinem Verständnis nach sind damit unabhängig von der Bittiefe beliebige Abstufungen möglich - auch hier auf Kosten des SNR, was besonders bei Plasma-Fernsehern aus der Nähe betrachtet auch bei statischen Bildern als "Grieseln" sichtbar wird.
Der Spruch "there's no such thing as a free lunch" gilt somit natürlich auch hier, macht aber die Aussagen, die die Bittiefe direkt an die darstellbaren Farben oder Helligkeitsstufen koppeln, jedoch auch nicht richtiger.
Nun ist beim Bild die Meinung ziemlich verbreitet, dass Dither seit jeher ein "fauler Kompromiss" längst vergangener Tage sei, den kein Anwender mehr ernsthaft haben wolle. Als man noch winzige GIF-Bildchen mit läppischen 256 Farben und Banding hatte. Wieder aus Sicht der Audiowelt ist es jedoch so, dass Dithering eben kein Notnagel für unzureichende Systeme ist, sondern integraler Bestandteil, um das digitalisierte Signal vom deterministischen und damit Verzerrungen verursachenden Quantisierungsfehler zu entkoppelt. Dither maskiert hier keine Fehler sondern führt trotz minimal erhöhtem Grundrauschen kontraintuitiv zu einer Erhöhung des Auflösungsvermögens auf Werteebene, so dass in der Praxis sogar Signale unterhalb eines Bits über einen Durchschnittsverlauf erfasst werden.
Ein weiterer Einwand ist der, dass Dithering beim Bild zwar den Mangel an Farbwerten ausgleichen könne, jedoch die Auflösung reduziere. Das ist die Stelle, an der ich selbst womöglich einem entscheidenden Denkfehler unterliege, was Grund für diesen Beitrag ist, da ich mir neue Einsichten erhoffe:
Warum das? Ich finde im Audiobereich zu dieser Auflösungsreduktion keine Entsprechung. Hierzu ein Beispiel:
Ein 16-Bit-PCM-Signal und 44,1 kHz Abtastrate wird in ein 8-Bit-PCM-Signal mit ebenfalls 44,1 kHz konvertiert. Zwar erhöht sich bei 8-Bit das Quantisierungsrauschen und der SNR sinkt von vielleicht 93dB auf nur noch 45dB, doch die Audiobandbreite bleibt erhalten. Man mag nun einwenden, dass das Rauschen feine Details (hoher) Frequenzen maskiert und diese so effektiv verloren gehen, jedoch ist es faktisch so, dass über die andernfalls mögliche Konstellation gleicher Datenmenge (halbe Abtastrate, 16-Bit) deutlich höhere Frequenzen möglich sind. Dither schränkt die Audiobandbreite per se also nicht ein, sondern reduziert lediglich den Dynamikumfang/SNR.
Insofern stelle ich mir bei einem geditherten, statischen Bild die Frage, ob das echter Auflösungverlust im Sinne der Ortsfrequenz ist oder man im Alltag voreilig Rauschen mit Auflösungverlust gleichsetzt, was nicht dasselbe ist. Erfahrungen mit Photoaufnahmen im Dunklen mit deutlich erkennbarem Auflösungverlust und Rauschen sind weniger hilfreich, da hier gerne wieder Pixel zur Rauschunterdrückung zusammengefasst werden, was freilich die nominelle Auflösung verringert.
Dass es einen Zusammenhang zwischen Auflösung und Rauschen gibt und man im Prinzip beides "verhandeln" kann, zeigt anschaulich ein Experiment mit GIMP. Da dessen Ditherfunktion bei der Konvertierung von 24-Bit RGB auf nur noch wenige Farben leider viele Bereiche gleichfarbig "zukleistert" und der Bildeindruck natürlich lange nicht mehr an das Original heranreicht, habe ich mir damit beholfen, die RGB-Kanäle zunächst in einzelne Ebenen aufzuteilen und dann jeden Farbkanal separat auf den Extremfall 1-Bit und Floyd-Steinberg zu dithern und dann wieder zusammenzufügen.
Das aufgenommene JPEG-Original eignet sich ob des Kontrastumfangs und die Details durch Mauerwerk und Jalousien recht gut für diesen Zweck:
Zum Vergleich das nach beschriebener Prozedur pro Farbkanal auf 1-Bit geditherte Variante bei gleicher Auflösung. Da das Rauschen je Farbkanal ungleich verteilt ist, ergeben sich ein paar wenige Mischfarben, das resultierende Bild hat daher statt 3 Farben ganze 8 von immerhin 239412 im Original.
Edit Ravenous: Externe Bilderhoster gelöscht
Zur Veranschaulichung der Auswirkung, wenn für das Dithering weniger Bandbreite zur Verfügung steht, habe ich das Original zunächst herunterskaliert und dann gedithert. Um Aliasing halbwegs zu vermeiden, kam dabei der BSpline-Filter zum Einsatz:
Edit Ravenous: Externe Bilderhoster gelöscht
Das herunterskalierte Bild wieder hochskaliert und dann gedithert zeigt, dass sich das durch Dither entstehende Rauschen analog zu Audio quasi via “Noise Shaping” in einen höheren (Orts)Frequenzbereich verschieben lässt und die Körnung im Verhältnis zum Bild so mehr und mehr abnimmt. In den hohen Frequenzen (reingezoomt) bleibt das Rauschen gleich, doch auf das Nutzsignal (das eigentliche Bild bezogen) entfernt sich das Rauschen mehr und mehr, ganz wie beim Ton.
Edit Ravenous: Externe Bilderhoster gelöscht
Beim Betrachten der Bilder sollte das verwendete Programm möglichst aliasingfrei auf die Zielauflösung des Displays skalieren können. Unter Windows habe ich auf die Schnelle nur XNView mit BSpline finden können (Lanczos führt ebenfalls zu Aliasing). Die mir bekannte beste Variante ist wie gesagt der AA Viewer unter Android. Auf einem Samsung Tablet oder Galaxy S6/S7 mit 2560x1600 respektive 2560x1440 mit sehr guter Darstellung.
Nun würde mich eure Meinung interessieren:
- verringert Dither in statischen Bildern tatsächlich die Auflösung oder wird hier die Reduktion des SNR als Auflösungsverlust (fehl)interpretiert? Wenn ja, welche Entsprechung hätte das bei Audio und wie lässt sich der Widerspruch auflösen, das Bild als Videosignal zu interpretieren und hier Dithering anzuwenden?
- sofern ausreichend Auflösung zur Verfügung steht und das Dithering zeitlich (durch Pulsung) entsteht, sollte dann nicht jeder beliebige Farbraum selbst mit nur einem Bit pro Farbkanal abbildbar sein? Ich denke da gerade spontan an DSD und die SACD.
ich poste das folgende nun mal hier, obwohl ich zugegebenermaßen selbst offene Fragen habe, mir es thematisch hier jedoch ganz passend erscheint.
Beim jüngsten Hype um 4K und HDR sind in Reviews und sonstigen Artikeln zum Thema immer wieder Aussagen wie diese zu lesen:
"Die für das untrainierte Auge am schwersten zu entdeckende Neuerung ist die große Farbtiefe von 10 Bit, also 1.024 Stufen pro Farbe statt der bisher gewohnten 256 Stufen. Das ist immer noch ziemlich wenig, wenn man ein Extrembeispiel nimmt und über die Breite des Fernsehers einen Farbverlauf darstellen will."
golem.de
"HDR bringt größere Kontraste und knalligere Farben." Heise
"Um diese für HDR typischen hohen Kontraste und brillante Bildqualität erreichen zu können und störende Helligkeitsschwellen bzw. Helligkeitssprünge (Artefakte) unsichtbar zu halten, reicht die bisherige 8-Bit-Technik mit 256 Helligkeitsstufen nicht mehr aus." Burosch
Ich behaupte, dass diese Aussagen in dieser Verallgemeinerung allesamt so nicht korrekt sind, da sie das Thema Dithering bewusst oder unbewusst vollständig ausklammern.
Nachdem ich diesen Einwand kürzlich im Heise-Forum eingebracht hat und die Diskussion nach einigen Gegenargumenten à la "Dithering ist Mist" und "heute wird das Signal 1:1 von der Grafikkarte an den Bildschirm übertragen, da wird nix gedithert" inhaltlich leider recht schnell im Sande verlief, möchte ich das Ganze an dieser Stelle genauer wissen, da auch für mich noch einige Fragen offen sind.
Die Aussagen, eine größere Bittiefe verringere Banding und vergrößere den Farbraum, mögen zunächst einleuchtend klingen, kennen wir doch alle abrupte Farbübergänge bei Sonnenuntergängen, absaufende Schatten im Schwarz und Übersteuerung in hellen Bereichen. Ich behaupte dagegen: die Bittiefe eines Bildes oder Videos limitiert zunächst einmal das Signal-/Rauschverhältnis und sonst nichts.
Der Grund dafür ist folgender: im Audiobereich gibt es ebenfalls pauschale Aussagen wie "24-Bit PCM bietet 16777216 Lautstärkeabstufungen, während die Audio-CD gerade mal 65536 unterstützt". Diese sind, ordentliches Dithering vor Digitalisierung des Signals vorrausgesetzt, definitiv falsch. Dank hinzugefügtem Rauschen verliert man ein paar Dezibel Signal-/Rauschverhältnis und erhält dafür im Gegenzug im Idealfall ein sich völlig "analog verhaltendes" System, je nach verwendeter Bittiefe/Wortlänge auf Niveau einer alten Kompaktkassette ohne Rauschunterdrückung bis hin zu Highend-Bandmaschinen, was wohl bereits bei überschaubaren 16-Bit schon der Fall ist. Dies ist auch der Grund dafür, warum 24-Bit-Audio zwar während der Produktion zusätzliche Reserven bietet, als Enddistributionsformat jedoch mindestens 4 Bit pro Sample verschenkt, da selbst die besten DACs keine > 144dB SNR erreichen, die nötig wären (von den Ohren, die lange vorher limitieren, ganz abgesehen). Mehr oder weniger Konsens ohne Voodoo-Ambitionen scheint daher zu sein: mehr als 48kHz/20Bit braucht man auch in jungen Jahren und bereits viel Geld nicht beim Ton.
Nun haben einzige wie etwa FoLLgoTT hier bereits aufgezeigt, dass ein Bildsignal letztlich nichts anderes ist als ein Audiosignal, nur mit je nach Auflösung ungleich höherer Bandbreite (etwa Faktor 1000). In der Praxis zeigt sich dies im Alltag auch durch etliche 1:1 Entsprechungen von Bild und Ton:
Schärfe - Bandbreite (analog)
Auflösung/Pixel - Abtastrate (digital)
Kontrast - Dynamikumfang
Bildrauschen - Rauschen
Helligkeit - Lautstärke
Moiré - Aliasing
Selbst die Falschdarstellungen von einst analogen Quellen in ihrer digitalen Form weisen Gemeinsamkeiten auf: zoomt man weit genug in ein Bild hinein, werden Pixel sichtbar und etliche Audioeditoren stellen die Wellenform eines Audiosignals als direkte Verbindung einzelner Punkte dar. Ein Ton würde in dieser Form jedoch nie einen Lautsprecher erreichen, da dank der Rekonstruktionsfilter als Teil eines jeden D/A-Wandlers dafür sorgt, dass bei der Digitalisierung "entstande" Oberwellen entfernt werden und somit allein ein stufenloses Analogsignal zurückbleibt. Auch beim Bild dürfte es idealerweise gar keine Pixel geben, da diese nur die Messwerte für die analoge Rekonstruktion sind. Mit Ausnahme von Röhrenbildschirmen (zumindest in horizontaler Richtung) ist dies beim Bild jedoch oft nicht direkt der Fall, da man die "Rekonstruktion" und Filterung hier beim Einsatz der heutzutage (leider) üblichen pixelbasierten Bildschirme im Grunde dem Betrachter und dessen optischem System überlässt. Jedes Bild mit einer bestimmten Anzahl an Pixeln sieht in einem bestimmten Abstand somit nur deshalb einheitlich und fließend aus, weil die Optik des Auges hier die entstehenden hohen Frequenzen filtert und diese die Netzhaut nicht mehr erreichen.
Diese Filterung ist übrigens auch ohne jegliche technische Fragen im Leben von Bedeutung, da die lichtempfindlichen Stäbchen und Zapfen prinzipbedingt räumlich diskret abgeordnet sind und letztlich zumindest, was die Auflösung angeht, dem Vorgang des Samplings entsprechen. Läge die optische Auflösung des Auges über der der Netzhaut, würde bei ausreichend hohem Detailgrad der betrachteten Vorlage ebenfalls Aliasing/Moiré auftreten. Dass das bei hintereinander angeordneten Gittern oder Vorgängen tatsächlich beobachtbar ist, liegt daran, dass die erste Schicht die Auflösung faktisch reduziert und die dahinterliegneden Details dann keine Rücksicht auf Nyquist/Shannon nehmen, was immer Aliasing zur Folge hat.
Selbiges gilt beim Herunterskalieren von Bildern, eine Tugend, die die meisten Bildbetrachter eher schlecht als recht beherrschen. Wer das selbst mal testen will, vergleiche unter Android den integrierten Viewer mit dem um Welten besseren "AA Viewer".
Während man bei Filmen und Photos mit Fug und Recht behaupten kann, dass es sich hierbei um analoge Quellen handelt, die idealerweise auch so dargestellt werden, lässt sich bei computergenerierten Inhalten wie Schriften oder Grafiken einwenden, dass diese durchaus hart abgegrenzte Kanten aufweisen können und durch pixelbasierte Bildschirme auch so dargestellt werden. In Analogie zu Audio würde dies jedoch einer unendlichen Bandbreite entsprechen, die in keinem System erreicht werden kann. Dieser scheinbare Widerspruch lässt sich jedoch auflösen, wenn man bedenkt, dass selbst bei diskreter Ansteuerung von pixelrepräsentierenden Elementen Lichtstreuungen auftreten und man derart "steile" Übergänge auch bei perfekter Darstellung allein durch die Filterung der Augen so nie zu sehen bekäme. Nach dieser These sollte sich also auch bei künstlich generierten Inhalten in Sachen Schärfe optisch kein Vorteil durch pixelbasierte, bei ursprünglich analogen Inhalten per Definition falsche Darstellung ergeben, so dass auch hier eine grundsätzliche zusätzliche Tiefpassfilterung legitim wäre.
Bislang gibt es für mich aus den genannten Überlegungen heraus somit keinen Anhaltspunkt dafür, dass Bild und Ton im Grunde nicht dasselbe physikalische Phänomen sind, was zwingend zur Folge hätte, dass auch alle Maßnahmen im Rahmen der Digitalisierung 1:1 übertragbar sind.
Ein theoretisch rauschfreies Bild vorausgesetzt, ist die Anzahl der Helligkeits- oder Farbabstufungen durch die Bittiefe begrenzt. Je nach Größe dieser sind dann harte Übergänge sichtbar (Banding). Fügt man jedoch Rauschen hinzu, lässt sich im Extremfall mit nur einem Bit ein beliebiger Helligkeitsverlauf vollständig darstellen, wie es auch von Rastertechniken genutzt wird. Dies freilich auf Kosten eines entsprechend geringeren Signal-Rauschverhältnisses. Hierzu habe ich auch einen meiner Meinung nach sehr guten Artikel gefunden, bei dem es um die Bittiefe von RAW-Aufnahmen geht. Auch hier wieder die Parallele, dass eine Erhöhung der Bittiefe je nach Rauschanteil des zu digitalisierenden Signals keine Verbesserung mit sich bringt, da die zusätzlichen Bits dann nur noch redundant das Rauschen konservieren.
Die Aussage "mehr Bit, kräftigere Farben" wird bereits allein durch die Tatsache entkräftet, dass der erzielbare Farbraum vielmehr von der maximalen Sättigung der Grundfarben eines Bildschirms bestimmt wird denn durch die Bittiefe seiner Ansteuerung. Eine Verarbeitung auch mit 10-Bit wird aus einem mittelprächtigen LCD mit mauem Schwarzwert und Farben kein AdobeRGB und mehr zaubern. Dass mit "nur" 8 Bit HDR-Quellen quasi genauso prächtig darstellbar sind wie mit nativen 10-Bit-Panels, zeigen denn offenbar auch einige HDR-Fernseher. So schreibt man auf rtings.com:
"we consider 8-bit with dithering to be equivalent to 10-bit, as long as the 10-bit gradient looks smooth."
Ohne mich wirklich mit den Details auszukennen, gehe ich von einem Ditheringverfahren auf zeitlicher Ebene aus, wie sie bei Plasma-Fernsehern prinzipbedingt zum Einsatz kommt. Einzelne Elemente leuchten nicht in der Helligkeit entsprechend ihrem Farbwert, sondern werden unterschiedlich oft in entweder nur zwei oder zumindest weniger Stufen als es dem Eingangssignal entspricht, gezündet. Meinem Verständnis nach sind damit unabhängig von der Bittiefe beliebige Abstufungen möglich - auch hier auf Kosten des SNR, was besonders bei Plasma-Fernsehern aus der Nähe betrachtet auch bei statischen Bildern als "Grieseln" sichtbar wird.
Der Spruch "there's no such thing as a free lunch" gilt somit natürlich auch hier, macht aber die Aussagen, die die Bittiefe direkt an die darstellbaren Farben oder Helligkeitsstufen koppeln, jedoch auch nicht richtiger.
Nun ist beim Bild die Meinung ziemlich verbreitet, dass Dither seit jeher ein "fauler Kompromiss" längst vergangener Tage sei, den kein Anwender mehr ernsthaft haben wolle. Als man noch winzige GIF-Bildchen mit läppischen 256 Farben und Banding hatte. Wieder aus Sicht der Audiowelt ist es jedoch so, dass Dithering eben kein Notnagel für unzureichende Systeme ist, sondern integraler Bestandteil, um das digitalisierte Signal vom deterministischen und damit Verzerrungen verursachenden Quantisierungsfehler zu entkoppelt. Dither maskiert hier keine Fehler sondern führt trotz minimal erhöhtem Grundrauschen kontraintuitiv zu einer Erhöhung des Auflösungsvermögens auf Werteebene, so dass in der Praxis sogar Signale unterhalb eines Bits über einen Durchschnittsverlauf erfasst werden.
Ein weiterer Einwand ist der, dass Dithering beim Bild zwar den Mangel an Farbwerten ausgleichen könne, jedoch die Auflösung reduziere. Das ist die Stelle, an der ich selbst womöglich einem entscheidenden Denkfehler unterliege, was Grund für diesen Beitrag ist, da ich mir neue Einsichten erhoffe:
Warum das? Ich finde im Audiobereich zu dieser Auflösungsreduktion keine Entsprechung. Hierzu ein Beispiel:
Ein 16-Bit-PCM-Signal und 44,1 kHz Abtastrate wird in ein 8-Bit-PCM-Signal mit ebenfalls 44,1 kHz konvertiert. Zwar erhöht sich bei 8-Bit das Quantisierungsrauschen und der SNR sinkt von vielleicht 93dB auf nur noch 45dB, doch die Audiobandbreite bleibt erhalten. Man mag nun einwenden, dass das Rauschen feine Details (hoher) Frequenzen maskiert und diese so effektiv verloren gehen, jedoch ist es faktisch so, dass über die andernfalls mögliche Konstellation gleicher Datenmenge (halbe Abtastrate, 16-Bit) deutlich höhere Frequenzen möglich sind. Dither schränkt die Audiobandbreite per se also nicht ein, sondern reduziert lediglich den Dynamikumfang/SNR.
Insofern stelle ich mir bei einem geditherten, statischen Bild die Frage, ob das echter Auflösungverlust im Sinne der Ortsfrequenz ist oder man im Alltag voreilig Rauschen mit Auflösungverlust gleichsetzt, was nicht dasselbe ist. Erfahrungen mit Photoaufnahmen im Dunklen mit deutlich erkennbarem Auflösungverlust und Rauschen sind weniger hilfreich, da hier gerne wieder Pixel zur Rauschunterdrückung zusammengefasst werden, was freilich die nominelle Auflösung verringert.
Dass es einen Zusammenhang zwischen Auflösung und Rauschen gibt und man im Prinzip beides "verhandeln" kann, zeigt anschaulich ein Experiment mit GIMP. Da dessen Ditherfunktion bei der Konvertierung von 24-Bit RGB auf nur noch wenige Farben leider viele Bereiche gleichfarbig "zukleistert" und der Bildeindruck natürlich lange nicht mehr an das Original heranreicht, habe ich mir damit beholfen, die RGB-Kanäle zunächst in einzelne Ebenen aufzuteilen und dann jeden Farbkanal separat auf den Extremfall 1-Bit und Floyd-Steinberg zu dithern und dann wieder zusammenzufügen.
Das aufgenommene JPEG-Original eignet sich ob des Kontrastumfangs und die Details durch Mauerwerk und Jalousien recht gut für diesen Zweck:
Zum Vergleich das nach beschriebener Prozedur pro Farbkanal auf 1-Bit geditherte Variante bei gleicher Auflösung. Da das Rauschen je Farbkanal ungleich verteilt ist, ergeben sich ein paar wenige Mischfarben, das resultierende Bild hat daher statt 3 Farben ganze 8 von immerhin 239412 im Original.
Edit Ravenous: Externe Bilderhoster gelöscht
Zur Veranschaulichung der Auswirkung, wenn für das Dithering weniger Bandbreite zur Verfügung steht, habe ich das Original zunächst herunterskaliert und dann gedithert. Um Aliasing halbwegs zu vermeiden, kam dabei der BSpline-Filter zum Einsatz:
Edit Ravenous: Externe Bilderhoster gelöscht
Das herunterskalierte Bild wieder hochskaliert und dann gedithert zeigt, dass sich das durch Dither entstehende Rauschen analog zu Audio quasi via “Noise Shaping” in einen höheren (Orts)Frequenzbereich verschieben lässt und die Körnung im Verhältnis zum Bild so mehr und mehr abnimmt. In den hohen Frequenzen (reingezoomt) bleibt das Rauschen gleich, doch auf das Nutzsignal (das eigentliche Bild bezogen) entfernt sich das Rauschen mehr und mehr, ganz wie beim Ton.
Edit Ravenous: Externe Bilderhoster gelöscht
Beim Betrachten der Bilder sollte das verwendete Programm möglichst aliasingfrei auf die Zielauflösung des Displays skalieren können. Unter Windows habe ich auf die Schnelle nur XNView mit BSpline finden können (Lanczos führt ebenfalls zu Aliasing). Die mir bekannte beste Variante ist wie gesagt der AA Viewer unter Android. Auf einem Samsung Tablet oder Galaxy S6/S7 mit 2560x1600 respektive 2560x1440 mit sehr guter Darstellung.
Nun würde mich eure Meinung interessieren:
- verringert Dither in statischen Bildern tatsächlich die Auflösung oder wird hier die Reduktion des SNR als Auflösungsverlust (fehl)interpretiert? Wenn ja, welche Entsprechung hätte das bei Audio und wie lässt sich der Widerspruch auflösen, das Bild als Videosignal zu interpretieren und hier Dithering anzuwenden?
- sofern ausreichend Auflösung zur Verfügung steht und das Dithering zeitlich (durch Pulsung) entsteht, sollte dann nicht jeder beliebige Farbraum selbst mit nur einem Bit pro Farbkanal abbildbar sein? Ich denke da gerade spontan an DSD und die SACD.