Lohnen 96kHz und 24bit mit dem DT297 & H6? Ein Experiment

Sebastian · 27. April 2016 um 19:12

Mit dem ZOOM-H6 kann man bis zu 24bit bei einer Samplerate von 96kHz aufzeichnen. Was bedeutet das eigentlich?

Die Bittiefe von 24bit bezeichnet die Aufnahmegenauigkeit zu einem Zeitpunkt. Bei einer Aufzeichnung mit 24bit wird eine reproduzierende Lautsprecherstellung in 16’777’216 Positionen unterschieden. Bei 16bit wären dies nur 65’536 Positionen. Alleine aus dem Gesichtspunkt, dass uns Speicher fast nichts mehr kostet, scheint es ja sinnvoll eine Aufnahme in 24bit in Erwägung ziehen.

Im Aufnahmebereich hat sich eine andere Einheit als Bit etabliert- dort werden Dezibel verwendet, und im Bezug auf Lautsprecherstellungen bzw. Spannungswerte entspricht der Faktor 2, bzw 1 Bit, gerade 6 Dezibel, bzw. 6dB. Das bedeutet, dass eine Aufzeichnung in 16bit einem theoretischen Dynamikumfang von 96dB entspricht, eine Aufzeichnung in 24bit einem theoretischen Dynamikumfang von 144dB.

Die Aufnahme in 96kHz bezeichnet, wie häufig die reproduzierende Lautsprecherstellung abgetastet wird. Bei tiefen Frequenzen bewegt sich die Lautsprechermembran fast andauernd scheinbar kontinuierlich in eine Richtung- da wäre die häufige Abtastung fehl am Platz. Geht es aber um hohe Frequenzen, so sind hohe Abtastraten sehr wichtig. Die höchste Frequenz, die bei einer festen Samplerate von f aufgezeichnet werden kann, ist die Frequenz f/2.

Eine Aufzeichnung mit einer Abtastrate von 44kHz kann also maximal Töne bis zu einer Frequenz von 22kHz abbilden, eine Aufzeichnung mit einer Abtastrate von 96kHz maximal bis zu einer Frequenz von 48kHz.

Was ist davon für unsere Aufzeichnungen relevant?

Zunächst zum Dynamikumfang: Nimmt man ein schlechtes Mikro, das richtig viel rauscht, so macht es nicht Sinn genauer als das Rauschen aufzunehmen. Dazu vergleicht man den “Pegel” des Rauschens mit dem “Pegel” des Signals und bestimmt das Verhältnis- das ist dann der Signal-zu-Rausch-Abstand, oder “Signal-to-noise-ratio” (SNR). Die englische Bezeichnung ist hier besser, da der deutsche “Abstand” meisstens ohnehin das Verhältnis meint.

Doch geht es nicht nur um das Rauschen der Hardware- Menschen atmen, Computer rauschen, es gibt immer wieder zusätzliche Störquellen, die von der Aufnahmesituation, von der Person, dem Mikro und der Technik abhängen können.

Um das zu illustrieren habe ich hier eine Aufnahme mit dem DT-297 und dem Zoom-H6 mit 24bit in 96kHz in einem relativ stillen Raum erstellt:

Mit der Option --noise kann man in OSPAC genau die Stille herausfiltern und damit den effektiven Signal-zu-Rausch Abstand bestimmen (Bild ist hoch-skaliert):
ospac --raw --noise dynamic-test.wav --output dynamic-noise.wav

Hier das Ergebnis: Das Rauschen in L1-norm (Durchschnitt) und das Maximum des Gesamten:

   5.42	Skip.cpp:336                  	Linf of all: 18077.00
   5.42	Skip.cpp:337                  	L1 of noise: 10.38
   5.42	Skip.cpp:342                  	S/N Ratio  : 1741.38, 10.77 bits, 64.60dB

Das Maximum lag also bei etwa -6dB und das Rauschen bei etwa -71dB. Bei der Aufzeichnung mit 24Bit konnte das Gerät bis -144dB aufzeichnen. Davon waren jetzt der Bereich von -144dB bis -71dB reinstes Rauschen- selbst bei dieser recht guten Aufnahmesituation. Eine Aufzeichnung bis -96dB, also in 16Bit, hätte hier vollkommen gereicht.

Bei der Aufnahme mit 96kHz erhofft man sich eine besonders gute Auflösung in den hohen Frequenzen. Um das zu analysieren, habe ich die Aufnahme auf 44.1kHz umgerechnet und von der 96kHz Aufnahme abgezogen. Das Ergebnis ist hier- verstärkt um etwa 50dB bis zum Vollausschlag (!):

Also ich weiß, dass die Kopfhörer da warm werden sollten, aber selbst das habe ich nicht bemerkt. Falls da jemand etwas hört- und das auch noch richtig laut- dann macht die Aufnahme mit 96kHz vielleicht wirklich Sinn. Sonst- objektiv betrachtet- eher nicht. Das entspricht auch der Erfahrung mit dem menschlichen Gehör.

Fazit:

Solange ihr also kein besseres Equipment als den DT-297 und den H6 habt, und auch nicht die Sprache durch langsamer Abspielen tiefer klingen lassen wollt, so reichen 44.1/48kHz bei 16Bit vollkommen.

Und wenn ihr eine Aufnahmesituation mal objektiv bewerten wollt- so könnt ihr das mit Ospac tun. Natürlich auch in den GUIs auf Windows oder OS/X.

Sebastian · 27. April 2016 um 19:28

Der Firefox verschluckt sich bei mir beim Orginalfile (96kHz, 24Bit) vom H6- im Safari gehts. Falls jemand das gleiche Problem hat, hier das Orginal nochmal von Ospac gespeichert:

lukasbestle · 27. April 2016 um 20:09

Sehr schöne Erläuterungen und Analysen, danke dafür!

Christian_Vogel · 28. April 2016 um 09:36

Ich verweise auf die Standardquelle von Christopher „Monty“ Montgomery. Mit 48kHz hat man eine perfekte Darstellung aller Frequenzen bis kurz vor 24kHz, mit modernem Equipment kommt man diesem theoretischen Limit auch sehr nahe.

…und solange ihr auf menschliche Ohren beschränkt seid…

…und menschliche Stimmbänder.

Hier ist in blau die Leistungsdichte in dem von Dir geposteten 96kHz-File aufgetragen, in grün Deine „Highpass“ Datei die nur Komponenten enthält welche in der 48kHz Aufnahme fehlen würden. Man sieht: Ab 20kHz sind die Dateien identisch (ich habe die Kurven so verschoben dass sie im höchsten Datenpunkt überlappen). Code

Im hörbaren Bereich „fehlt“ der 48kHz Aufnahme… -120dB vom Original, also: nichts.

rstockm · 28. April 2016 um 23:57

Wenn ich die “96kHz / 24bit” Fraktion richtig verstehe würden die allerwenigsten von denen behaupten, dass man bei einer Aufnahme einen Unterschied hören kann. Ihr Argument ist vielmehr, dass für Manipulationen jeglicher Art (EQ/Filter, Dynamikanpassungen wie Kompression etc.) einfach mehr Headroom vorhanden ist, und ähnlich wie bei der RAW-Entwicklung von Bildern dann weniger Artefakte durch Rundungsfehler etc. entstehen.

Ich glaube immer noch nicht, dass man da real Unterschiede hören wird - bzw. würde mich über Klangbeispiele die das Gegenteil beweisen extrems freuen - aber der Vollständigkeit halbe sollte man das hier wohl erwähnen.

Ansonsten: Premium-Nerd-Aufbereitung, ich beantrage die Sendegate-Verdienstmedaille in Gold!

Sebastian · 29. April 2016 um 19:16

Danke für euer Feedback, die Frequenzanalyse und den Hinweis auf den ausgezeichneten Text von Montgomery.

Natürlich gibt es tatsächlich auch wenige Menschen, die durch Anomalien „erweiterte“ Sinne haben- glücklich sind diese aber ganz sicher nicht: Tetrachromaten können beispielsweise das Farbempfinden „normaler“ Leute nicht verstehen.

Tatsächlich habe ich mit meiner Sprache auch höhere Frequenzen erzeugt: Das sieht man aus dem Wellenbild. Ich vermuste aber, dass dies schlicht „Zischlaute“ aus meinem Mund sind und nicht von den Stimmbändern kommen. Für die Aufnahmen sind die aber nutzlos und, wie Montgomery ja auch richtig schreibt, letztlich schädlich, da diese unnötigen Frequenzen schneller Verzerrungen bewirken können.

Ich glaube auch nicht daran- und die Gründe kennen wir ja. Ich halte es aber für sinnvoll, auch mal explizite Beispiele zu geben, das man die abstrakten Erklärungen besser nachvollziehen kann.

In einem anderen Thread hatte ich aber mal nachgesehen, unter welchen Bedingungen man theoretisch den vollen Dynamikumfang eines Mikros abrufen kann- das erreicht man mit Sprechen leider nicht und wird unvermeidlich selbst bei 16bit einen Rauschteppich haben.

Intern arbeiten viele Audio-Programme- aus guten Gründen- mit höheren Bittiefen: Ospac verwendet intern standardmäßig 32bit und teilweise sogar 64bit. Das liegt daran, dass das kleinste sinnvolle Fließkommaformat (float) mindestens 32bit hat und damit intern clipping-frei und ohne Verluste gegenüber Fixedkomma-Formaten (wave) gerechnet werden kann.

Eine höhere Auflösung in der Aufnahme ist dafür aber nicht erforderlich- es sei denn, man spart sich das Aussteuern völlig. Aber dann sitzt der Fehler vor dem Mischpult.

vtanger · 4. Mai 2016 um 06:41

Jepp, die 96bit sind für analoge Ohren Kokolores.
Interessanter wäre ein Vergleich 16bit@44.1 vs. 24bit@44.1.

Da ich meist extrem niedrig aussteuere (niedrigste LED flackert ab und an mal) um im A/D genug Headroom zu haben (jaja, ich habe da ab und an so ein paar dynamische Kandidaten vor’m Mikro), gehe ich immer auf die 24bit, damit ich nicht in ein digitales Rauschen komme.

rstockm · 4. Mai 2016 um 06:54

Interessant. Was ist denn in -dB dann so dein normaler Pegel? Weil dadurch vermeidest du digitales Rauschen, aber die Signal/Noise Ratio müsste deutlich schlimmer werden?

vtanger · 4. Mai 2016 um 07:22

Mein gleitendes Mittel versuche ich bei normalen Sprechern so -10dB einzupegeln, bei Musik um -15dB bis -20dB (je nach Truppe), und bei meinen Spezialistinnen meist um -30dB (bei einigen Songs dann auch mal noch weiter - weil notwendig). Ich versuche die lautesten Töne unterhalb von -6dB zu halten; klingende Töne - denn wenn perkussive Knack-Peaks mal gegen das A/D-Limit knallen ist das nicht tragisch.

Sebastian · 4. Mai 2016 um 18:03

Magst du uns vielleicht ein kurzes Beispiel zur Sprachaufzeichnung wie oben hier hochladen, damit wir deine Verwendung exemplarisch nachvollziehen können?