Von Formaten und Bitraten

MaxlWerner · 27. Dezember 2018 um 18:20

Servus! Auf meinen Ausflügen hier im Forum ist mir immer wieder aufgefallen, dass von diesem Thema immer wieder die Rede ist. Mit Auphonic bieten sich ja vor allem im Bereich der Audioformate sehr viele Möglichkeiten an, weswegen ich hierzu gerne einmal eure Meinung erfahren wollte.

In welchen Audioformaten (und dazugehörig: In welchen Bitraten) bietet ihr eure Podcasts den Hörern an?

Ich habe nun auch schon immer wieder gehört, dass es Kollegen gibt, die einen Podcast auf extra kleinem Dateiformat aber hierbei in bestmöglicher Qualität veröffentlichen, um das zum Beispiel für Handys mit wenig Speicherplatz anbieten zu können. Wie löst ihr das?

Freue mich drauf, einmal eure Einschätzungen zu diesem Thema zu lesen.

Schöne Grüße,
Maximilian

Joey · 27. Dezember 2018 um 21:22

@auphonic hat selber mal was Gutes dazu geschrieben. Ich orientiere mich gerne daran.

Ich biete einzig .m4a Dateien an, weil damit das Verhältnis von Dateigrösse zu Qualität bzw. Qualitätsverlust besser ist als bei .mp3. Kompatibilitätsprobleme habe ich noch nie erlebt. Einzig die Spezifikation der Implementation von Kapitelmarken war scheinbar mal problematisch.

Auphonic empfiehlt für .m4a 64/80kbps for stereo, 40/48kbps for mono audio. Ich frage mich nur, wo die jeweils zwei Werte herkommen. Mit und ohne viel Musik?

Mustamie · 27. Dezember 2018 um 21:51

Mittlerweile glaube ich sind zweistellige Bitraten nicht mehr notwendig, die Internetverbindungen geben doch genügend Bandbreite her und die Abspielgeräte bieten ausreichende Speicherkapazitäten. Dagegen hört man bei 64kbps auf gescheiten Kopfhörern schon unschöne Artefakte, habe mich bei manchen Podcasts geärgert dass sie nicht wenigstens eine “HiFi-Variante” anbieten.

Wir haben uns für 160 kbps (ca. 70 MB/h) entschieden in AAC als Standardformat und zusätzlich MP3. Damit klingt auch die Titelmusik noch schön und Artefakte in den Stimmen habe ich bisher keine vernommen, auch mit dem besten Equipment nicht. Ist für mich der beste Kompromiss zwischen Qualität und Dateigröße, mehr Bitrate bietet zumindest für unser Setting dann auch keine Steigerung mehr die man wahrnehmen könnte.

MacSnider · 27. Dezember 2018 um 23:15

Ich biete m4a bei 80kbps (bei sehr langen Folgen gerne mal 60kbps) und mp3 bei 96kbps an. Rückfragen nach anderen Formaten hatte ich bisher nicht, dafür aber dass das File zu groß wäre.

Bei m4a weiß ich aus Erfahrung und Empfehlungen/Ratschlägen aus anderen Podcasts dass es auch bei niedriger Bitrate noch gut klingt. Bei mp3 wurde mir gesagt dass vorallem Musik bei 96kbps noch gut klingt und alles darunter zu Artefakten führen kann.

Und natürlich mit Kapitelmarken! (Wenn es denn welche gibt)

Sebastian · 1. Januar 2019 um 10:20

Wir haben Stereo-mp3 mit VBR und Qualitätssetting -V8.4 bei deaktiviertem Tiefpass-Filter. Damit bekommen Folgen mit komplexeren Daten (zB mehr Rauschen oder Hall) deutlich höhere Bitraten als sehr trockene Aufnahmen mit vielen Pausen, die praktisch keine Bits mehr verbrauchen. Nach 148.75h Podcastzeit sind wir damit im Modellansatz bei durchschnittlich 66kbit/s bei häufig 99.9% single channel im MS-encoding, dadurch ist effektiv nur ein Kanal codiert obwohl wir in Stereo sind.

rstockm · 1. Januar 2019 um 12:19

Wie kompatibel ist VBR mit Podcatchern und antiquierten Abspielern, etwa Autoradios?

Sebastian · 1. Januar 2019 um 14:17

Das war nur die technisch exakte Angabe: Wir benutzen “lame” für das Encoding, hier weitere Informationen dazu: http://lame.sourceforge.net/vbr.php

Sebastian · 1. Januar 2019 um 14:21

Auch wenn es “Variable Bit Rate” bedeutet, heisst das nicht, dass es sich nicht an den Standard halten würde: In MP3 werden Fragmente in Frames kodiert, jeweils mit einem Header u.a. mit der Bitrate. Soweit man natürlich nur die Standard-Bitraten verwendet, die CBR-Methoden auch benutzen, gibt es selbst mit billigen Playern keine Probleme, wenn sie auch die Standard-Konstante-Bitraten abspielen. Meiner Erfahrung nach sind eher Samplerates abseits der 44.1kHz ein Problem. Aber um weiteren FUD zu vermeiden: Ein Nachteil ist eine geringere Genauigkeit beim Seeking bei vielen Playern.

rstockm · 1. Januar 2019 um 14:50

Ja, genau. Und wie sieht es aus mit Kapitelmarken - werden die zielsicher angesprungen?

Sebastian · 1. Januar 2019 um 16:09

YMMV, für mich zählen halt sinnvolle Shownotes und bessere Qualität oder kleinere Dateien bei hoher Kompatibilität mehr. Aber lass uns nicht noch in weitere Nebenschauplätze abgleiten.

Tobi · 3. Januar 2019 um 07:17

Ich benutze für meine Podcasts ausschließlich MP3 mit 96 kbps.

PS: Ist zwar schon etwas älter, aber dennoch informativ: LS018 Audioformate für Podcasts

gglnx · 3. Januar 2019 um 09:59

Zu mindestens Marco Arment sagt, dass VBR-MP3s für längere Podcasts bei Apple eher kaputt sind:

AVFoundation, the low-level audio/video framework in iOS and macOS, does not accurately seek within VBR MP3s, making VBR impractical to use for long files such as podcasts. Jumping to a timestamp in an hour-long VBR podcast can result in an error of over a minute, without the listener even knowing because the displayed timecode shows the expected time.

https://marco.org/2016/08/15/vbr-mp3-plea

Ich finde Sprungfehler von über einer Minute gerade bei Gesprächsformaten ziemlich nachteilig. Aber wenn dein Podcast kurz ist, gibt es diesen Nachteil defacto kaum. Gilt es also in die Abwägung aufzunehmen.

DieterBethke · 4. Januar 2019 um 02:22

Wir nehmen sogar 96kbps für unsere Stereoversion in M4A. Nach einigen intensiven Hörtest (mit Kopfhörer) hatte ich mich gleich zu Anfang dafür entschieden. Wir geben doch nicht hunderte von Euro für gute Audiotechnik aus, nur um die damit mühsam erkämpfte Qualität dann doch komplett wegzuwerfen. Das dürfte einem MixPre-User doch ähnlich gehen.

Alternativ bieten wir einen MP3-Stream mit ebenfalls 96kbps an, aus Kompatibilitätsgründen. Einige Hörer hatten mit ihren Podcatchern auf Android mal Probleme mit dem m4a.

Darüber hinaus bieten wir dann noch zwei datenoptimierte Streams für Mobilfunknutzer an: OGG/Vorbis mit 48 kbps und OPUS mit 24 kbps. So können sich alle Hörenden raussuchen was sie gerade brauchen.

Mustamie · 4. Januar 2019 um 09:18

Darüber hinaus bieten wir dann noch zwei datenoptimierte Streams für Mobilfunknutzer an: OGG/Vorbis mit 48 kbps und OPUS mit 24 kbps. So können sich alle Hörenden raussuchen was sie gerade brauchen

Wird der auch tatsächlich nachgefragt? Ich frage nur, weil die Aufnahme ja nun akustisch schon sehr in Mitleidenschaft gezogen wird.

DieterBethke · 4. Januar 2019 um 10:22

OGG/Vorbis Abrufe machen ca. 2% aus. Natürlich ist die Soundqualität dabei nicht mehr berrauschend, aber in dem Fall geht es für die Hörenden dann ja vorrangig darum Datentransfer einzusparen. Traurig, dass das in Deutschland überhaupt nötig ist, aber es ist nun mal so.

Sebastian · 6. Januar 2019 um 09:09

Das gute Equipment (und trockene Raumakustik) ist doppelt nützlich: Erst mit diesem wird es möglich, mit wenig Qualitätsverlust stark zu komprimieren! Je weniger Rauschen und je geringer das Übersprechen, um so weniger Artefakte wird es geben, bzw. man kann bei gleicher Qualität stärker komprimieren. Bei unserer qualitätsorientierten und nicht bitraten-orientierten Kompression kommt das auch genau so heraus.

Rauschen ist echt zufällig und damit per se nicht komprimierbar. Egal, was für ein psychoakustisches Modell man hat, Rauschen macht das immer kaputt und führt zu mehr Artefakten.

Übersprechen ist einmal blöd, weil es scheinbar zufällige Signale hinzufügt, und bei der Verwendung von Stereo werden dann mehr als nur ein dominanter Kanal zur Kodierung benötigt, und wieder entweder mehr Platz verbraucht oder weniger Qualität ermöglicht.

Kritisch wird „Convenience-Noise“ in Sprechpausen betrachtet: Wenn das Equipment hörbares Grundrauschen oder Hintergrundsound hat, so ist es teils unbewusst hörbar, wenn in Sprechpausen komplett heruntergeregelt wird. Da hat man so ein Gefühl: „Ist das Signal noch da?“ Tatsächlich ist das aber ein großes Problem für die Kompression, wenn man es belässt, da es nur Rauschen ist. Die Pausen sind ein signifikanter Anteil im Signal bei Audio-Podcasts, und wenn man das Stillerauschen belässt auch immer ein großer Anteil im Kompressionsstream (VBR), bzw. Grund für Artefakte am Anfang oder Ende von Sprechphasen (CBR). Das Problem ist aber viel geringer bei gutem Equipment, da ein herabregeln in den Pausen weniger stört (wenn man es will); zusätzlich zu dem Punkt, dass beim Sprechen die Signale weniger verrauscht sind, und damit besser komprimierbar sind.

Damit spricht gutes Equipment überhaupt nicht gegen Kompression, sondern verbessert die Möglichkeiten zur Kompression, bzw. verringert die Artefakte durch Kompression sehr deutlich. Es erleichtert die Frage nach dem Tradeoff zwischen Dateigröße und Qualität extrem.

Und bevor man sich Sorgen um Artefakte bei der Kompression macht, sollte man eher schauen, ob die Pegel sinnvoll eingestellt sind, da ich als Hörender mehr darunter leiden, wenn ich immer wieder nachträglich Nachregeln muss, da Gesprächspartner unterschiedlich laut und so entweder bei Umgebungsgeräuschen (z.B. Verkehr) unhörbar oder zu laut sind. Ich bin audiophil und hatte bisher nie den Gedanken, dass jemand zu stark komprimiert hat, erlebe aber sehr oft das Problem zu großer Pegeldifferenzen zwischen Gesprächspartnern oder zu Zwischenjingles.

Update: Vielleicht sollten wir uns mal im Sinne der Nutzungszentrierung eher Gedanken machen, ob wir extra Feeds mit geringerem Dynamikumfang zwischen den Sprechenden anbieten, die besser für mobile Hörende gedacht sind. Als Nebeneffekt sind die ja dann auch deutlich besser komprimierbar (in Dateigröße).

DieterBethke · 6. Januar 2019 um 12:18

Toller Input zu dem Thema. Danke Sebastian. Vielleicht sollten wir noch unterscheiden zwischen Datenkompression (die ja per se nicht qualitäsmindernd sein muss) und Datenreduktion (mit erwünschter oder unerwünschter Auswirkung auf die Audioqualität).

Lautstärkeschwankungen (Pegelunterschiede zwischen Sprechern und/oder über die Zeit) und überraschende Hörereignisse (plötzliche Ambience, Verkehrslärm der den Sprecher fast überdeckt, Räuspern, Schmatzen, Husten, sehr viele “ähhhm”) finde ich auch sehr viel relevanter und unschön. Daher versuchen wir bei den Aufnahmen zur fotophonie (wo es geht) auf Ambience zu verzichten und die überraschenden Hörereignisse zu minimieren. Das Leveling der Sprecher und Spuren lassen wir von auphonic erledigen.

Deinen letzten Ansatz im “Update:” finde ich besonders verfolgenswert. Wie könnten wir Menschen mit eingeschränktem Hörvermögen und den mobil Hörenden noch mehr entgegen kommen? Was müssten wir dazu tun und anbieten? Die Sprecherspuren durch einen noch stärkereren Audiokompressor schicken? Bietet @auphonic dazu eventuell sogar schon entsprechende Einstellungen im Webinterface?

auphonic · 7. Januar 2019 um 08:04

Aber sicher - bei uns heißt dieser Parameter „Dynamic Range“:
https://auphonic.com/help/web/production.html#leveler-parameters

rstockm · 7. Januar 2019 um 10:20

Ich würde den Satz ja fast umdrehen wollen: dank Auphonic oder dem Ultraschall-Dynamics 2 Effekt produzieren die allermeisten Podcasts ja eher extrem dynamikarme Audiofiles - gut zu sehen daran, dass da nur „Soundwürste“ im Audioeditor zu sehen sind. Diese Normalisierung auf -16 LUFS ist ja eben gerade für die vielen mobilen Hörsituationen sehr sinnvoll.

Man könnte also eher darüber diskutieren, ob man ergänzend eine nur sehr moderat normailsierte Fassung anbietet, dann auch gleich mit höherer Bitrate, die man als „HiFi“ vermarktet?

DieterBethke · 7. Januar 2019 um 16:25

Die Parameter sind aber im Moment noch nur in der private beta zugängig, richtig? Oder haben sich die Features schon in die release version durchpropagiert?