Formate, stereo/mono, kbit - was bietet Ihr Euren Hörern?

Das hätte ich nicht gedacht, das ist ja eine relevante Größe für Opus. Ich hätte eher mit 1% gerechnet.

Oh, sorry, dann verzichte ich mal auf den mono/stereo-Teil der Debatte. Zumal ich mich schon einer Glaubensrichtung angeschlossen habe.

Ich folge im wesentlichen dieser Empfehlung:


und codiere in 64kbit/s und mono in den Formaten mp3 und mpeg-4 aac. Weil ich bei meinem ersten Web-Hoster größenbeschränkt war, habe ich damals nach dem kleinsten noch akzeptablen Modus gesucht. Den, glaube ich, hierhin gefunden zu haben. Und es tut es gut soweit. Hübscher Nebeneffekt: Selbst wenn ich bei aufgebrauchtem Datenvolumen in die „Drossel“ falle, kann ich noch immer (fast) aussetzerfrei streamen.

2 „Gefällt mir“

Naja, Ogg Vorbis können sehr viele (Android, fast alle Browser, etc.) - Opus leider noch fast keiner …
Also von der Verbreitung her ist Ogg Vorbis nicht zu vergleichen mit Opus, dafür ist halt bei Opus die Qualität bei gleicher Bitrate um Welten besser.

64kbps MP3 klingt halt meist schon wirklich schlecht, mir tut es fast weh wenn Leute bei uns ihre Multitrack Productions bei uns aufwendig durchrechnen lassen und dann auf 64k MP3 kodieren :wink:
Bei AAC ist 64k natürlich viel besser als bei MP3 …

2 „Gefällt mir“

Oh, Schmerzen möchte ich Dir/Euch wirklich keine zufügen. :slight_smile:
Ich überlege dann, vielleicht den Wert doch mal hochzusetzen. Was empfiehlst Du? 96kbit/s oder gleich 128kbit/s?

2 „Gefällt mir“

Unsere Empfehlung ist 112k (das ist die Standardeinstellung bei MP3).
96k kann je nach Aufnahmesituation auch noch funktionieren …

3 „Gefällt mir“

Stimmt, aber anstatt 4 Formate anzubieten, bzw. nur 3 ohne Opus, fanden wir die beiden Kompatiblen plus Opus besser. Vorbis bot sich sozusagen zum Überspringen an.

Einen neuen Podcast würde ich heute mit erstmal nur M4A und Opus anfangen, wenn Platz beim Hoster wertvoll ist. Laut Mozilla sind damit die mir wichtigen Browser abgedeckt und Clients dürften ja alle ersteres können.

M4A, 80-96kbits, Stereo. Warum? Weil MP3 alt ist und stinkt, kein Chapter kann und es ewig beim Export benötigt.
Teils auch MP3 was aber auch genutzt wird, wie ich den Downloads entnehmen kann.

Live geströmt wird bei uns mit 64kbit/s - Mono

Ansonsten pro Folge der Feuilletöne und des Eingeladen-Features:
m4a: 128 kbit/s
mp3: 128 kbit/s
opus: 64 kbit/s
alles Mono
Bei Die Strömung haben wir kein m4a, weil es da keine Kapitel gibt.

1 „Gefällt mir“

Ich sende nur ca. 12 Minuten und ein Teil davon ist Musik. Die kommt meisten als 128 kb/s-MP3. Aber manchmal auch 160 kb/s.
Und so ist der Podcast auch. Ich will ja nicht die - eh’ schon kostenlos zur Verfügung gestellte Musik - schlechter weitergeben als das Original.
Deswegen auch MP3. Deswegen Stereo.

Ich verstehe auch nicht, warum ich z.B. Flac anbieten sollte, wenn ich hauptsächlich in Apple-In-Ears in der U-Bahn gehört werde. MP3 mag alt und uncool sein, aber vom Verhältnis Qualität zu Dateigröße immer noch gut.

Möglicherweise habe ich aber auch ein Gehör-Defizit.
Den Eindruck hatte ich ja schon, als mir die HiFi-Freaks in den Achtzigern das CD-Audio-Format als das Non-Plus-Ultra verkauft haben…

2 „Gefällt mir“

Das Grundrauschen, Musik und Sprache, eine Stunde lang

mp3 192kbit/s (kennt jeder)
m4a 192kbit/s (will jeder)
ogg 192kbit/s (warum auch immer)
opus 48kbit/s (weil neuer heißer Schice)

Alles Mono

3 „Gefällt mir“

Also ich frage mich ja immer: warum überhaupt mehrere Formate anbieten? Gerade für Podcast-Einsteiger ist es doch sehr verwirrend überhaupt hinzubekommen, einen Podcast zu abonnieren. Und dann noch zu sagen: wähl zwischen 2 verschiedenen MP3, M4A, Ogg oder Opus?

Ich bin eher dafür nur M4A anzubieten. In guter Qualität. Fertig. Manchmal ist weniger halt mehr :wink: .

Die einzige Option, die ich nachvollziehen kann: Stereo und Mono anbieten (aber das hatten wir schon, anderer Thread).

Ich habe 3 Beiträge in ein neues Thema verschoben: “Schöne Ecken”-Sound

1 „Gefällt mir“

192, alter Schwede! Ich habe - allerdings vor vielen Jahren - mal ein Blind-Vergleichshören in einem Musikstudio gemacht. Damals ging es mir darum, mit welcher MP3-bitrate ich meine CDs digitalisieren soll. Ergebnis: Ich kann von 128 auf 192 einen Qualitätssprung wahrnehmen - aber nur mit der richtigen Technik oder guten Kopfhörern. Noch höher höre ich keine Unterschiede mehr.

Ansonsten danke für die vielen Beiträge, ich find’s hochinteressant.

Hallo!
Kannst Du mal bitte sagen wie ich mir die Dateigröße dann vorstellen kann? Ich hab da noch nicht so viel Erfahrung und hab halt mp3 und ogg mal erzeugt und komme da bei ner stunde auf 100MB mp3 . da bin ich dann hellhörig geworden und durch eure posts hier schon ne ganze Menge weiter, aber es fehlt noch so ne kleine Ecke für das große Ganze :smile:
danke

Die kannst du auf http://www.dasgrundrauschen.de/ genau nachgucken :wink: Oder näherungsweise in einer Auphonic Produktionen (oder’nem Preset) unter Output Files > Bitrate, nachdem du eines der Audioformate eingestellt hast.

1 „Gefällt mir“

Wer reine Sprachpodcasts mit 128kBit/s oder mehr versendet, sollte meiner Meinung nach auch die Verwendung von Goldkabeln ins Auge fassen.

Etwas Hintergrund zu verlustbehafteter Audio-Kodierung und wie und wieso ihr euer Encoding und eure Audiopipeline speziell für MP3 genau ansehen solltet:

Die Kompression basiert grundsätzlich darauf, dass das Ohr nicht die gesamte Hörinformation gleich bewertet, sondern leise Frequenzbestandteile (aufgelöst in Gruppen) ohne subjektiven Verlust weggelassen werden können. Damit die zunächst als “Spannungsverlauf” gespeicherte Musik (wav oder flac-Format) überhaupt so verarbeitet werden kann, wird sie mit der Fouriertransformation (denkbar wären auch Wavelets) in Frequenzbestandteile zerlegt. Da werden dann psychoakustische Heuristiken angewendet, um den Beitrag zu quantisieren, also mit weniger Auflösung zu speichern, oder ganz auf 0 zu setzen. Da die Periodenlänge von Tönen mit hohen Frequenzen kürzer sind, und daher viel mehr in einem Zeitabschnitt auftreten, liegt es in der Natur der Sache, dass Geräusche mit hohen Frequenzen im Verhältnis viel mehr Information beinhalten.

Es bringt also extrem viel für die Kompression, wenn Signale eine begrenzte Bandbreite haben, also nur in bestimmten Frequenzbereichen einen Beitrag leisten, und möglichst wenig hohe Frequenzbestandteile besitzen. Entsprechend ist Rauschen der totale Kompressionskiller, da es im schlimmsten und idealen Fall aus allen Frequenzen besteht.

Natürlich kann man theoretisch auch dadurch sparen, dass man nur einen Kanal (also Mono) versendet als zwei Kanäle zu verwenden (Stereo). Die Verwendung von zwei gleichberechtigten und unabhängigen Kanälen in fast allen Fällen (außer z.B. Zwei-Kanal-Ton in zwei unterschiedlichen Sprachen) unsinnig ist, und stattdessen das Mischsignal in hoher Datenrate und die Unterschiede in geringerer Datenrate (siehe auch Intensitätsstereofonie) übertragen werden sollten.

Bei wechselnden Charakteristiken im Tonsignal macht es auch Sinn die Menge der übersendeten Daten zu verändern- also variable Bitraten zu verwenden. Neben der Strategie “feste Bitraten” zu benutzen (CBR- constant bitrate), gibt es auch “gemittelte Bitraten” (ABR- averaged bitrate) und “qualitätsorientierte Bitraten” (VBR- variable bitrates). Bei CBR ist die Bitrate immer konstant, bei ABR werden höhere und kleinere Bitraten je nach Anforderungen toleriert, aber eine feste durchschnittliche Bitrate garantiert, bei VBR wird die Bitrate rein durch “Anforderungen” skaliert definiert. (Und wie die “Anforderungen” oder die “Qualität” sinnvoll gemessen werden kann, und wie man darauf durch ein Regelungssystem reagiert- womöglich mit Multi-pass Encoding- ist nochmal ein ganz eigenes Thema…)

Was bedeutet das alles für unsere Audiopipeline und die Kompressionsparameter?

Beim Einzug von MP3 gab es den Goldstandard von konstanten 128kBit/s, der uns quasi “CD-Qualität” versprach. Die Kompression um das etwa 10-fache war beeindruckend, aber oft konnte man Unterschiede feststellen: Gerade am Anfang wurde noch viel bei den psychoakustischen Modellen experimentiert, oder die Aufteilung des Stereosignals erfolgte in zwei getrennten Kanälen. Eine einfache Möglichkeit mehr “Qualität” bei geringerer “Datenmenge” zu erzeugen, waren Tiefpassfilter. Dadurch, dass man schon vorher hohe Frequenzen herausfiltert (oder eine geringere Abtastrate als 44kHz zu verwenden), hat man die schwierigsten Bestandteile schon vor Kompression gelöscht.

Mit verschiedenen Hörtests wurden dann Werte gefunden, die für typische Anwendungen (insb. kontinuierliche Musik) für jeweils bestimmte Bitraten die subjektiv beste Abbildung des Signals für viele Menschen liefert. Für spezielle Anwendungen können aber ganz andere Werte sinnvoll sein, und aus meiner Sicht ist dies bei Sprachpodcasts ganz sicher der Fall:

  1. Sprache ist nie kontinuierlich- ihr macht (hoffentlich) Pausen beim Reden.
  2. Es spricht meisstens nur eine Person aus einer Richtung.
  3. Stimmen sind stark beschränkt in ihrer Bandbreite.

Das sind riesige Vorteile für die Kompression, die ihr beispielsweise mit folgenden Dingen kaputt machen könnt:

  • Musik oder Atmo in den Hintergrund legen
  • Musik oder andere Geräusche einspielen
  • Rauschen in Stille nicht ausblenden
  • Generell Störgeräusche zulassen (z.B. im oben zitierten LS001 das Brummen und Rauschen)
  • Schall auf zweitem Kanal aufnehmen (fehlendes Crossgating/Übersprechen)
  • Unterschiedliche Intensität der Sprechenden auf Kanälen zulassen (veränderliches Panorama)

Die ersten beiden Dinge sind teilweise ja gewollt oder erwünscht. Dann wird man über die Standardwerte nicht herumkommen und sollte mit hohen Bitraten kodieren (zB @Explikator, @Dennis_SciPie, @modnerd). In allen anderen Fällen kann man mit speziellen Codecs (wie Opus) aber auch definitiv aus MP3 noch viel mehr herauskitzeln, so dass spezielle Codecs in vielen Fällen keine großen Vorteile mehr besitzen.

Wenn die Audiopipeline in der Stille wirklich das Rauschen herausblendet, so kann man hier sehr viel gewinnen: Für Stille braucht man keine 128kBit/s, sondern da reichen 32kBit/s, das ist das Minimum bei MP3. Damit der Encoder das realisieren kann, sollte man auf jeden Fall CBR vermeiden und auf ABR oder VBR wechseln. Ja, es gibt noch sehr, sehr alte Player, die mit veränderlichen Bitraten Probleme haben. Werft sie weg. Wir haben 2015.

Generell ist Rauschen oder anderes Störgeräusch der Killer schlechthin- gute Mikros mit festem Abstand zum Sprecher und symmetrische Übertragung bringt euch auch wegen der Kompression einen großen Qualitätsgewinn.

Verwendet Crossgating gegen das Übersprechen und Hall, und pegelt Personen fest auf eine Panoramastellung zwischen Links und Rechts. Dann habt ihr die Vorteile der besseren Personenauflösung durch Stereo ohne Qualitätsverluste oder höhere Bitraten- siehe auch die Diskussion zu Stereo/Mono. Insgesamt unterscheidet sich hier Sprach-Stereo völlig von Musik-Stereo: Musik braucht durch unterschiedliche Tonquellen an unterschiedlichen Orten wirklich zwei Kanäle, bei Sprache ist es nur eine Quelle an festem Ort und so wird nur diese (bei Stereo) kodiert. Wenn man das richtig macht, so erhält man schon alleine deshalb mit 80kBit/s bei Sprache lässig die Qualität von 128kBit/s bei Musik. (Auch hier tut sich ein weites Feld auf: Eigentlich will man Personen nicht nur mit “Pegel” in Stereo verorten, sondern auch Laufzeitunterschiede zulassen, aber das können die Encoder nicht “erkennen” und macht die Kompression kaputt.)

Auch wenn ihr das alles befolgt, hört ihr sicher sofort einen Unterschied, wenn ihr jetzt mit beispielsweise 64kBit/s statt 128kBit/s eure Podcasts kodiert. Das liegt zum ganz großen Teil am Tiefpassfilter, der bei Musik mit hohen Bandbreiten ganz sicher Vorteile hat, aber bei schmalbandiger Sprache schon im Vorfeld ohne Not das Signal nicht nur verfälscht, sondern richtig kaputt gemacht.

Bei lame ist der Tiefpassfilter bei 192kBit/s bei 19.2kHz, bei 128kBit/s bei 17kHz, bei 96kBit/s bei 15.5kHz (mit resampling auf 32kHz), bei 64kBit/s bei 11.2kHz (mit resampling auf 24kHz). Da könnt ihr euch die Aufnahme bei 44.1kHz Samplefrequenz sparen, wenn der Encoder gleich mal jedes zweite Byte einfach wegwirft, noch lange bevor das psychoakustische Modell mal eine Chance hat, eine sinnvollere Auswahl zu treffen: Das Resultat klingt dumpf.

Glücklicherweise kann man das ausschalten, und voilá- plötzlich klingt auch durchschnittlich 64kBit/s für Sprachpocasts ganz passabel, wenn man auch die anderen Punkte oben beachtet. Meiner Erfahrung nach geht es aber nicht wirklich tiefer mit MP3- es hängt auch von den Stimmen ab. Da es ja Menschen mit höheren Stimmlagen gibt, wie auch bei unserem Podcast, sollte man die Bitrate nicht fest auf einen Wert wie 64kBit/s (per ABR) festlegen, sondern die Bitrate von den Anforderungen abhängig machen, also VBR verwenden.

Wir verwenden seit einiger Zeit und Optimierung folgendes MP3-Encoding

lame -V8.5 -q0 --lowpass 22050 --resample 44100

und haben in den letzten Folgen (bei >99% MS-Encoding durch Crossgating) diese Bitraten erreicht: Folge 63 hat gesamt 67kBit/s, Folge 64 hat 69kBit/s und Folge 65 wieder 67kBit/s. Folgen mit viel Atmo oder Hall erhalten automatisch mehr- Folge 56 von der Gulaschprogrammiernacht hat 74kBit/s. Das ganze in Stereo und bisher ohne jeglichen negativen Kommentar zur Qualität- ganz im Gegenteil.

Your milage may vary, aber wir kommen sehr gut mit den niedrigen Bitraten zurecht und brauchen daher keine weiteren Feeds. Und man kann uns in vielen Teilen der Edge-Hölle noch streamen. =)

5 „Gefällt mir“

Magst du das nochmal tl:dr mäßig kurz zusammenfassen? :slight_smile:

Schöne Einführung!
Jedoch listest du hier deine Bitratenempfehlungen natürlich für VBR, mit CBR MP3 klingt 64k meist nicht wirklich gut (kommt natürlich auch aufs Material drauf an).

Der entscheidende Punkt ist halt dieser:

Das ist leider IMHO immer noch nicht so einfach. Ja, es gibt mittlerweile wirklich extrem wenig Player die kein VBR können, das können fast alle.
Aber: mit VBR haben wirklich viele Player Probleme wenn es um seeken usw. geht, auch z.B. webplayer in browsern, podcasting apps etc. Da gibt es leider immer wieder komische Effekte.

Wir könnten dan ja gerne nochmal eine umfassendere Versuchsreihe machen. Wir (bei Auphonic) haben unser MP3 mal auf VBR standardmäßig umgestellt gehabt und viele Problemberichte gehabt.
Aber das ist nun auch schon ca. 1,5 Jahre her, vielleicht hat sich da ja was verbessert. Würde gerne alles auf VBR MP3 machen, das klingt natürlich viel besser :wink:

Ich persönlich sehe MP3 CBR eher als Fallback Format an, das überall gut spielt.
Zusätzlich kann man bei Bedarf ja modernere Formate nehmen: MP3 VBR, AAC, Opus, etc.
Aber bei diesem Vergleich ist halt AAC schon viel besser als MP3 VBR und wird auch von eigentlich allen Geräten unterstützt (auch keine mir bekannten Probleme bei seeken usw.) - bzw. Opus ist natürlich auch viel besser aber wird leider noch nicht von allen unterstützt …

2 „Gefällt mir“

Ja, natürlich sollten man variable Bitraten und kein altertümliches CBR bei MP3 verwenden- da hast du meine Empfehlung ganz richtig verstanden! =)

Wenn man aber ohnehin mehrere Feeds macht, ist die Frage, was man als Standard verwendet. Der Hauptfeed für die 99% der Nutzer sollte breit kompatibel sein, das Format sinnvoll nutzen und keine Bandbreite verschwenden. Wir haben bei uns als Ausweichlösung Ogg Vorbis für Firefox-Browser.

Für den Rest kann man ja dann Sonderfeeds bereitstellen- und das ist was anderes als den 64kBit-Feed als Sonderlösung dazustellen.

Ich würde bei euch aber nicht den Standard auf meinen Vorschlag umstellen- euch verwenden viele verschiedene Formate, und mein Text oben bezieht sich eben nur auf die reinen Sprachpodcasts. Und die Unterstützung von Kapitelmarken ist auch nochmal ein ganz anderes Thema. Aber als optimierende Option für Sprachpodcasts wäre ein angepasstes Encoding doch ganz interessant.

Wie geht ihr denn mit den Lowpass-Filtern um? Übernehmt ihr die Musik-Presets?

2 „Gefällt mir“

Sammeln wir noch? Ich nutze für “Wie geht eigentlich…?” AAC (weil persönlicher Apple Bias und offensichtliche Vorteile bei Dateigröße/Tonqualität) und MP3 (um möglichst viele Hörer mitzunehmen) wie sie aus Auphonic rausfallen (weil ich da sane defaults annehmen kann). Beides in Mono, weil ich oft selbst mit nur einem Hörer höre und mich viel über Stereo-Podcasts aufrege. (Wie gesagt, andere Debatte.)

Ich denke darüber nach auch noch OGG oder Opus anzubieten, muss mich da aber nochmal genauer über Vor- und Nachteile der jeweiligen Formate informieren und dann mal sehen, ob es überhaupt Bedarf dafür gibt.

1 „Gefällt mir“