In welchen Formaten nehmt ihr auf?

Alex_Sandra · 17. Juli 2016 um 20:14

Hallo,

ich habe wahrscheinlich eine total bescheuerte Frage, jedoch lebe ich aktuell noch in der “wunderbaren Welt” in der es lediglich zwei Soundformate gebt. Nämlich “.wav” und “.mp3”.

Die Aufnahme war kein Problem, aber beim Schnitt von mehreren Spuren einer Folge mit etwa 1,5 Stunden ging das Mac Book dann schon mal in die Knie. Da denke ich mir, sollte ich mich doch mal erkundigen wo ich da die ganze Geschichte optimieren kann, da ja andere Casts deutlich länger sind und auch irgendwie geschnitten werden

Ich weiß, doofe Frage aber ich wer nicht fragt, kann auch keine Antwort bekommen. Alles was ich bisher versucht habe, hat die Qualität extrem verschlechtert, daher meine Frage wegen des Formats.

Wilhelm · 17. Juli 2016 um 20:31

Auf KEINEN Fall MP3. Alles, aber kein MP3.

Ich persönlich nehme in 24 Bit / 96kHz .WAV auf.

Am Mac nehme ich in Reaper allerdings in 24 Bit 96khz FLAC auf. Wenn Reaper es könnte, würde ich ALAC nehmen.

Schau mal hier. hust https://sendegate.de/t/podcast-einsteiger-guide/

Joey · 17. Juli 2016 um 20:41

Ich nehme auch .WAV auf. Der Transfer der Daten bei Double-Endern ist mit halbwegs anständigen Leitungen auch gut machbar.

rstockm · 17. Juli 2016 um 22:07

Wir liefern Ultraschall mit 16 Bit 48KHz FLAC aus für die Standard-Aufnahme - für Sprache in jeder Hinsicht ausreichend und angemessen platzsparend. Wird auch gut von @auphonic angenommen.

Alex_Sandra · 17. Juli 2016 um 23:27

Da ich mich gerade versuche mit Ultraschall anzufreunden und Flac angeblich auch von Ableton (was ich aktuell noch nutze) unterstützt wird, werde ich es mal damit probieren. Danke schön.

vtanger · 18. Juli 2016 um 06:43

Wenn auch nur die Eventualität besteht, dass man nachher noch einmal Nachbearbeiten können möchte, dann sind verlustfreie Aufnahmeformate Pflicht. Wenn z.B. bei Live-Aufnahmen eine Rückkopplung 'reinpfeift, dann maskiert die in MP3 oder AAC oder OggVorbis die anderen Frequenzen - und der verlustbehaftete Komprimierer lässt (verkürzt gesagt) alles andere außer dem Pfeifen weg. Dann ist das 'Rausschneiden der Rückkopplung schwieriger als bei Formaten, die alles aufzeichnen.

Bleiben also WAV oder FLAC.

Bei Mehrspuraufnahmen auf Festivals sind FLACs theoretisch ganz nett, da “leere” Spuren (fast) nichts an Platz verbrauchen. Allerdings sorgen Bitflipps bei FLAC für mehrere Sekunden Ausfall. Und da FLAC eher so mittelprächtig komprimiert (“nur” Faktor 2 - statt 10 wie bei MP3) ist der Platzgewinn IMHO dann nachrangig.

Bleibt also WAV.

Zurück zur Ausgangsfrage: wenn der Computer beim Schnitt in die Knie geht (mein 266MHz-PC schaffte live 8 Spuren - was/wie schneidest Du?!??), dann sollte alles an CPU-Last 'rausgenommen werden. Also alle Dekomprimierungsschritte. Bei WAV gibt’s keine weil die Daten da 1:1 vorliegen.

Also auch aus diesem Grund: WAV nehmen.

Die einzige Stelle, bei der es mit “zu viel” Daten problematisch werden könnte: wenn exorbitant viel zu viele Spuren über ein lahmes Medium gehen. Selbst ein echt krötiger USB-Stick schafft aber (beim Lesen) immer noch mindestens 10MByte/s (=100 Mbit/s). Eine Standard-Audio-Spur (16bit @ 44.1Khz) braucht 706 kbit/s - also selbst die lahme Kröte schafft (theoretisch) schon 140 Spuren. Eine normale Platte sollte jenseits der tausend (parellele) Spuren schaffen, eine aktuelle SSD dann noch mal ein mehrfaches.

rstockm · 18. Juli 2016 um 07:23

Ich würde hier insofern zustimmen, als dass Performanceprobleme im Schnitt wohl weniger auf Rechner oder Dateiformat zurückzuführen sind, sondern auf die Schnittsoftware und deren Anforderungen. Da solltest du dann bei Reaper (mutmaßlich schnellste Audio-Engine am Markt? Wie misst man das eigentlich konkret?) dann schon ein ziemliches “Aha”-Erlebnis haben.

Alex_Sandra · 18. Juli 2016 um 08:40

Danke euch. Also da mein Mac-Book ein recht aktuelles Modell mit SSD ist denke ich mal nicht, das es aktuell an der Hardware liegt. Ich habe auch schon daran gedacht, das es an der Kombination Ableton mit mega langen Spuren liegt.
Daher habe ich mir auch Ultraschall rauf geladen mit dem ich im großen und ganzen auch recht gut zurecht komme. Nur beim Schnitt bin ich eben recht eingefahren, was Ableton angeht und tue mir schwer. Aber genau da ist ja dann auch das Problem bei Ableton.
Aber dann weiß ich zumindest, das ich auf dem richtigen Weg bin und beiß mich weiter bei Ultraschall durch. Werde zumindest die nächste Aufnahme komplett mit _Ultraschall aufnehmen und bearbeiten um rein zu kommen.

Dave · 18. Juli 2016 um 08:50

Also ich empfehle WAV in 24/96. Das ist das einfachste Format und dürfte auch die wenigsten Performance Probleme hervorrufen, wobei ich meine Zweifel habe, dass die Probleme am Format liegen. 24/96 empfiehlt sich, um noch Headroom zu haben und die Latenz des Interfaces niedrig zu halten (wobei das Thema bei Podcasting eh keine Rolle spielt)

Wie bei den Interfaces kann man auch die Latenz der Software messen. Frag mich aber nicht wie man das macht.
Ich mache das auch immer intuitiv… Große Projekte mit 40 Spuren und vielen Effekten und VSTIs laden und schauen, ob man die DAW damit in die Knie bekommt

rstockm · 18. Juli 2016 um 09:39

Dazu wurde hier ja schon umfangreich diskutiert. Ich halte das für einen mittleren Irrsinn - vielleicht kann man sich das leisten, wenn man eine 4 TB Platte am Start hat, aber bei einer SSD und auch nur mittlerem Podcast-Output führt das doch sehr schnell zu Engpässen. Einfaches Rechenbeispiel:

3 Kanäle, 2 Stunden Sendung:

24 Bit, 96KHz als WAV: 6 GB Storage
Dasselbe als
16 Bit, 48KHz, FLAC: 1 GB Storage.

Das ist mal eben so Faktor 6, und wir reden hier von GB nicht von ein paar MB! Pro Sendung!
Im Kern steht aber vor allem der Beweis aus, dass der „Headroom“ (den ich etwa bei RAW Fotografie sehr schätze) bei Podcast-Audio in irgendeinem uns bekannten Szenario einen hörbaren Unterschied produziert. Ich rufe seit fast zwei Jahren dazu auf, mal eine entsprechende Teststrecke aufzubauen und hier zu posten - also welche Schritte im Editing oder Filter dazu führen, dass ich in einem A/B Doppel-Blindtest wirklich verlässlich Unterschiede hören kann. Wir reden hier ja bekanntlich nicht von wackeligem 128Kb MP3, sondern von einer Aufnahme die mit 16Bit und 48KHz ÜBER dem liegt, was immer noch als HiFi-Audio (CD-Qualität) durchgeht.

Mich interessiert hier wie gesagt keine mathematische Konstruktion, sondern konkrete Hörbeispiele. Bis die nicht kommen, empfehle ich das Geld nicht in Storage sondern andere Bereiche der Produktion zu investieren.

Dave · 18. Juli 2016 um 11:00

Andererseits: Bei der Aufnahme mit 24/96 ist es genauso wie bei RAW. Wenn Du bei schönem Wetter und gutem Licht Fotos machst, wirst Du auch keinen Unterschied merken. Und so lange Du da keine HDR-Spielchen machst, wirst Du das auch niemandem klarmachen kölnnen, wo der Vorteil liegt.
Genauso ist es bei Audio-Files. Wenn Du in stiller Umgebung direkt vor dem Mikro aufnimmst, ist das wurscht. Aber wenn Du z.B. ein Interview machst und dann im Nachhinein feststellst, dass die Person um Größenordnungen zu leise aufgenommen wurde, weil sie sich erdreistet hat, nicht ins Mikro zu sprechen zahlen sich 24bit aus (96kHz müssen hier natürlich nicht sein).

Aber ich gebe Dir recht: Das gilt alles unter der Prämisse, dass man schon ein halbwegs vernünftigen Signalweg hat (insbesondere ein gutes Mikrofon) hat. Wenn man mit dem internen Mike vom Laptop aufnimmt, braucht man sich natürlich keinen Kopf über die Bitrate zu machen

Aber nur in Stereo…

Selbst wenn es Faktor 10 wäre… Das Argument mit dem Speicherplatz finde ich etwas an den Haaren herbei gezogen. Speicherplatz kostet einfach heute nix mehr. Bei einem Speicherpreis von etwa 2 Cent pro Gigabye ist das einfach vernachlässigbar (selbst wenn es bei SDDs das zehnfache kosten würde).

WAV würde ich daher auch immer vorziehen, weil das einfach mit jeder Software abgespielt werden kann (auch wenn sie noch so alt oder neu ist). Da fühle ich mich einfach zukunftssicherer.
Und hier ging es ja auch um Performance. Da FLAC komprimiert, ist die hier vermutlich (minimal) schlechter.

Deswegen auch meine Antwort auf die Frage, warum ich mit 24/96 aufnehme:
Weil ich’s kann!
(und es defakto keine Nachteile hat)

Gruß, Dave

rstockm · 18. Juli 2016 um 11:36

Genau das bestreite ich ja. Und wundere mich seit zwei Jahren, warum hier niemand mal ein einfaches Beispiel postet, das das Gegenteil beweist. Solange ich es glauben muss, ohne es auch nur einmal hören zu können, liegt das für mich im Bereich der Audio-Esoterik.

Dave · 19. Juli 2016 um 08:36

Hmmm… Da gebe ich Dir Recht. Müsste man mal vergleichen. Werde ich beizeiten mal machen.

Christian_Vogel · 19. Juli 2016 um 19:18

Dieses Papier wird wieder Wasser auf die Mühlen der 24bit/96kHz verfechter gießen

Reiss, Joshua D.

A Meta-Analysis of High Resolution Audio Perceptual Evaluation

JAES Volume 64 Issue 6 pp. 364-379; June 2016

Over the last decade, there has been considerable debate over the benefits of recording and rendering high resolution audio beyond standard CD quality audio. This research involved a systematic review and meta-analysis (combining the results of numerous independent studies) to assess the ability of test subjects to perceive a difference between high resolution and standard (16 bit, 44.1 or 48 kHz) audio. Eighteen published experiments for which sufficient data could be obtained were included, providing a meta-analysis that combined over 400 participants in more than 12,500 trials. Results showed a small but statistically significant ability of test subjects to discriminate high resolution content, and this effect increased dramatically when test subjects received extensive training. This result was verified by a sensitivity analysis exploring different choices for the chosen studies and different analysis approaches. Potential biases in studies, effect of test methodology, experimental design, and choice of stimuli were also investigated. The overall conclusion is that the perceived fidelity of an audio recording and playback chain can be affected by operating beyond conventional resolution.

rstockm · 19. Juli 2016 um 19:28

Hm ja - mit was für einer Datenrate publizieren wir dann noch mal am Ende unsere Podcasts? /o\

Dave · 19. Juli 2016 um 19:46

Also nochmal: Bei Musik kann ich aus eigener Erfahrung sagen, dass man den Unterschied 16/44 und 24/96 definitiv hört - es liegen keine Welten dazwischen, aber man hört es (und ich glaube man braucht dafür nicht unbedingt das goldene Ohr). Die Höhen hören sich deutlich klarer an. Eine Sinuskurve wird bei den Obertänen fast zu einem Rechteck, weil die Auflösung nicht ausreicht. Sie ist quasi “pixelig” und das hört man.

Und wenn man viel mit Formanten-Verschiebungen arbeitet (Autotune) merkt man den Unterschied meiner Erfahrung nach auch, welche Auflösung das Rohmaterial hat.

Dass der Beweis bei Sprachaufnahmen noch aussteht gebe ich zu… Und ich halte es auch für nicht unwahrscheinlich, dass es keinen großen Unterschied macht… Aber ich werde das mal testen, sobald ich wieder mit 24 bit aufnehmen kann.

Aber ich will nochmal betonen, dass das ist nicht alles nur Voodoo ist.

lg, Dave

Deleted · 19. Juli 2016 um 19:49

Oh man, ich probiers mal zu erklären…

Ich nehme auch mit 96 auf wenn ich im Tonaufnahme-Raum bin warum? Aus Gründen. Nicht aus Esoterik!

Zur Audio-Esoterik

Wenn Du Musik machst, wirst Du beim produzieren von Sempler/Simplern auf keinem Falle auf die 96 herum kommen. Da die Daten immer nachbearbeitet werden müssen. Wenn man am letzlich matsch will, nimmt mit 44 oder mit 48 auf.

Am Ende kauft das aber jemand und will damit auch noch etwas produzieren. Ich nehme Klaviere auf in tausender Variation. Das sind am Ende 280GB und mehr für gerade mal 88 Tasten. Wer wissen will wie so etwas klingt, hört sich einfach mal GarageBand an. Das sind gesampelte Pianos. Die klingen eher wie ein E-Piano, das kann man auch selber modellieren, aber jemanden Verkaufen um echten Piano Sound zu haben und damit produzieren zu wollen - wohl eher nicht. Das hat nichts von einem echten Flügel gemein.

Damit kommt es immer auf den Anspruch an. In unseren Falle wollen wir einen echten akustischen Sound auf einem Midi gesteuerten Instrument, so realistisch im Klang haben, damit man sich die Miete und die teure Ausstattung sparen kann. Wenn man mal den Beethoven zelebrieren will und dabei gleich aufzeichnen und produzieren.

Aber mal zum Podcast:

Ich wage stark zu bezweifeln das Du ein Device hast das 96kHz (ds / direct sampling) aufnehmen kann. Du kaufst dir garantiert kein Gerät ab 800-2000 € um „nur“ damit zu Podcasten oder Stimme aufzunehmen?

Hier mal ein Beispiel:

Devices die damit arbeiten können kosten ebenfalls >ab< der Preisklasse aufwärts.
Ich nutze als Hauptgerät unter anderen den Vertigo VSC-2 Kompressor der heute sogar unter 5000€ schon zu haben ist und bei mir, mehr als nur seinen Dienst getan hat.

Wenn du also mit „realen“ 96kHz aufzeichnen willst, benötigst du ein 24-bit/192kHz (ds) Band, digital Recorder.

Das Aufzeichnen wie @rstockm schon schrieb, ist mit „Standard Devices“ (100-400€) also am besten immer in 48kHz, um am Ende mit 44,1 heraus zu bekommen (Soweit sie es unterstützen). Rein von der Musik sind 44,1 so gesehen etwas wenig. Bei Sprache alle male ausreichend!

Ich möchte vor allem die Sprache aufnehmen und nicht das „Noise“ also Dreck, den ich am Ende eh wieder heraus filtern muss.

Vielleicht bekommst Du ein 96kHz (bfa, dis / direct inter sampling,) für 3-400 € - ja! Aber das ist ja was komplett anderes. Du kannst also, wenn dein System mein das geht, sicher auch die 96kHz auswählen. Aber das macht ja keiner ernsthaft, wenn er weis, das das garnicht geht. Wenn Du also in 96kHz aufzeichnest tastet oder anders gesagt, fragt dein Rechner dein Audio device ob es Änderungen gibt. Das macht der aber nicht in 96kHz…

Bedeutet der muss das in Paketen tun. So wie eine ALU und der Rest bei einem Rechner das halt so macht. Wenn dein Device das nicht kann, nimmst du mit der höchsten Rate auf die er so kann. Dein Audio wird zu einem toten Bithafen. Da die Welle nicht so oft abgetastet wird nimmt sich mehr Raum ein und ist daher nicht weniger besser. Genau das Gegenteil ist der Fall. Deine Aufnahme wird damit schlechter und das ist in eine 2er Zyklus schon beachtlich schlechter.

Du kannst das ausprobieren, in dem Du eine Aufzeichnung machst und danach auf 48kHz umsetzt. Dann schreit deine DAW wahrscheinlich lauthals das das ja jetzt nicht dein Ernst sei und sie müsse das berechnen. Wenn danach deine Aufzeichnung um das 2 fache langsamer ist, sprich statt Miki Maus, Du klingst wie ein Weihnachtsmann in Zeitlupe, dann solltest Du die Strategie vielleicht ändern und doch lieber in 48kHz aufzeichnen, so wie @rstockm richtig vorschlägt.

Was ist direktes inter sampling in 96kHz?

Das bedeutet nüschts anderes als ich habe eine „Puffer“ der bei der Abfrage eines eingehenden Signals schaut was da durchgereicht wird. Das will man gerne in 96kHz machen. Das können Geräte bereits ab 300 bis 500€.

Wozu is das? - wenn man DJ ist, hat man ein haufen Geräte die piiieepen und sonst was machen. Das problem ist, wenn ich die alle verschalte will meine DAW gerne schauen, ab wann es lohnt, einen Abgleich zu machen. Das bedeutet, es will gerne Synchronisieren.
Damit der Bass aus meinen Gerät X, welches zusätzlich mit EQs und was weis ich… Live virtualisiert wird, mit der Melody zusammen abgespielt wird.

Das ist im übrigen auch der Punkt von @Alex_Sandra. Ableton Live schaut sich das im Channel verlaufende Material an und versucht „automagisch“ den Takt zu finden.
Wenn du aber Sprache hast dürfte das schwer sein. Es muss dabei alle Tracks, bei einem start auf Play, anschauen, bis es merkt das es nicht wirklich geht. Bei einer Stunde Aufzeichnung wird das also eine ziemliche Tortur sein. Ableton ist das absolut falsche Werkzeug dafür.

Ich hoffe ich konnte ein wenig in das Thema eingehen.

Grüße M.C.

Dave · 19. Juli 2016 um 20:25

Achja… und was natürlich dazu kommt, ist das was ich oben schon erwähnt habe: Latenz!

Die Audiointerfaces haben immer eine feste Latenz die sich in der Anzahl von Sampels wiederspiegelt und mit dem Puffer zusammenhängt.
Hat ein Audiointerface also eine Latenz ovn 1024 Samples sind das bei 44kHz knapp 24ms. Bei 96kHz bist Du fast bei 10ms.

Das heißt Du drückst die Taste am Keyboard und hörst den Ton 24 Millisekunden später. Bei Latenzen jenseits der 20ms kriegt man als Musiker da einen Vogel und eine Aufnahme ist kaum noch möglich, natürlich spielen kann man erst unter 12ms.

Hat jetzt auch nicht viel mit Podcasting zu tun, sind aber ganz wichtige faktische Gründe die nichts mit Einbildung zu tun haben.

Und nochmal Speicherplatz kostet nichts mehr…
Bei 24/96 liegt man bei knapp 580kB pro Sekunden
Bei 44/16 bei knapp bei 180kB pro Sekunde für eine Stereoaufnahme

Ich hab mal Videopodcasts für Youtube gemacht, da sind wir bei knapp 6MB pro Sekunde (1080p24, komprimiert). DAS kostet Speicher…

Christian_Vogel · 19. Juli 2016 um 20:41

Ich bitte um Entschuldigung, ich wollte mit meiner Erwähnung dieses neuen Papiers keinen Krieg auslösen!

Aber folgende Dinge kann ich wirklich nicht unkommentiert lassen:

Dies ist ein Trugschluß! In einem 48kHz .wav beschreibt die Darstellung {-1,0,1,0,-1,0,1,0,…} perfekt einen Sinuston von 12kHz, jegliche Ecken und Kanten trügen Energie im Frequenzbereich oberhalb der halben Samplingfrequenz bei und dies ist in der Rekonstruktion eines Bandbegrenzten Signals eben nicht erlaubt. Dies setzen auch alle DACs um, und daher ist auch z.B. ein Sinuston mit 22kHz noch schön rund, die digitalen Daten sehen aber eher so aus wie eine Schwebung zwischen 22kHz und 26kHz, was sie in gewisser Weise auch sind! Nur die 26kHz werden nicht rekonstruiert und nur die 22kHz bleiben übrig und erreichen den Eingang Deines Audio-Verstärkers.

Ich fürchte, Du bringst hier die Sample-Rate und die Period-Size/Latenz/Buffer-Size durcheinander. Aus Effizienzgründen bearbeitet man Audiodaten eben nicht Sample für Sample, sondern fasst immer einen kleinen Block zusammen der in einem Rutsch berechnet wird. Dies sind dann z.B. 128 Samples bei 48kHz, macht 128/48kHz=2,66ms. Das was man Latenz nennt ist normalerweise genau 2x diese Zeit (in diesem Fall 5,6ms), denn ein Datenpuffer wird immer gerade dann vom ADC befüllt während man am vorherigen Block noch rechnet.

Die einzelnen Samples sind aber natürlich streng periodisch mit z.B. 96kHz oder jeder beliebigen Samplerate die Dein Equipment unterstützt aufgenommen worden. Und das 1. Sample des 2. Blocks entspricht der Amplitude des Eingangssignals genau eine 96tausendstel Sekunde nach dem Zeitpunkt an dem das letzte Sample des vorherigen Blockes aufgenommen wurde.

Das ein Soundfile um eine Oktave tiefer klingt wenn man es ansonsten unverändert mit halber Samplingrate abspielt ist nicht wirklich verwunderlich. Das Ändern von Samplingraten ist aber in der Tat nicht trivial, und es gibt eine sehr schöne Website (Infinite Wave Resampling Comparison) die unterschiedliche Resampling-Algorithmen vergleicht. An den Diagrammen sieht man auch sehr schön, wie sich bei mangelhaften Filtern während der Konversion Frequenzanteile >20kHz in den hörbaren Frequenzbereich heruntermischen. Sieht aber meist schlimmer aus als es ist, alles was lila oder blau ist hat nur noch <-100dB Intensität.

rstockm · 19. Juli 2016 um 21:18

Das gilt vielleicht für Desktop-Rechner, aber nicht für SSD-Notebooks. Jetzt kann man lange darüber streiten ob man solche zum Podcast-Recording nehmen sollte, aber was spricht dagegen auch mit 256 GB SSD Platte glücklich zu werden, wenn man durch 44.1/16/FLAC sechs mal soviel produzieren kann bis der Platz voll ist? und nein, manche Leute wollen kein ständiges hin- und her mit externen Platten.