Aufnahme zu schnell

Hey Leute!
Ich habe eine Frage, die ich mir technisch beim besten Willen nicht beantworten kann und bin etwas ratlos.
Kurz unser Setting:
Remote-Call über FaceTime (mein Podcast-Partner über iPhone mit Kopfhörern, ich über Macbook)
Aufnahme über Audacity (beide über ihr Macbook)
Beide haben mit Scarlett Interface und NT1-A Mikro aufgenommen (wobei das keine Rolle spielen dürfte).
Jeder nimmt seine Spur auf und anschließend werden sie zusammen geführt.

Während der Aufnahme musste ich lachen, weil er ca 5 Sekunden super schnell redete, ich dachte FaceTime hat wieder was verschluckt und komprimiert. Das Phänomen haben wir öfter. Nun haben wir in der Aufnahme aber gemerkt, dass es dort genauso ist, obwohl der Call und seine Aufnahme ja komplett durch die Geräte getrennt sind. Ach ja, er schwört nicht so schnell gesprochen zu haben :wink: klingt aber auch wirklich als hätte man eine Sprachnnachricht auf 1,5x Geschwindigkeit abgespielt.

Hat jemand eine schlüssige Idee oder bin ich einfach nur zu blöd es zu verstehen?

Danke und Gruß,
Matze

Es gibt zwei Mechanismen, wie man Netzwerkaussetzer oder -latenzen kompensieren kann.

Entweder die Pakete, die aufgrund einer Netzwerkunterbrechung oder einem größeren Lag nicht exakt „jetzt“ zugestellt werden können, werden verworfen.
Das sorgt für 100% live, aber eben auch dafür, dass es bei einem kleinsten Hickup sofort zu Verlusten und somit Sprachaussetzern kommt.

Oder du pufferst Pakete, die gerade nicht just in time übertragen werden können, zwischen. So bleibt die Verbindung konstant und Sprachpakete gehen nicht verloren.
Blöd ist dann, wenn der Zwischenspeicher recht voll ist und dann die Verbindung wieder gut wird und der gesamte Puffer leer gemacht werden muss - so schnell wie möglich, denn das Gegenüber redet ja weiter.

Da die Balance zu finden, ist eine große Kunst.
Und wenn das Gegenüber redet und redet und redet und redet, dann hat auch der beste Codec und Buffer keine Möglichkeit, alles Zwischengespeicherte irgendwie in Momenten ohne Sprache abzuspulen, sodass es nicht auffällt.
Wenn der Buffer voll ist, muss er leer gemacht werden und dann kommt es zu Bytekotzen: Auf einmal wird in zwei Sekunden eine ganze Welle an Daten übertragen, die aber die Informationrn von sieben Sekunden enthalten (sehr plakativ ausgedrückt - für das Verständnis des Prinzips).

Der Empfangene hat nun zwei Möglichlichkeiten: Das Bytekotzen so annehmen? Das hat dann aber einen krassen Delay zur Folge - in diesem Fall sieben Sekunden. Nicht erstrebenswert. Nicht passende Pakete verwerfen? Kannst du machen, aber dann ist die Kommunikation auch stark gestört. Eine weitere Möglichkeit ist es, die Datenmenge in den passenden Timeframe zu pressen, um „die Vergangenheit“ aufzuholen, ohne „die Gegenwart“ erheblich zu beeinflussen.

Sprachcodecs sind sehr intelligent darin, Sprachpausen zu erkennen und diese zum Skippen von Puffern zu nutzen.
Aber manchmal klappt das eben nicht so gut.

Klingt bekloppt, aber wenn man es rein technisch betrachtet: Macht mehr Sprachpausen. Redet nicht minutenlang allein. Ist für den Hörer meist eh angenehmer zu hören.

P.S.: Gleiches gilt für lokale Aufnahmen.

1 „Gefällt mir“