Es gibt zwei Mechanismen, wie man Netzwerkaussetzer oder -latenzen kompensieren kann.
Entweder die Pakete, die aufgrund einer Netzwerkunterbrechung oder einem größeren Lag nicht exakt „jetzt“ zugestellt werden können, werden verworfen.
Das sorgt für 100% live, aber eben auch dafür, dass es bei einem kleinsten Hickup sofort zu Verlusten und somit Sprachaussetzern kommt.
Oder du pufferst Pakete, die gerade nicht just in time übertragen werden können, zwischen. So bleibt die Verbindung konstant und Sprachpakete gehen nicht verloren.
Blöd ist dann, wenn der Zwischenspeicher recht voll ist und dann die Verbindung wieder gut wird und der gesamte Puffer leer gemacht werden muss - so schnell wie möglich, denn das Gegenüber redet ja weiter.
Da die Balance zu finden, ist eine große Kunst.
Und wenn das Gegenüber redet und redet und redet und redet, dann hat auch der beste Codec und Buffer keine Möglichkeit, alles Zwischengespeicherte irgendwie in Momenten ohne Sprache abzuspulen, sodass es nicht auffällt.
Wenn der Buffer voll ist, muss er leer gemacht werden und dann kommt es zu Bytekotzen: Auf einmal wird in zwei Sekunden eine ganze Welle an Daten übertragen, die aber die Informationrn von sieben Sekunden enthalten (sehr plakativ ausgedrückt - für das Verständnis des Prinzips).
Der Empfangene hat nun zwei Möglichlichkeiten: Das Bytekotzen so annehmen? Das hat dann aber einen krassen Delay zur Folge - in diesem Fall sieben Sekunden. Nicht erstrebenswert. Nicht passende Pakete verwerfen? Kannst du machen, aber dann ist die Kommunikation auch stark gestört. Eine weitere Möglichkeit ist es, die Datenmenge in den passenden Timeframe zu pressen, um „die Vergangenheit“ aufzuholen, ohne „die Gegenwart“ erheblich zu beeinflussen.
Sprachcodecs sind sehr intelligent darin, Sprachpausen zu erkennen und diese zum Skippen von Puffern zu nutzen.
Aber manchmal klappt das eben nicht so gut.
Klingt bekloppt, aber wenn man es rein technisch betrachtet: Macht mehr Sprachpausen. Redet nicht minutenlang allein. Ist für den Hörer meist eh angenehmer zu hören.
P.S.: Gleiches gilt für lokale Aufnahmen.