Adobe Podcast Enhance: KI macht vollautomatischen Audio-Cleanup

Mangels passender Kategorie werfe ich das mal hier rein. Mods: Bitte gerne verschieben.

Ich habe im Sendegate noch keine Diskussionen darüber gesehen, deshalb hier ein paar Beispiele und mein Take.

Adobe arbeitet an einer Podcasting-Suite (vormals Project Shasta) und fährt eine geschlossene Beta (zu der ich keinen Zugang habe).

Vor Weihnachten hat Adobe einen ein Tool davon unter https://podcast.adobe.com/enhance öffentlich gemacht. Es handelt sich um ein KI-basiertes Enhance-Werkzeug, mit dem Sprache vollautomatisch von Artefakten befreit wird. Dazu gehören alle (!) Arten von Hintergrundgeräuschen, inklusive Hall durch zu großen Mikrofonabstand oder ungleichmäßig rumpelnde Schiffsmotoren.

Hier meine beiden Torture-Tests:

Beispiel 1: Gespräch auf einem Schiff mit einem Sprecher, der selbst im Original fast nicht im Schiffslärm zu hören ist.

Original:

Nach Enhancement:

Ich habe Mitte Dezember mit Erfahrung und mit allen möglichen Tools lange gebraucht, um dieses Audio auch nur halbwegs sendetauglich zu kriegen und es dann nur mit Bauchweh und schlechtem Sound veröffentlicht, weil der Content so gut war. Hier meine Version: https://curiouslypolar.com/media/cp164.mp3

Beispiel 2: Test-Aufnahme in unserer halligen Villaküche, iPhone liegt auf dem Tisch, extrem viel Raum, niedriges Signal.

Original:

Nach Enhancement:

Diese Beispiele sind bewusst extrem und natürlich würde ich dann in der Bearbeitung da, wo es der Atmosphäre hilft, noch was vom Original-Raum mit rein nehmen. Und selbstverständlich würde ich generell beim Aufnehmen mehr Sorgfalt walten lassen. Ich wollte hier nur demonstrieren, was die KI schaffen kann.

Mein Hot Take:

Die KI macht hier im Audio das, was wir in der Fotografie schon länger sehen. Skill und Equipment verlieren immer mehr an Bedeutung und werden durch Software ersetzt.

Wo im Audio bisher noch Equipment, Raum und jahrelange Erfahrung nötig waren, um in verschiedenen Situationen guten Sound zu bekommen, können ab jetzt quasi alle brauchbares Sprach-Audio erzeugen. Auch mit einfachen Mitteln.

Das wird letztendlich zu einer demokratisierung der Audioproduktionswelt führen, guter Content bekommt mehr Platz zum Atmen und Gear-Gatekeeper werden sich sehr bald eine neue Daseinsberechtigung suchen müssen.

In der Fotografie wurden die Smartphones lange belächelt, heute werden damit Fotopreise gewonnen. Werden wir im Audio das gleiche erleben?

Was meint ihr?

15 „Gefällt mir“

Ich finde es gut, wenn Gear seinen Stellenwert verliert. Meiner Meinung nach gibt es in jedem Medium zu viel Content, der nur Gear abfeiert. Belangsloses Gelaber im Heim-Radiostudio, 8k Videos aus Wuppertal, 69 Megapixel Fotos von einem Gänseblümchen. Gear-Verliebtheit (und der hohe Stellenwert von Fähigkeiten beim Umgang mit Gear) hat noch nie besseren Content gemacht, er sah nur auf den ersten Blick hübscher aus.

In der Fotografie gab es schon vor Jahrzehnten Preisträger, die mit Point and Shoot Kameras Preise gewonnen haben, einfach weil es nicht auf das Equipment ankommt, wenn man eine Idee umsetzen will. Wenn Gear so wichtig wäre, würden nur Großformatfotografien Beachtung finden, weil sie die meisten Auflösung haben. So ist es aber nicht.

Deswegen mache ich mir keine Sorgen, was den Zugang zu Audioqualität angeht. Sorgen habe ich nur, wenn Platzhirschen wie Adobe solche Technologie quasi monopolistisch anbieten können. Das Geschäftsmodell von Adobe finde ich eines der schlechtesten für Software-Ökosysteme und Nutzer:innen, und ein Killer-Podcast-Feature aus dem Hause Adobe macht mich jetzt nicht sonderlich froh.

Glücklicherweise gibt es ja Konkurrenz, Nvidia hat auch schon seit einem Jahr oder so eine extrem gute KI-Noise-Entfernung, die aber leider nur auf bestimmten Nvidia GPUs läuft. Wenn das den Weg auf beliebige CPUs findet, ist der Marktmacht von Adobe schon mal geringer.

Letztendlich wird es vermutlich auf mehrere Schulen hinauslaufen. Die einen rotzen was hin und reparieren es in post, so wie viele es schon bei Video und Foto machen, und die anderen machen den Aufwand vor der Aufnahme und sind schneller bei der Nachbearbeitung – eben so wie Leute auch heute noch mit in camera Settings fotografieren und nicht im Traum dran denken würden, mit der Healing Brush oder Content Aware Filling ihr Foto zu verschlimmbessern.

Ich selbst habe gerade das MV7X gekauft, anstatt das SM7B, weil es meiner Meinung nach weniger Aufmerksamkeit bei Sprachaufnahmen im EQ verlangt – weil das MV7X für Sprache optimiert ist. Ich werde also auch weiterhin lieber meine Technik so aufbauen, dass ich weniger bearbeiten muss, einfach weil ich so lieber arbeite. Am Ende werden unter Umständen meine Produktionen dennoch nicht von jemandem zu unterscheiden sein, der ein iPhone auf dem Tisch in der Küche und ein Abo von Adobe hat. Und das finde ich ok.

5 „Gefällt mir“

Schön gesagt!

Wenn Stable Diffusion ein Indikator ist, wird viel davon eh früher oder später eh in der Open Source landen. Alles, was die mächtigen Konzerne wie Adobe etwas zurecht stutzt, ist aus meiner Sicht erst mal gut.

Wir stehen bei KI am Anfang einer Entwicklung. Was heute noch auf Servern laufen muss, wird irgendwann (schneller als wir glauben) in den Devices landen. Auch hier ist Stable Diffusion ein Indikator, das läuft bereits seit einem Monat nativ auf meinem Fon.

Analog zur computational photography, die auch immer mehr direkt in Kameras stattfindet, wird in nicht all zu ferner Zukunft Firma X dann mit einem kleinen Handheld-Recorder auf den Markt kommen, der das eingebaut hat und bei dem fast immer was brauchbares rausfällt. Vielleicht (vermutlich) läuft das dann sogar auf der Smartwatch. Wer möchte, bekommt dann halt das „Audio-RAW“ und das „Audio-JPG“ (Zitat @nahlinse) aus der Maschine und darf dann gerne noch basteln :slight_smile:

Noch eine Anmerkung zum MV7X: dessen größeres Geschwister MV7 hat eine Processing-Engine an Bord und wirft per USB bereits komprimiertes Audio raus. Wenn die Leute bei Shure schlau sind, arbeiten sie jetzt schon am MV7KI.

Ich hab auch noch einen Nachtrag zu Adobe KI: die haben auch ein Mikrofon Test Tool. Und das finde ich viel viel spannender.

Leider hinter einem Adobe Login, aber sonst kostenlos. Ohne Login Pflicht würde ich das jedem Gast vor dem Gespräch zuschicken, damit die ihr Mikro einstellen können, bevor ich mit ihnen telefoniere. Ich habe auch mal absichtlich schlechte Situationen geschaffen und das Tool weist auf die richtigen Schritte hin, um den Klang zu verbessern.

Und zum MV7: hatte ich mir auch überlegt, aber der XLR-Ausgang vom MV7 ist schlechter als der vom MV7X, und da ich über ein Interface aufzeichne, war das der ausschlaggebende Punkt. Und internes Processing schalte ich fast überall immer ab, weil ich immer Angst vor einer kaputten Aufnahme durch übereifrige Software habe, die ich nicht kontrolliere – auch wenn ich finde, dass ein guter Kompressor o.ä. während der Aufnahme viel Arbeit nach der Aufnahme sparen kann.

1 „Gefällt mir“

Ein paar der Menschen mit denen ich schon länger und regelmäßig remote aufnehme haben brauchbares Equipment aber zero Mikrofondisziplin. Da hilft der pre-flight Mic Check leider gar nichts. Und selbst wenn das eine Live-Analyse auf dem Bildschirm wäre, würden sie’s halt ignorieren. Was hab ich mir schon den Mund fusselig geredet. Am Ende läuft es immer auf eine Kombi aus Gates und Kompressoren und Izotope-Enhancern auf meiner Seite raus, damit das Ergebnis meinen Ansprüchen genügt. Ich würde was drum geben, diese KI einfach als Plugin auf die Spur werfen zu können.

Das Playbook von Adobe ist aus meiner Sicht übrigens ziemlich durchsichtig (und ich glaube auch schon teils kommuniziert): Die Podcast-Produktions-Suite in der Cloud, per Abo. Inklusive Remote-Aufnahme, Produktion im Browser, Transkription und transkriptions-basierter Audiobearbeitung (bye bye Descript), one-Klick-Audio-Cleanup und vermutlich auch Hosting in der eigenen Cloud. Kundenbindung schaffen durch maximale Convenience und Features, die es nirgendwo anders gibt. Und dafür Abo-Geld einsammeln.

Glücklicherweise sind Teile davon von anderer Stelle schon in der Open Source. Beispiel: Whisper von OpenAI macht die derzeit beste Transkription. Da wird sicher noch mehr kommen und jemand™ wird das dann hoffentlich soweit integrieren, dass das den big corporations was entgegen setzt.

4 „Gefällt mir“

Hammer! Vielen Dank für den krassen Tipp!

Konkurrenz gibt’s ja durchaus:

1 „Gefällt mir“

Die Beispiele sind ziemlich Hammer. Kann man das kostenlos benutzen oder kostet das was derzeit?
Hab noch eine Aufnahme, die noch katastrophaler klingt als Deine Beispiele und ich deswegen nie versendet habe. Da würde ich gern sehen, ob die KI da was retten kann.

Ich sehe es auch so, ein Plugin, das mit dem Learned-Datenmodell ausgeliefert würde, wäre der Hammer.

Wird bei Adobe aber erstmal auf ne andere Art von Gatekeeping hinaus laufen…aber

Edit:
Ich frage mich, ob KI irgendwann die Königsdisziplin Schnitt auch hinbekommen könnte.
Vershownotung sollte ja bereits machbar sein, Verkapitelung bis zum gewissen Grad auch…

1 „Gefällt mir“

Also ich habe mal zum Test verhunzte Audios hingepackt und es ist nicht nur so, dass das Rauschen weg ist - ich finde deren EQ und Kompressor auch sehr geil!

1 „Gefällt mir“

woowwwww!!!

Danke für die tolle Vorstellung hier im Sendegate :slight_smile:
Freue mich sehr das auszuprobieren.

Zum Adobe-Thema: Stimme @Joram (wie meistens :slight_smile: ) wärmstens zu, sehe das aber auch so: Ich muss diese elende dr***scloud (weil leider immer noch in mind. 50% der Medienproduktion Industriestandard) eh abonnieren; Jetzt ist mal wieder was dabei was ich auch wirklich gerne benutzen mag und wo ich mein Geld ein bisschen lieber für ausgebe.

Freue mich auf podcasts.adobe!

1 „Gefällt mir“

Ich habe das mal getestet. Ich hatte einen Telefonanrufer in der Sendung mit wirklich scheußlicher Qualität. Rauschen, leise, viel Dynamik usw. - Genau das Richtige für ein Experiment.

Adobe war hier deutlich schlechter als meine eigenen Optimierungen:

  • Hintergrundgeräusche und Rauschen sind weg
  • Die erste und letzte Halb-Silbe jedes Satzes aber auch
  • Klingt abgehackt
  • Die Stimme würde ich nicht wiedererkennen - Sie klingt nun sehr roboterartig

Der AMP-Workflow in Ultraschall mit ein paar Optimierungen von Hand hat in diesem Fall eindeutig gewonnen.

Ein Audiobeispiel kann ich in diesem Fall leider nicht posten, werde aber weiter ausprobieren und ggf. mal Beispiele bringen.

Wunder vollbringt das Teil in diesem Fall jedenfalls nicht.
Ich muss noch herausfinden, in welchen Fällen das Ding gut ist.

Das vollständige Entfernen jeglicher Atmo finde ich allerdings auch schwierig.

1 „Gefällt mir“

Da wo ich’s bisher genutzt habe, mische ich meist Original und Enhanced. Das bringt dosierbar die Raum-Atmo zurück während es trotzdem die Sprachverständlichkeit erhöht.

3 „Gefällt mir“

@chrismarquardt teste jetzt schon länger verschiedene Transkriptions-Anbieter, zuerst Trint, dann Sonix, zuletzt HappyScribe (Human Made) - und freu mich über deinen Hinweis, den ich demnächst auch mal ausprobieren will

Die Beispiele sind wirklich beeindruckend. Ich habe gestern eine Podcast-Folge aufgenommen und unser Gast hatte ein relativ bescheidenes Setup. Das Mikrofon hat gerauscht und ist auch regelmäßig an seine Kleidung gekommen. Ich dachte mir, dass das ja ein perfektes Setting wäre für die KI von Adobe und muss sagen, dass das Ergebnis relativ enttäuschend war. Ja, in manchen Phasen klang es enorm gut, aber manchmal wurde die Stimme so extrem verfremdet, dass es komplett unbrauchbar war. Da hatte ich mit Izotope dann deutlich bessere Ergebnisse. Beim klackernden Mikrofon muss ich nochmal schauen, wie ich das mache. Das kam erst später in der Episode durch und so weit bin ich noch nicht mit meiner Bearbeitung.
Podcast Enhance scheint also manches wirklich gut zu können, aber leider muss man das Ergebnis komplett durchhören, um zu überprüfen, ob nicht zwischendurch Dinge schiefgegangen sind, da die Varianz zu groß ist im Laufe der Bearbeitung.

2 „Gefällt mir“

Du kannst gerne auch mal unseren neuen Advanced Denoiser versuchen, der sollte für deinen Use Case auch passen:

(schick mir gerne deinen Account Namen, dann schalte ich dir die Beta frei)

4 „Gefällt mir“

Sehr interessant, danke für den Link. Wundere mich schon länger, dass es noch nicht so viele Services dieser Art gibt. Denn in diesem Fall ist es im Gegensatz zu vielen anderen sehr leicht, Trainingsdaten zu erzeugen:

  • Man sammelt eine grosse Menge guter Audiodaten (es gibt viele gut klingende Podcasts beispielsweise :smile:)
  • Man spielt die in unterschiedlichen Raumsituationen, mit Störgeräuschen etc ab
  • Man hat einen Haufen „schlechtes Audio“ vs „gutes Audio“ Trainingsbeispiele
  • Jetzt braucht man nur noch eine Metrik, um den Abstand zwischen gut und schlecht zu ermitteln für die Verlustfunktion und ein Model, dass das prinzipiell lernen kann

Klingt alles machbar.