Adobe VoCo: Audio via Texteditor bearbeiten

Vielleicht haben es einige schon mitbekommen. Adobe bastelt an einem Tool, das angeblich Audio per Texteditor bearbeiten können soll. Gefüttert mit einem 20minütgen Sprachsample soll man damit zukünftig sogar Worte im Klang der Stimme des O-Ton-Gebers generieren können. In der kurzen Demo wird VoCo als Photoshop für Audio beworben.

Was man im Video sieht ist erstmal nichts weltbewegendes, da unklar bleibt ob die hinzugefügten Worte tatsächlich synthetisch erzeugt wurden (was ich bezweifle) oder nur aus dem vorhandenen Original aus einer anderen Stelle kopiert und hineingeschnitten wurden. Letztendlich geht genau das schon mit Timecode-basierten Transkripten.

Wäre das nicht auch was für @auphonic und Ultraschall? Transkripte, Editor und Sprachsamples sollten doch vorhanden sein? Überhaupt würde mich da mal eine Experteneinschätzung interessieren, ab wann so ein Tool realistisch und in eine nutzbare Form gegossen wäre (d.h. die generierte Sprache nicht mehr vom Original zu unterscheiden und tatsächlich eine Bearbeitung auf Textebene möglich wäre).

Hier mal ein interessantes Experiment, indem ein KI-System mit 10 Minuten Sprache gefüttert wird und nach 29 Stunden und 74000 “Lerndurchgängen” ziemlich nah am Original ist.

2 Like

Ich hätte da ein paar ethische Fragen, wenn die eingefügten Wörter wirklich von VoCo erzeugt werden, wie es die Demo impliziert. Hatte ich schon gestern ins Blog geschrieben, deshalb hier nur der Link: http://www.meine-url-ist-laenger-als-deine.de/?p=29250.

5 Like

Ich würde mal sagen sobald es jemand gut umsetzt :wink:
Es gibt ja schon lang und verschiedenste Ansätze in diese Richtung … in Verbindung mit einer einigermaßen akzeptablen Spracherkennung und genug Audiodaten sollte man alle Bausteine dafür haben!

LG
Georg

1 Like

Da hast du naturlich recht. Aber diese Frage ist doch schon seit der Digitalisierung relevant und Teil des Mediendiskurses. Manipulation durch Audioschnitte ist schon seit Jahrzehnten möglich. Mit VoCo wird es leichter. Ich finde es viel spannender, dass mit so einem Werkzeug jeder zum professionellen Erzähler wird. Die ethischen Fragen werden natürlich immer bleiben. Journ. Verifikationsverfahren und digitale Forensik werden sicherlich wichtiger werden.

Naja… In der Realität eingesetzt wirken Spracherkennung und Sprachsynthese immernoch so als dauert es noch min. 10 Jahre bis die Ergebnisse wirklich überzeugend sind. (Sprecherunabhängig, mit Nebengeräuschen, Dialekte, Mehrsprachigkeit). :wink:

Am Ende können wir uns die Aufnahme gleich sparen und unserer Podcasts schreiben. :sweat_smile:
Coole Demo, wenn auch etwas gruselig: Die Welt ist voller Krimineller. Die werden das hübsch missbrauchen.

Den Gedanken hatte ich auch gerade. :smiley: Oder einfach einen Bot als Sidekick in die Show holen …

Das ist es ja, wir werden uns im journalistischen Kontext absehbar nur noch auf selbst eingeholtes Material verlassen können. Das kann man in Prinzip auf die Podcastebene herunterbrechen: “Hier mein Skript für einen Audiokommentar, kannst Du das schnell durch Dein VoCo jagen? Aber treib nicht zu viel Schindluder damit.”

1 Like

Wer mag: Hier gibt es eine spannende Umfrage zu VoCo im Radio. Schon die Fragestellungen regen sehr zum Nachdenken an. http://www.radio-machen.de/2016/11/13/wieviel-audio-technik-darf-sein-eine-umfrage/

Hier noch ein fruchtbarer Einwurf aus Markt und Medien vom DLF.