Ich hab gestern zum ersten Mal ein bisschen mit der Whisper Speech Recognition herumgespielt.
Ergebis war sehr gut, bin begeistert von den Untertiteln und wie gut der Text „erkannt“ wurde. Allerdings frage ich mich, wie ich einstellen kann, dass ich das noch den 3 Sprechern zugeordnet bekomme als Dialog? Müsste ja gehen, hab das was vom Multitrack Algorithmus gelese, oder?
Ich gehe wie folgt vor:
Schneide mit Hindernburg meinen Cast (3 Sprecher-Spuren + Intor/Outro Spur), lade das dann direkt zu Auphonic hoch (über den Hindeburg Upload), hab da eben Whisper ASR eingestellt und ab in die Post-Production.
Ich finde aber nirgends die Option dazu Sprecher zu benennen oder halt entsprechend Multitrack zu transkripieren. Geht das denn? Und wenn ja, wie wo was?
Oder muss ich Speechmatic nutzen? (Von Google und Amazon bin abgneigt)
Ja, um die Sprecher zu sehen müsstest du Multitrack verwenden. Hindenburg hat leider keinen Multitrack Export nach Auphonic, deshalb ist folgendes notwendig:
export der 3 Tracks als z.B. flac file (d.h. jeder track ist ein Audiofile)