Whisper und Multitrack

Hallo,

nachdem auf meinem Laptop die Win-UI-Version von Whisper nicht zum laufen zu bringen war, hatte ich die Konsolen-Version für Mac ausprobiert. Dort geht es jetzt. Als Ergebnis habe ich eine Datei mit dem komplett gesprochenen Text. Diesen kann ich auch in Podlove einbinden und damit im Webplayer ausspielen.

Wie bekomme ich nun eine Transkript-Datei mit mehreren Sprechern hin? Aus Ultraschall kann ich separate Tracks pro Sprecher exportieren und per Whisper Textdateien erstellen. Aber wie bekomme ich das Sprecher-Tag am Anfang jeder Zeile realisiert und wie werden aus zwei Textdateien eine?

Gruß
Andreas

macWhisper ist ne GUI für whisper, die auch mehrere Personen/tracks transkribieren kann

Danke für den Hinweis. Aber die interessanten Features scheinen in der kostenpflichtigen Version zu stecken, daher habe ich es bisher nicht ausprobiert. Da dies „nur“ ein Frontend für Whisper zu sein scheint, dachte ich, dass es auch so schon irgendwie gehen müsste.

Bei meinen Tests bin ich drauf gekommen, wie Whisper.cpp eine Aufsplittung nach Personen ermöglicht. Dies geht mit der Option -di. Dazu muss die Audiodatei in Stereo vorliegen. Getestet habe ich es, indem ich meine zwei Sprecher im Stereo-Setup links und rechts positioniert habe. Das Ergebnis ist schon ziemlich gut. In Podlove konnte ich dann diesen Output mit den zwei Sprechern des Podcasts verknüpfen.

Diese Methode scheint am schnellsten zu gehen. Aus Ultraschall müsste ich neben der fertigen MP3 noch eine Stereo-WAV-Datei für das Transkript exportieren, die WAV-Datei dann in Whisper werfen, per Texteditor nachbearbeiten und anschließend hochladen.

Wenn mehr Gäste oder Stimmen benötigt werden, würde ich wohl eher die Spuren einzeln exportieren und durch Whisper jagen. Die daraus entstandenen Einzeldateien könnten dann mit Onlinetools wie https://subtitletools.com/merge-subtitles-online in mehreren Durchläufen zu einer Gesamtdatei zusammengefügt werden. Im Vorfeld muss man dann sicher irgendwie den Sprecher-Tag in die jeweilige Datei bekommen, das lässt sich aber sicher über Suchen/Ersetzen machen.

1 „Gefällt mir“

Bei auphonic kannst du auch in einer Multitrack-Produktion Transkripte erzeugen lassen, das kostet aber auch Geld. Dafür geht es schneller.

3 „Gefällt mir“

Auphonic ist richtig stark, das stimmt. Nicht nur, was die Transskripte angeht. Wenn mein Podcast nicht so ein Popel-Hobby-Dingen wäre, dann würe ich wohl auch komplett auf Auphonic setzen. Zumal die Integration mit Podlove wohl auch sehr geschmeidig sein soll…

Nu ja. Das was derzeit an Auphonic-Transkripten für unseren Freakshow-Podcast rausfällt, finde ich nicht so berauschend. Praktisch kein Satz ohne Fehler, dazu sehr leicht vermeidbare wie zusammengezogene Wörter, kein Leerzeichen hinter Satzzeichen usw. - im A/B Vergleich spielte da mein lokales Whisper-Modell in einer komplett anderen Liga (Apple Silicon Variante, Large Model).

1 „Gefällt mir“

Ah, okay! Wie gesagt, ausprobiert hatte ich es noch nicht. Aber das klingt in der Tat eher semi…

kann ich so unterschreiben. meine lokale lösung ist um welten besser mit den large model v3 werden sogar wort fetzen erkannt. bei meoner rtx3060 vin ich bei 5 mal echtzeit das ist wirklich schnell für zuhause gelöst.

2 „Gefällt mir“

Praktisch kein Satz ohne Fehler, dazu sehr leicht vermeidbare wie zusammengezogene Wörter, kein Leerzeichen hinter Satzzeichen usw.

Hättest du vielleicht eine Beispiel Production (oder Ergebnis) für mich, wo unser Output diese Probleme hat? (gern via PM)

Ich kann das generell natürlich / bei anderen Usern nicht beobachten - insofern wären wir über konkretes Feedback dankbar, damit wir das fixen können!

1 „Gefällt mir“