Whisper und Multitrack

gNNY · 8. Februar 2024 um 08:45

Hallo,

nachdem auf meinem Laptop die Win-UI-Version von Whisper nicht zum laufen zu bringen war, hatte ich die Konsolen-Version für Mac ausprobiert. Dort geht es jetzt. Als Ergebnis habe ich eine Datei mit dem komplett gesprochenen Text. Diesen kann ich auch in Podlove einbinden und damit im Webplayer ausspielen.

Wie bekomme ich nun eine Transkript-Datei mit mehreren Sprechern hin? Aus Ultraschall kann ich separate Tracks pro Sprecher exportieren und per Whisper Textdateien erstellen. Aber wie bekomme ich das Sprecher-Tag am Anfang jeder Zeile realisiert und wie werden aus zwei Textdateien eine?

Gruß
Andreas

Joram · 8. Februar 2024 um 12:04

macWhisper ist ne GUI für whisper, die auch mehrere Personen/tracks transkribieren kann

gNNY · 8. Februar 2024 um 22:55

Danke für den Hinweis. Aber die interessanten Features scheinen in der kostenpflichtigen Version zu stecken, daher habe ich es bisher nicht ausprobiert. Da dies „nur“ ein Frontend für Whisper zu sein scheint, dachte ich, dass es auch so schon irgendwie gehen müsste.

Bei meinen Tests bin ich drauf gekommen, wie Whisper.cpp eine Aufsplittung nach Personen ermöglicht. Dies geht mit der Option -di. Dazu muss die Audiodatei in Stereo vorliegen. Getestet habe ich es, indem ich meine zwei Sprecher im Stereo-Setup links und rechts positioniert habe. Das Ergebnis ist schon ziemlich gut. In Podlove konnte ich dann diesen Output mit den zwei Sprechern des Podcasts verknüpfen.

Diese Methode scheint am schnellsten zu gehen. Aus Ultraschall müsste ich neben der fertigen MP3 noch eine Stereo-WAV-Datei für das Transkript exportieren, die WAV-Datei dann in Whisper werfen, per Texteditor nachbearbeiten und anschließend hochladen.

Wenn mehr Gäste oder Stimmen benötigt werden, würde ich wohl eher die Spuren einzeln exportieren und durch Whisper jagen. Die daraus entstandenen Einzeldateien könnten dann mit Onlinetools wie https://subtitletools.com/merge-subtitles-online in mehreren Durchläufen zu einer Gesamtdatei zusammengefügt werden. Im Vorfeld muss man dann sicher irgendwie den Sprecher-Tag in die jeweilige Datei bekommen, das lässt sich aber sicher über Suchen/Ersetzen machen.

Joram · 9. Februar 2024 um 08:15

Bei auphonic kannst du auch in einer Multitrack-Produktion Transkripte erzeugen lassen, das kostet aber auch Geld. Dafür geht es schneller.

gNNY · 10. Februar 2024 um 20:15

Auphonic ist richtig stark, das stimmt. Nicht nur, was die Transskripte angeht. Wenn mein Podcast nicht so ein Popel-Hobby-Dingen wäre, dann würe ich wohl auch komplett auf Auphonic setzen. Zumal die Integration mit Podlove wohl auch sehr geschmeidig sein soll…

rstockm · 11. Februar 2024 um 13:29

Nu ja. Das was derzeit an Auphonic-Transkripten für unseren Freakshow-Podcast rausfällt, finde ich nicht so berauschend. Praktisch kein Satz ohne Fehler, dazu sehr leicht vermeidbare wie zusammengezogene Wörter, kein Leerzeichen hinter Satzzeichen usw. - im A/B Vergleich spielte da mein lokales Whisper-Modell in einer komplett anderen Liga (Apple Silicon Variante, Large Model).

gNNY · 11. Februar 2024 um 15:03

Ah, okay! Wie gesagt, ausprobiert hatte ich es noch nicht. Aber das klingt in der Tat eher semi…

Raumwelle · 11. Februar 2024 um 22:44

kann ich so unterschreiben. meine lokale lösung ist um welten besser mit den large model v3 werden sogar wort fetzen erkannt. bei meoner rtx3060 vin ich bei 5 mal echtzeit das ist wirklich schnell für zuhause gelöst.

auphonic · 12. Februar 2024 um 08:36

Praktisch kein Satz ohne Fehler, dazu sehr leicht vermeidbare wie zusammengezogene Wörter, kein Leerzeichen hinter Satzzeichen usw.

Hättest du vielleicht eine Beispiel Production (oder Ergebnis) für mich, wo unser Output diese Probleme hat? (gern via PM)

Ich kann das generell natürlich / bei anderen Usern nicht beobachten - insofern wären wir über konkretes Feedback dankbar, damit wir das fixen können!

Lui_jon · 13. März 2024 um 20:55

Um eine Transkript-Datei mit mehreren Sprechern zu erstellen und die separate Audio-Tracks mit den entsprechenden Texten zu synchronisieren, können Sie folgende Schritte durchführen:

Exportieren Sie die Texte aus Ultraschall: Exportieren Sie die Texte für jeden Sprecher separat aus Ultraschall. Stellen Sie sicher, dass jede Zeile mit dem Namen des Sprechers beginnt, gefolgt von einem Doppelpunkt oder einem ähnlichen Trennzeichen.
Kombinieren Sie die Textdateien: Verwenden Sie ein Textbearbeitungsprogramm oder eine Skriptsprache wie Python, um die separaten Textdateien zu kombinieren. Fügen Sie einfach die Inhalte der einzelnen Dateien zusammen, wobei Sie sicherstellen, dass jede Zeile den entsprechenden Sprecher kennzeichnet.
Formatieren Sie das Transkript: Stellen Sie sicher, dass das Transkript korrekt formatiert ist, damit es später leicht zu lesen und zu verwenden ist. Verwenden Sie beispielsweise eine klare und konsistente Formatierung für Sprecher-Tags und Sprecher-Namen.
Synchronisieren Sie das Transkript mit der Audio: Verwenden Sie eine Podcast-Plattform oder Software wie Podlove, um das Transkript mit der Audio-Datei zu synchronisieren. Laden Sie das Transkript hoch und verwenden Sie die entsprechenden Funktionen, um die Zeitstempel für jeden Sprecher anzugeben.
Testen Sie das Transkript im Webplayer: Stellen Sie sicher, dass das Transkript ordnungsgemäß im Webplayer angezeigt wird und dass die Zuhörer problemlos zwischen den Sprechern wechseln können.

Indem Sie diese Schritte befolgen, sollten Sie in der Lage sein, ein Transkript mit mehreren Sprechern zu erstellen und es erfolgreich mit Ihrer Audio-Datei zu synchronisieren.

Mespotine · 13. März 2024 um 21:12

So wie ich es verstanden habe, ist genau dieser Schritt ja gerade die Herausforderung.
Im besten Fall will man gleich eine kombinierte Version der Textdateien aus Whisper rausbekommen oder braucht ne automatisierte Möglichkeit die einzelnen Textdateien zu kombinieren.
Klar kann man da was mit Python bauen, aber das ist leider nicht geeignet für Leute die nicht programmieren können oder an RegEx zum parsen der Files scheitern.

Da müsste wer mal was bauen.
Ich kann nur leider kein Python und mein Rechner ist zu schwach für Whisper, sonst könnte ich da mal was bauen.

gNNY · 14. März 2024 um 06:09

Das ist doch eine Antwort aus einem KI-Bot, oder?

Mespotine · 14. März 2024 um 08:34

Ich befürchte fast, ja…

MarcusAnhaeuser · 14. März 2024 um 10:18

Die Funktion mit verschiedenen Sprechern bei MacWhisper ist noch in der beta. ich habe sie zweimal ausprobiert und irgendwie gabs immer Probleme, entweder weil’ nicht synchron war oder weil der Name des Sprechers nach jedem Satz eingefügt wurde. kann aber auch an mir liegen, dass ich irgendwas noch falsch mache. Easypeasy ist es leider noch nicht.

gNNY · 14. März 2024 um 11:41

Wenn ich nur zwei Sprecher habe und diese im Stereo auf links und rechts verteile, habe ich ganz gut Erfahrungen gemacht. Ich nutze nicht MacWhisper, sondern lasse es via Kommandozeile auf dem Mac bearbeiten.

Lui_jon · 23. April 2024 um 10:22

Indem Sie diese Schritte befolgen, sollten Sie in der Lage sein, ein Transkript mit mehreren Sprechern zu erstellen und es erfolgreich mit Ihrer Audio-Datei zu synchronisieren.

vertikalspezial · 11. September 2024 um 22:34

Für die Linuxfreunde hier eine Anleitung für Whisper am Beispiel einer Debian-like Distro. Klappt out of the box:

mynoxin · 22. September 2024 um 19:08

Same here. Bin da echt enttäischt, würde das nicht mal mehr beta nennen.