Nachträgliche Transkription eines Podcast-Archivs

jstarke · 20. November 2024 um 15:27

Wenn ihr ein Archiv von rund 60 als MP3 vorliegende, deutschsprachige Podcast-Episoden mit mehreren Sprecher:innen transkribieren wolltet und idealerweise ein akzeptables Ergebnis mit Sprecher:innen-Unterscheidung braucht, ohne erneut eure Multitracks hervorkramen zu wollen … welchen Weg würdet ihr gehen?
Wichtig wäre mir möglichst geringer manueller Aufwand, also idealerweise die 60 MP3-Files reinziehen, entsprechend lange arbeiten lassen und am Ende in den 60 Textfile-Ergebnissen per Suchen+Ersetzen die Sprecher-IDs gegen Namen austauschen, fertig. Darf auch etwas Geld kosten, würde es vorher aber gerne testen.

auphonic · 21. November 2024 um 05:20

Hallo!

Wir bieten dir das natürlich gerne an, machen auch Sprecher Unterscheidung bei Singletrack Productions.
Für Details kannst du mich gerne persönlich anschreiben…

LG
Georg

jstarke · 21. November 2024 um 06:12

Danke, ich schau mir das mal an und melde mich ggf bei Dir!

dmi · 24. November 2024 um 16:34

Hallo Johannes,
Du könntest versuchen, es bei AWS Transcribe einzuwerfen. Da kannst Du im Prinzip Deine Audiodateien hochladen und im Batchbetrieb transkribieren lassen. Ich meine mich zu erinnern, dass ca. 1 Stunde Audio pro Monat kostenlos ist, so dass Du’s ausprobieren könntest.
Viele Grüße
Dieter

jstarke · 24. November 2024 um 20:22

Danke für den Tipp! Kollegen haben und nutzen da sogar ein Konto, die werde ich mal um einen Test bitten. Sieht vielversprechend aus!

svenbrier · 26. November 2024 um 18:55

Hallo Johannes, ich habe für mich selbst einmal ein Skript geschrieben, das meinen einfachen Ansprüchen genügt hat. Vielleicht wäre das auch etwas für dich?

jstarke · 28. November 2024 um 12:35

Sehr interessant, vielen lieben Dank, Sven!
Ich hab Whisper nur vor längerer Zeit mal lokal auf meinem Macbook Air M1 laufen lassen … und damals war es so langsam, dass ich fürs Archiv wahrscheinlicher lieber nicht das arme Macbook belaste … aber es wird Zeit für einen erneuten Test, und dabei werde ich Dein Script ausprobieren.

JanS · 28. November 2024 um 12:49

Ich hatte vor ca. einem Jahr whisper.cpp gewählt, um auf meinem mit nur 8 GB ausgestatteten Macbook Air auch das große Sprachmodell nutzen zu können. Damit brauchte das Konvertieren ca. 50% der Audiolänge.

jstarke · 28. November 2024 um 12:53

Das macht mir Hoffnung, Jan! Ich erinnere mich dunkel, dass ich damals für eine 20minütige Testdatei mehrere Stunden brauchte, erinere mich gerade aber nicht mehr, ob das whisper.cpp oder was anderes war … Ich werds am Wochenende ausprobieren.

friiyo · 29. November 2024 um 07:42

https://turboscribe.ai/de/ ist als Schnittstelle zu Whisper zu verstehen. Für 10 Euro im Monat kannst du da so viel transkribiert wie du willst. Mit allen Vorzügen, beispielsweise trennen der Stimmen.

jstarke · 30. November 2024 um 12:39

Während ich parallel gerade MacWhisper und Vibe teste, erscheint mir das als eine wirklich einfache und schnelle Lösung. Sehr gut! Vielen Dank, @friiyo !