Manuelle Transkription – Welche Software ist die beste?

Joram · 23. Mai 2023 um 08:23

Ich möchte einige Audios von Hand transkribieren – aus Gründen will ich sie nicht auf Server laden, um sie automatisch transkribieren zu lassen. Jetzt suche ich eine Weile nach einer Software, die das etwas weniger schmerzhaft macht und hoffe da auf Hilfe.

Was ich brauche, ist ein Texteditor, in dem ich eine Audiodatei (verlangsamt) abspielen kann und per Hotkey 15 sek (oder einen anderen Wert) zurück springen kann. Im Moment nutze ich Word (oder einen anderen Editor) und VLC, muss aber immer den Fokus der App wechseln, damit ich entweder tippen oder Playback kontrollieren kann. Das nervt und ist fehleranfällig.

Ich habe auch schon versucht, VLC per Streamdeck zu steuern, kann da aber nur Skip forward/backward machen und nicht X Sekunden im Audio springen, weil die Schnittstelle von VLC über diesen Kanal nur rudimentäre Features zulässt.

Da Google voller SEO-Müll ist und automatische Transkription alle Posts dazu dominiert, hoffe ich, dass jemand hier mein Problem schon mal in der Vergangenheit gelöst hat. Eigentlich will ich ja nix kompliziertes, finde jedoch keine simple Lösung.

MarcusAnhaeuser · 23. Mai 2023 um 08:28

Das soll eine bewährte Software sein: https://www.audiotranskription.de/f4transkript/

Falls du Scrivener hast, das sollte das auch mit dem Zurückspringen können, und du bleibst in der App.

Ansonsten: Das neue Hindenburg Pro 2 bietet automatische Transkription in der App, ohne externe Server.

Joram · 23. Mai 2023 um 09:05

Scrivener war ein guter Tipp, da hab ich noch ne alte Lizenz rumfliegen (f4transkript kostet 50 Euro für 6 Monate oder 150 Euro unbegrenzt, was mir ein bisschen zu viel für so eine minimale Aufgabe ist).

Ich finde Scrivener ist zwar das Gegenteil von einem simplen Editor, aber für Transkription hat es die Schlüsselfeatures mit den Hotkeys. Nur langsamer abspielen geht nicht. Danke!

MarcusAnhaeuser · 23. Mai 2023 um 09:23

da meine beta von Hindenburg noch funktioniert, könnte ich dir deinen Text auch transkribieren lassen,

Joram · 23. Mai 2023 um 09:24

Danke, aber ich glaube das lohnt den Koordinationsaufwand nicht. Ich habe mich mal zur beta angemeldet, mal sehen, ob ich da nen Download bekomme

MarcusAnhaeuser · 23. Mai 2023 um 09:27

Viel Glück.

tomtjes · 24. Mai 2023 um 01:32

Lokal transkribieren geht auch mit

Unabhängig davon habe ich in den letzten Tagen an einer Reaper-Schnittstelle für die Notizapp Drafts gearbeitet. Die Reaper actions sind darauf ausgelegt, auch mit der nicht-Pro-Version von Drafts zu funktionieren.

Die von dir benötigten Buttons sollten sich leicht integrieren lassen.

Dazu habe ich auch Transcription actions gebaut und eine Transcript syntax, beides auf obiger Seite verlinkt.

Screenshot 2023-05-23 at 21.37.25

Wenn du noch einen Mac mit Touch Bar hast (RIP), kannst du die Button-Leiste, die du unten im Screenshot siehst, auch auf die Touch Bar legen.

ch_we · 24. Mai 2023 um 14:25

Express Scribe ist für private Projekte kostenlos, die Lizenz ist mit knapp 50 Euro auch noch bezahlbar

Transkriptionssoftware auf deutsch, Transkribieren mit Fußschalter. PC/Mac (nch.com.au)

Mespotine · 24. Mai 2023 um 18:39

Danke für die vielen Tipps, das hat mich nämlich auch interessiert

tomkalei · 30. Mai 2023 um 07:11

MacWhisper ist nur ein (ich finde sinnloses) Frontend für OpenAI Whisper. Mit Whisper habe ich hervorragende Erfahrungen gemacht. Die Transkripte auf eigenpod.de sind damit erstellt. Auf dem Mac kann man sich dieses open source tool einfach (via homebrew) mit

brew install openai-whisper

Installieren und es funktioniert unglaublich gut. Einfach mit sowas wie

whisper Podcast.mp3 --model large --language German

aufrufen und es kommen text und .vtt Datei heraus.

Da das ganze lokal läuft braucht es aber recht lange. Das „large“ Modell ist sehr gut, erkennt Fachbegriffe, hat perfekte Kommasetzung usw. Es braucht aber auf meinem M2-Macbook-Pro ungefähr die 15-20 fache Zeit (im Vergleich zur Laufzeit des mp3).

Wenn man auphonic als zahlender Kunde benutzt, kann man das gleich mitlaufen lassen und da dauert es weniger als Echtzeit. Auphonic hat sowieso deine mp3 Datei und schickt das auch nicht an OpenAI oder so, sondern lässt einfach bei denen lokal laufen (so die Versprechung).

Joram · 30. Mai 2023 um 08:35

Top-Tipp! Danke! Ich hab mit MacWhisper und dem small Modell auch schon sehr gute Erfahrungen gemacht und für meine Zwecke reicht das vollkommen. Das ist etwas schneller als Echtzeit. Aber ich werde mal die command line ausprobieren.

Auphonic nutze ich auch, aber erst am Ende, ich brauche die Transkripte am Anfang der Produktion, um O-Töne zu sichten, sortieren und dann auszuwählen, dh ich würde viele Credits verballern, wovon das meiste nicht benötigt wird. Zum Schluss nutze ich aber Auphonic und freue mich über das Super Ergebnis mit den verschiedenen Spuren in der Transkription.

Hottinho · 31. Mai 2023 um 11:32

Sehr guter Tipp mit Whisper, dem ich mich anschließen möchte.

Für die Transkription von geschnittenen O-Tönen habe ich auch schon mit dem Standardmodell gute Erfahrungen gemacht.

Es gibt wohl mittlerweile eine Portierung, die das ganze Modell mit Grafikkartenunterstützung und komplett in C/C++ umsetzt und dabei wohl bedeutend schneller ist als die Python-Variante. Ich blicke da noch nicht ganz durch, weils mir bissl zu „hacky“ ist noch und ich mich einarbeiten und durchprobieren müsste. Aber wenn jemand damit Erfahrungen gesammelt hat oder ein verständliches Tutorial hat (oder erstellen will): Ich würd mich drüber freuen.

Hier der Link zu dem Port:

EDIT: Hier gibt’s anscheinend ne GUI für Win User. Werde das demnächst selbst mal probieren:

Raumwelle · 31. Mai 2023 um 21:07

Hey, vielen Dank, das hat mir sehr geholfen und die Ergebnisse sind ja um einiges besser als beim audapolis.

Ich habe mir jetzt lange V2 Model besorgt und bin richtig begeistert. Danke für das Windows GUI teil.

jasowies_o · 3. Juni 2023 um 10:07

Hi!
Zum Abtippen von Audio nutze ich am liebsten o:transcribe, das ist browserbasiert, aber lädt nix irgendwo hoch. Es hat praktische Hotkeys für Stopp/Weiter, Timestamps etc, vielleicht ist das ja für deinen Fall hilfreich?

mh120480 · 4. Juni 2023 um 10:15

ich habe letztens eine transkription mit whisper durchgeführt und die meiste arbeit, die ich dann hatte, war, dass ich die zeitstempel raunehmen musste. (ka ob man das irgendwo einstellen/wegstellen kann @auphonic (unterteilt nach sprechern wäre ideal).

kurz gesagt: selbst mit dialekt bei einem sprecher, war das so dermaßen zeitsparend ggü. anderer software… da würde ich nicht mehr dahinter zurück.

Joram · 4. Juni 2023 um 13:19

Mal ne Zusammenfassung von mir: lokale Whisper Installation schlägt alles. Egal ob GUI mit macWhisper oder einfach in der Kommandozeile. Crazy gut, selbst mit dem kleinen Sprachmodell, mit wechselnden Sprachen und undeutlicher Aussprache. Danke für die vielen Tipps!

tomkalei · 4. Juni 2023 um 21:18

Ich habe mal whisper.cpp ausprobiert und das ist tatsächlich noch mal um einiges schneller, selbst auf der CPU (die CoreML Unterstützung habe ich noch nicht hinbekommen).

Die Installation und Kompilation für CPU läuft einfach, wie auf github beschrieben. Anscheinend nimmt das Ding nur .wav Dateien mit 16kHz, also erstmal

ffmpeg -i meine.mp3 -ar 16000 test.wav

und dann das large model genutzt (was ja auch Deutsch automatisch erkennen kann usw.)

./main -m models/ggml-large.bin -l auto test.wav

Wenn ich das richtig sehe, nutzt das nur so 4 Threads und läuft trotzdem in einem Bruchteil der Laufzeit des Audios (vielleicht 1⁄4 auf dem M2-Max)

@rstockm hat am Wochenende scheinbar auch angekündigt, dass das in einer neuen Ultraschallversion dann mitläuft und man das Transkript zum Schneiden nutzen kann.

Mespotine · 4. Juni 2023 um 23:02

Dafür ist aber noch viel zu forschen, also bitte noch nicht als Ankündigung sehen…

MarcusAnhaeuser · 5. Juni 2023 um 14:28

Ich teste gerade MacWhisper. Da lädt man das Language Model ja auf den Computer. Bedeutet das auch, dass nichts zu OpenAI rübergespielt wird und alles auf meinem MacBook erarbeitet wird?

Raumwelle · 5. Juni 2023 um 19:48

Richtig, da bleibt alles bei dir und dein Rechner erledigt die Arbeit.