Automatische Audiotranskription

Hallo zusammen,

ich habe schon etwas im Forum und auf Google gestöbert. Ich nutze den Podlove Podcast Publisher und suche nach einem automatischen Transskriptionsservice.
Ich habe schon gelesen, dass Podigee etwas anbietet, aber das gibt es scheinbar nicht standalone, was uninteressant ist.

Ich habe bereits Trint ausprobiert und die Qualität war eher bescheiden. Happyscrib.co war OK soweit. Kennt jemand noch andere automatische Audiotransskriptionstools, das gut funktionieren?

Moin.

Auphonic hat drei entsprechende Services im Angebot, durch die Du Dein Audio laufen lassen kannst. Die Qualität ist eher so mittel, was die Beta-Transskripte im Sendegarten zeigen. Die haben dort seit Episode 80 keine Transskripte mehr eingebunden, keine Ahnung ob das an der Qualität oder an etwas anderem liegt.

2 „Gefällt mir“

Hi,

ich habe damit recht lange rumexperiementiert.
Im Ergebnis hat mich kein Dienst überzeugt.

Podigee > Auphonic nutzt Google. Die Ergebnisse sind am besten, wenn man Multritrack-Upload nutzt.

Besser ist speechmatics, die man direkt via Auphonic nutzen kann. Das war fast brauchbar.
Eine 2-Stunden-Episode habe ich da mal durchgejagt. Wenn man die Fehler danach korrigiert, hockt man auch noch einige Stunden dran, das Ergebnis ist aber sauber.
Hauptproblem sind Satztrennung und ähnlich klingende Begriffe.

Für internen Gebrauch wäre das in Ordnung (wenn man schnell mal eine Stelle sucht). Dafür empfinde ich das als zu kostenintensiv.

Wenn Du das in den Player einbauen magst, kommst Du meiner Meinung nach nicht um einige Stunden Korrekturarbeit herum.

Noch eine Möglichkeit, die gänzlich kostenfrei geht, Qualitativ aber noch fürchterlichter ist: Wenn Du Deinen Podcast bei Youtube reinlädst, gibt es nach ein paar Stunden Untertitel, die man da auch raus bekommt.

Bei Headliner läuft das ähnlich wie bei Youtube: Ist auch mies. Ist auch kostenfrei. Bin nur gerade nicht sicher, ob das auf diese 10-Minuten-Schnipsel beschränkt ist oder auch bei ganzen Episoden geht …

Googles Erkennung ist ganz okay, wenn man ihm Hinweisworte gibt. Sehr erstaunt war ich über die Erkennung von Amazon (AWS). Die kostenlose Transkription mit wit.ai ist eher mies und taugt eher für große Suchen.

Neulich haben wir über die Leitung gesprochen, was an sich schon mal eine Herausforderung ist, aber man spricht ja auch viel unsauberer. Hier mal ein Transkript von Amazon, leider ohne Sprecherzuordnung: Berateraffäre Nr. 28. Und hier mal eine frühere Episode, die mit wit.ai transkribiert wurde: BA Interview mit Alexander Müller.

Mit Google teste ich demnächst mal etwas herum. Meine ersten Erfahrungen mit dem Google Transkript sind aber okay.

Egal, was die Tech-Konzerne versprechen, es gibt (noch) keine automatische Transkription, die ohne Nachbearbeitung prima Ergebnisse liefert. Man muss realistisch sein und entsprechend Zeit und Aufwand einplanen. Für Englisch zumindest bin ich sehr zufrieden mit http://sonix.ai, das auch erschwinglicher ist als Trint.

1 „Gefällt mir“

Vielen Dank für die zahlreichen Hinweise. Ich werde es mal mit Auphonic und der AWS KI probieren. Das sieht ganz vielversprechend aus. Dürfte sich damit auch in den Podlove Kosmos einfinden über die Auphonic Integration. Mal sehen, ob man da auch die Transskripte dann automatisch zurück bekommt.

Berichte auf jeden Fall bitte dann auch mal von deinen Erfahrungen. Finde das Thema auch spannend.

Wenn Du mit Auphonic arbeitest geht das. Hier der passende Thread:

1 „Gefällt mir“

Hallo zusammen,

ich habe etwas herumexperimentiert und mit Auphonic klappt die Google Übersetzung eigentlich am effektivsten von Zeit, Kosten und Genauigkeit - dicht gefolgt von der Amazon Transcription.

Generell erleichtert Auphonic den Umgang mit Podlove, da man so auch ideal die encodierten Dateien direkt via SFTP an das WordPress Verzeichnis zurücksenden kann und Podlove automatisch alles richtig erkennt.

Was in der Folge noch fehlt, ist gerade bei mehreren Shows (Show Modul in Podlove), dass man mehrere Auphonic Presets anlegen kann und dann z.B. pro Show zuordnen kann. Jetzt muss man die angelegte Produktion öffnen und abändern, was nicht schwer ist, aber ich hoffe, dass hier die kommenden Releases vllt noch etwas bereithalten können. Auch muss man die Transkripte bisher bei Auphonic bearbeiten und kann sie nicht direkt in Podlove editieren.

Eine letzte Frage: wie bekommt man es eigentlich hin, dass mehrere Stimmen erkannt werden, wie das beim Podlove Beispiel der Fall ist? Ich habe zwar mehrere Mitwirkende angegeben, aber vllt liegt das daran, dass ich mit Multitrack aufnehmen muss? Oder gibt es einen anderen Trick?

Soweit ich es verstanden habe, musst Du Multitrack aufnehmen und die Sprecherinnen müssen als Contributorinnen in Deinem Blog angelegt sein. Gleichzeitig müssen ihre IDs mit dem Namen der Spur übereinstimmen, dann klappt es auch mit der Erkennung.

4 „Gefällt mir“

Die Namen müssen nicht mit dem Spurnamen übereinstimmen, man kann es auch nachträglich markieren. Da sollte Podlove noch etwas „schlauer“ werden, etwa mit einem Preset oder so.
Und hier ist auch der passende Threat dazu:

2 „Gefällt mir“

Aber generell können die Transcription KIs ja unterschiedliche Stimmen erkennen - da würde ich eher hier anknüpfen als nur mit Multitrack zu arbeiten.

Wenn Du das in einer Spur bringst, hast Du ein Problem mit dem “Ins Wort Fallen”, also wenn sich Sprecher überschneiden. Aber eigentlih ist das ja eh kein Problem, oder, Du nimmst doch eh in mehreren Spuren auf?

Ich nehme aktuell nur mit einer Spur auf und mache das direkt in Audition bzw in meiner Sendesoftware. Daher weiss ich nicht, ob sich wirklich ein Umstieg lohnt, weil ich möchte ungern Multitrack in Auphonic schneiden. Das ist wohl der größte Knackpunkt.

In Auphonic schneidest Du gar nichts. Auphonic macht nur die Normalisierung, Leveling, Mastering, etc.

Den Schnitt machst Du ja in Deiner DAW, also in Deinem Fall Audition. Auch in Audition geht eine Multitrackaufnahme. Also jeden Sprecher in einer Spur aufzeichnen. Am Ende renderst Du einfach jede Spur in eine Datei und die lädst Du dann zu Auphonic hoch.

4 „Gefällt mir“

Habe neulich Amberscript ausprobiert. Deutsche Sprache, ca, 30 minuten, zwei Sprecher.

Sprechererkennung auch in einer Spur, Spracherkennung war super. Amber erkennt auch Füllwörter und kann sie aus dem Audio entfernen. Klappt so halb gut, jedenfalls für Deutsch. Sie haben einen tollen webbasierten Editor, mit dem Navugation im Audio anhand der Cursor-Position im Text funktioniert. Export als SRT.

Die Bezahlung läuft monatlich (€ 75) oder pro Stunde (€ 20), was ich sehr charmant finde.

2 „Gefällt mir“