Transkription und Spracherkennung

moritzklenk · 12. April 2018 um 08:34

Zunächst: ich habe keine Kategorie für dieses Thema gefunden, habe aber den Eindruck, dass man hierfür eine Kategorie einrichten müsste. Noch keine Idee, wie sie zu nennen wäre. Vielleicht #Aufnehmen - Unterkategorie: Spracherkennung? (Wobei es auch #Aufnehmen - #Software - #Spracherkennung sein könnte oder was immer).

Zum Anliegen: Ich bin darüber, ca. 150 Stunden Audiomaterial zu transkribieren, was ich, wie man leicht erkennen kann, nicht von Hand und Ohr sondern nur sinnvoll automatisiert machen lassen kann.
Dafür nutze ich zur Zeit Dragon Professional V 6 (6.0.8) für Mac - was eine Frechheit von Software ist! Der Preis ist in Ordnung, das Transkriptionsergebnis ist mittel ok, das Handling aber nicht und die viel beschworene Traningsfunktion zur Verbesserung der Transkriptionsergebnisse ist, sagen wir, überschaubar (funktioniert nicht wirklich!)

Ich würde nun gerne Googles Speech-To-Text Cloud Platform API verwenden, wie sie bei @auphonic eingebunden ist, habe aber keinen Schimmer, wie ich das mir so zusammenschreibe, dass es mit einem Workflow der Art: “Upload der FLACs in ein Cloud Verzeichnis von Google – klick – Transkript (mit Zeitmarken)” funktioniert.

Hätte hier jemand Erfahrungen oder weiss wie, oder hat da mal was geschrieben, was so funktioniert - oder könnte mir zeigen wie?

Oder alternativ: gibt es irgendwelche Tools, die nur das UI zur Google Speech-to-Text API bieten und kostenlos sind?

Ach und: Batch-Transkription am besten aller 150 Stunden in 365 Audiofiles wäre spektakulär. Man kann ja noch träumen…

auphonic · 12. April 2018 um 08:55

Um the Google Cloud Speech API zu verwenden, musst du dein Audiomaterial zuerst sinnvoll segmentieren:
https://auphonic.com/blog/2016/12/02/make-podcasts-searchable-speech-to-text/

Ansonsten kannst du noch speechmatics verwenden, die sind aber um einiges teurer:
https://www.speechmatics.com/

Die günstigste Variante ist wahrscheinlich wit.ai (gratis), die sind für Deutsch IMHO auch nicht relevant schlechter als Google. Dafür muss das Audio halt auch sinnvoll segmentiert werden, aber auch Auphonic + wit.ai ist wahrscheinlich noch das Günstigste was es so gibt …

Raumwelle · 12. April 2018 um 09:13

na den was du suchst habe ich suach schon geschaut… ob es da was fertiges gibt.

also ich ahbe nichts gefunden. da wird man wohl selber eine keine anwendung schreiben müssen.

mir scheind da http://wit.ai/ am geeingnesten zu sein einmal wegen den pres und zum anderen haben die ihre komplete api uffen liegen.

ich kann das leider nciht den sonst hätte ich mir da was gepastelt.

moritzklenk · 12. April 2018 um 09:29

segmentieren, verstehe ich nicht ganz. das ist ja schon ein fertiger podcast. postproduced, gelevelt, veröffentlicht, verschlagwortet, manchmal kapitelmarkiert, in 365 folgen, jede, im schnitt, ca. 25 min lang.
hab also eben so viele dateien in allen mir sinnvollen formaten (flac, m4a, mp3, opus).

auphonic hatte ich gar nicht im sinn, weil ich ja für auphonic’s magic zahlen müsste, die ich ja (vermutlich) nicht bräuchte, um den externen dienst zu nutzen, den ich im fall der google api extra zahlen muss, oder bei wit.ai kostenlos bekommen könnte.
aber um keinen hassle zu haben, wäre es vielleicht trotzdem eine lösung?
vermutlich ca. 150 € einmalig für auphonic, plus google api, die aber erst mal 300 $ credits geben, also vielleicht ohne weitere kosten, und eine gratis wit.ai transkription obendrauf?

kann man eigentlich beide transkriptionen gleichzeitig nutzen, um sie zu vergleichen?

auphonic · 12. April 2018 um 09:38

Du musst dein Audio sinnvoll in kleine Schnippsel unterteilen, bei Sprachpause und Sprecherwechsel etc.:

Jein, das geht im Moment leider nicht für große Mengen (außer man skriptet es per API).
Aber du kannst das ja mal bei ein, zwei productions machen: einfach mit wit.ai durchlaufen lassen und dann die production nochmal editieren und mit google API durchlaufen lassen - dann brauchst du keine zusätzlichen Auphonic credits!
Du siehst dann e gleich welche Ergebnisse dir bessen passen (sind wahrscheinlich ziemlich ähnlich) …

moritzklenk · 12. April 2018 um 09:43

alles klar! ok. das ist in meinem fall vermutlich nicht nötig. 1 sprecher. monolog. nix weiter. keine unterbrechungen. brauch das transkript nur für durchsuchbarkeit.

top!

klingt wirklich top!
dann schau ich mir mal die google api und ihre ergänzungsmöglichkeiten um fachbegriffe usw. an.

auphonic · 12. April 2018 um 09:46

Eine Segmentierung wirst du trotzdem brauchen …

moritzklenk · 12. April 2018 um 10:08

ok. auphonics magic braucht man eben schon.

Raumwelle · 12. April 2018 um 10:56

nur damit das klar ist…

kein zwischen reden die mascheine kann das nicht verstehen

segmentiert bedeute das erst einer redet dann eine pause dann redet der andere wider eine opause dann wider der ersteist wie mein sprech funk da kann auch immer nur einer reden.

es ist erstaunlich was die kis alles verstehen wenn ,man eine klare deutliche sprache hat sind die fehler ok mann muss die datei nur minimal bearbeiten.

moritzklenk · 12. April 2018 um 11:05

habe noch eine spezifischere frage, die vielleicht auch für andere interessant ist:

bei @auphonic kann ich ja presets anlegen, die es mir dann auch erlauben, viele viele dateien via batch productions mit diesem preset produzieren zu lassen.
da könnte ich nun bei jedem einzelnen noch phrases für die google api anfügen - oder einmal (bis zu 500 wörter mit kommata getrennt, so gibt glaub ich google an…) in das preset schon einfügen, in der hoffnung, alle spezielleren wörter zu erwischen.
geht das so?

und geht das für wit.ai nicht auch über eine modifikation des apps? kann ich hier nicht auch keywords und phrases hinzufügen? also über die wit.ai website? geht das? wie sind die erfahrungen? und funktioniert das dann auch so für batch productions, sozusagen einmal alle keywords hinzufügen und dann ab gehts?

auphonic · 12. April 2018 um 14:01

Ja, wobei zu viele phrasen sollte man da auch nicht angeben:

„Im Allgemeinen sollten Sie sparsam mit der Bereitstellung von Formulierungshinweisen umgehen. Die Erkennung sollte nur durch jene Formulierungshinweise optimiert werden, die erwartungsgemäß auch gesprochen werden. Wenn es beispielsweise mehrere Aussprachemöglichkeiten oder Geräteausgabemodi gibt, sollten Sie nur die Hinweise bereitstellen, die in der aktuellen Sprachaufnahme zu erwarten sind und nicht alle denkbar möglichen Varianten.“

Ja das geht theoretisch, aber damit hab ich nicht viel Erfahrung: bei meinen Tests hat das nie viel gebracht …
Falls das was bringt, hilft dir das auch bei denen batch productions, ja!

PhilipBanse · 13. April 2018 um 05:31

Beste Ergebnisse bei Speech->Txt bekomme ich mit Trint.com - ist aber nicht billig.

MarcusAnhaeuser · 13. April 2018 um 06:46

Höre auch vermehrt, dass Trint bisher am besten ist, vor allem auch was das Handling angeht. Dass sowas dann kostet erscheint nur logisch. Aber 150 h transkribieren ist auch einfach viel Material und Arbeit. Warum sollte das jemand umsonst tun.