Spracherkennung für Podcasts

auphonic · 23. August 2016 um 07:01

Klar, so ein „Menschen-lesbares“ Format kommt natürlich auch!

Das liegt an Apple, kann mir aber schwer vorstellen dass sie ihre Spracherkennung nach außen öffnen.

ubahnverleih · 23. August 2016 um 13:50

Ich habe letztens auch mal ein wenig mit Spracherkennung rum gespielt und habe dafür die Bing Speech API benutzt. Ich habe die allerdings nicht direkt mit den anderen Services verglichen, das Ergebnis war aber ganz in Ordnung.

auphonic · 23. August 2016 um 16:10

@ubahnverleih Danke für den Hinweis.
Wir haben die Bing API auch integriert, sie hat aber immer viel schlechtere Ergebnisse als die anderen Services geliefert (zumindest auf Deutsch und Englisch) und war auch noch komplizierter zum Einrichten.
Keine Ahnung wie das in anderen Sprachen aussieht.

Falls es Bedarf daran gibt und sie zumindest irgendeinen Vorteil hat (vielleicht haben wir ihn ja auch einfach noch nicht gesehen), schalten wir diese gerne frei!

ubahnverleih · 23. August 2016 um 16:44

Der einzige Vorteil war, dass es mehr Freivolumen gab als bei Google. Ja es ist tatsächlich schwierig da die richtigen API-Keys zu finden.

auphonic · 24. August 2016 um 07:55

@ubahnverleih Ja, Wit.ai ist aber im Gegensatz zu bing komplett kostenfrei und war auch von der Qualität her in den vergangenen Tests immer besser.

Wilhelm · 24. August 2016 um 20:00

Oben habe ich mal einen Vergleich zu Siri aufgestellt: Spracherkennung für Podcasts - #24 von Wilhelm

Die Mac Spracherkennung liefert ganz gute Ergebnisse, vllt. kann man die Spuren irgendwie in die Mac-Spracherkennung auf dem Desktop hinein-pipen … Man muüsste die Datei ja eig. nur als Spracheingabe in Software (über ein Softwaredivce …?) deklarieren und dann die Sprachausgabe in eine Textdatei schreiben, quasi das Gegenteil von
`say MEIN TOLLER TEXT -o „~/Dateipfad/Dateiname-test.aiff“

Vielleicht kann man sowas in @auphonic esktop App einbauen?
`

auphonic · 25. August 2016 um 10:28

Keine Ahnung ob sowas geht - wenn ja dann ist das sicher eine interessante Option!

tomtjes · 26. August 2016 um 02:26

Ja, das kannst du mit den USH-Devices, den virtuellen Soundkarten von Ultraschall machen. Z.B. in Ultraschall das fragliche Audio auf das Aux-Device routen und dann in den Mac-Systemeinstellungen unter Diktat Aux als Quelle einstellen.
Ich meine irgendwo gelesen zu haben, dass sich die Mac-Diktatfunktion nach und nach auf die eigene Stimme einstellt. Deshalb war ich zurückhaltend damit, das mit Interviews auszuprobieren.

tomtjes · 23. September 2016 um 21:54

Hier gibt’s die Luxusvariante:

Funktioniert auch sehr gut und kann sogar ein wenig Interpunktion:

floriansimon · 26. September 2016 um 08:15

In iOS 10 gibt es eine API für Speech Recognition. Soweit ich das verstanden habe, ist sie aber nur für sporadische Requests ausgelegt und auf maximal eine Minute Audio pro Request limitiert.

auphonic · 26. September 2016 um 08:35

Danke für den Tipp!
So wie ich das sehe hat https://trint.com/ einen schönen Editor gebaut, jedoch nicht du Spracherkennung selbst entwickelt (schätze mal die verwenden auch Google).

Oder weiß hier jemand mehr darüber?

Andi · 12. Oktober 2016 um 20:00

Hat sich mal jemand angeschaut ob man die Apple Speech Recognition auch lokal aus einem macOS per Python ansprechen kann?

Wilhelm · 12. Oktober 2016 um 21:56

hate ich auch schon mal angeregt.
Was funktioniert, mehr schlecht als recht: Wenn man über ein Interface den Ton einspielt und dann in ein Textverarbeitungsprogramm einfüllt.

Konkret:
Audiospur auf’s iPhone geschoben, dann folgende Kette
iPhone -> 3.5mm Kabel (male - male) -> Zoom Line-In -> Zoom USB an Mac -> über Reaper geroutet -> über "Dikatetfunktion" (fn fn drücken, oder Menü > Bearbeiten > Diktat starten) in Audio eingefügt.

Wenn man ein sauberes Audio hat, geht das. Aber, was viel störender ist, ist dass keinerlei Interpunktion gegeben wird.

gglnx · 13. Oktober 2016 um 21:12

Hier wird wohl an einer Open-Source-Spracherkennung auf Basis von Tensorflow gearbeitet: https://github.com/pannous/tensorflow-speech-recognition

auphonic · 14. Oktober 2016 um 08:05

Es gibt eine gute Open Source Spracherkennungssysteme (z.B. kaldi).
Das Problem sind in diesem Bereich aber eher die Daten, nicht der “Source” - deshalb helfen einen diese Open Source Systeme halt leider auch nicht viel …

Andi · 17. Oktober 2016 um 15:20

Siehe auch #subscribe8: Spracherkennung für Podcasts

laufcast · 26. Oktober 2016 um 14:45

Wie komme ich denn an die komplette Transkription bei Wit.ai? Ich sehe kurze Häppchen, die ich dann trainieren soll, aber es sollte doch irgendwo eine Datei mit dem kompletten Text geben, oder? (SRT?)

auphonic · 27. Oktober 2016 um 06:12

Die Transkription sieht du auch der Auphonic Resultatseite.
Schick mir sonst bitte mal den Link zu deiner Production, dann kann ich mir das ansehen!

hansdorsch · 22. November 2016 um 08:50

Noch ein Tipp für iOS und Apple-Nutzer: Die App Just Press Record nutzt die iOS 10 Spracherkennungs-API. Du kannst direkt aufnehmen, aber auch Audiodateien in den iCloud-Ordner legen.
Die Transkription kannst du dann auf dem iPhone starten. Die funktioniert in Echtzeit, aber die App muss im Vordergrund sein. Ich überprüfe gerade, welche Formate erkannt werden.

Erkannt werden auf jeden Fall AAC und ALAC
WAV wird nicht erkannt

Das sieht dann so aus:

tofrenz · 22. November 2016 um 08:57

Ich bin gespannt auf deine Tests.