Spracherkennung für Podcasts

Liebe Sendegartler!

Wir haben nun endlich Spracherkennung in Auphonic integriert:
https://auphonic.com/blog/2016/08/16/speech-recognition-private-beta/

Das funktioniert bei uns nun mit mehreren Backends, im Moment gibts mal Unterstützung für wit.ai und die Spracherkennung von Google. Die Resultate schauen ganz vielversprechend aus.

Beide Services sind preislich ganz gut, Wit.ai ist sogar vollkommen gratis (keine Ahnung ob das immer so bleibt). Wit.ai liefert vorallem für Deutsch auch ganz brauchbare Ergebnisse.

Kommentiert bitte gerne hier, welche sonstigen Features noch notwendig wären, bzw. was gut funktioniert und was nicht!

Viel Spaß,
LG
Georg

19 „Gefällt mir“

Wohooo!

Das ist ja ein cooles Feature.


Update: Mein Fehler. Am Anfang des Token war ein Leerzeichen drin. Sorry :slight_smile: Teste weiter

Noch ein paar Invite Codes:
Cr0MiJ02ZW 5gKGes1iDv DTBPtfQ8k0 leVndFAZOq WcmefGKJD9 snMlttrFmm VTaE0NNeqD r5J1xGna7Y S3wNjE4SKg 0oJwvsc4XN

1 „Gefällt mir“

WOW! COOL! Damit haben es alle anderen erheblich schwerer mich von Auphonic abzuwerben, auch wenn sie shiny Userinterfaces haben. :wink:

Erstes kurzes Feedback: Bei unserem Podcast ist das Ergebnis mit Wit.ai nicht brauchbar.

Wow, das funktioniert beim ersten Versuch schon ganz gut.
Die Erkennungsrate ist extrem hoch.

Die Output-Datei hat nur ein UTF-8-Problem.

Kannst du mir die UUID zu deiner Production schicken?

Mit welchem Programm hast du denn ein UTF-8 Problem? Hier funktioniert das anscheinend ganz OK.
Was ist denn die UUID von deiner Production?

Danke für die UUID!

Solange ihr nicht wild durcheinander redet funktioniert es ja ganz OK.
Ihr habt natürlich auch sehr viele Namen usw. und sobald ihr durcheinander redet kennt sich da keiner mehr aus (da kann man auf der Auphonic Seite sicher noch einiges verbessern).

Kannst du mal die Google Speech Recognition versuchen? (production einfach bearbeiten und speech recognition ändern)
Dabei kann man einige oft verwendete Eigennahmen usw. als „Word Hints“ angeben - das sollte schon was bringen!
Das ist wirklich ein super Feature von Google!

Würde mich interessieren ob das besser/schlechter ist …

1 „Gefällt mir“

Sehr gerne.

Generell einfach mal danke für euren Dienst. ABSOLUT GENIAL!! :slight_smile:

1 „Gefällt mir“

Shit, zu spät… invites bereits weg :pensive:

@auphonic Können diese Dienste auch schon mit mehreren Einzelspuren umgehen, oder arbeiten die nur mit der Summe?

Einzelspuren gehen. Dann sieht man sogar wer was gesprochen hat etc. Andi: Text

Daran soll es nicht scheitern :wink: - hier sind noch ein paar:
Z22kw2eJpS OXaKzEi3EA 7X74tAWo9b wHb8CEt86v rBzr0kdn0Y EuCxKwQVY9 xxaopLG4zK EiwDYD02eA qum07jmHrP mWuyEUrD5w

1 „Gefällt mir“

Naja, wir (Auphonic) segmentieren das Audio ja in unseren Algorithmen, dann schicken wir nur die Segmente der jeweiligen Spuren zu den Spracherkennungsdiensten.
Danach wird das bei uns wieder zusammengesetzt.

Es schaut nach einigen Tests wohl so aus, dass Google teilweise schon viel bessere Ergebnisse liefert. Vorallem wenn die Bedingungen nicht optimal sind.

Ist der Google Service denn das gleiche was Google auf YouTube mit automatisch generierten Untertiteln macht?

1 „Gefällt mir“

Glaube (noch) nicht, das wird aber sicher in Zukunft vereinheitlicht wird …

1 „Gefällt mir“

Hier ein erstes Testergebnis mit einem sicher nicht ganz einfachen, ungeschnittenen O-Ton.

3 „Gefällt mir“

Ich werd’ die Tage mal was hochladen und testen, wäre ja noch spannend mal Siri daneben zu halten und vor allem (wenn jemand Zugriff drauf hätte!) Dragon!