Transkripte und Untertitel per Machine Learning mit Mozilla DeepSpeech / Common Voice - im Mai gibt es eine Spenden Challenge und wir brauchen Eure Stimmen

Hallo liebe Sendergate Community,

Vor einer Weile wurde hier schon über die Möglichkeit diskutiert über das Projekt Common Voice Transkripte für Podcasts zu erzeugen:

Wer das Projekt nicht kennt: Die Idee ist es eine freie Datenbank mit Sprachaufnahmen aufzubauen, mit deren Hilfe man per Machine Learning freie Spracherkennungssysteme erstellen kann. Durch diese Sprachdatenbank können plötzlich nichtkommerzielle Organisationen, Privatpersonen und mittelständische Firmen Technologien entwickeln, die sich bis jetzt nur große IT-Riesen leisten konnten. So werden datenschutzfreundliche und innovative Systeme möglich und auch automatische Transkripte und Untertitel für Podcasts sind sogar komplett offline und ganz ohne Cloud erstellbar.

Hier ist die Webseite von der deutschen Variante von Common Voice: https://commonvoice.mozilla.org/de

Das deutsche Dataset von Common Voice hat aktuell über 850 validierte Stunden Sprache. Wir würden ihn gerne über 1000 Stunden bekommen, ab diesen Punkt beginnt der Bereich in der man professionelle Systeme erzeugen kann. Wir möchten außerdem einen möglichst diversen Datensatz haben in der alle Geschlechter, Altersgruppen und Akzente, die es in der deutschen Sprache gibt, vertreten sind. Deswegen haben wir uns die Common Voice Spenden Challenge ausgedacht.

Was ist die Common Voice Spenden Challenge?
Im Mai 2021 treten einen ganzen Monat lang die Nutzer und Nutzerinnen von Common Voice gegeneinander an. Ziel ist es, gemeinsam mindestens 1 000 validierte Stunden zu erreichen. Dazu haben wir eine eigene Webseite mit einer Bestenliste erstellt, die Plätze 1-20 bekommen als Dankeschön ein Stickerset zugeschickt. :

https://voicechallenge.github.io/de

Um mitzumachen braucht Ihr einen öffentlichen Common Voice Account und müsst Euch aktiv in die Liste eintragen. Wir freuen uns über rege Teilnahme und hoffen im Gegenzug unabhängige, datenschutzfreundliche und diskriminierungsfreie Sprachtechnologien fördern zu können.

Alle Infos zu der Aktion gibt es auch noch einmal ausführlicher im Forum von Mozilla:

8 Like