DeepGram - Audio Suchmaschine

Ich habe soeben (via RT vom @MacSnider) DeepGram entdeckt. Das ist eine Suchmaschine für Audio.
Werde mal damit rumspielen und berichten. Hat das vielleicht jemand schon ausprobiert?

1 „Gefällt mir“

Das hier ist deutlich weiter: https://www.audiosear.ch

Da kann ich nur deren Katalog durchsuchen? Nicht mein eigenes Audio hochladen und indexieren lassen?

Ja die entscheiden selbst, was in deren Katalog landet. Da habe ich DeepGram falsch verstanden.

Kann das denn auch deutsches Audio?

Ok es kann wohl nur Englisch:

Mamma and moment moment home a whom. No man woman’ huh i a. Whom the amin whom the organ had to be common.

00:00:43

To homage to mister jardine enforced dane diminished lets a. Tug fasten yet the anchor as i’d sultanate. Murk bus comp let all the old you’re nothing.

00:00:52

But slit my does son missin in heat but of the has. He and annoyed and foighting is keep hash take thun not his consent in. Adding sandy hebe kind texts alone he send apply in. An old you schnapps and he menzies by in count waif a waif.

00:01:09

Can maxim might spy menou lungs. Suda bay if got on a kind of bush i belong in. Demand an all has takes me to guide come does a stand at a. Waif get the folk would all entity soon be seen and him snaps.

So, erster Test mit CD032
Die Suche klappt ganz gut. “Mondfinsternis”, “Seifenoper”, “Atlas” funktionieren gut.
Hingegen “Proton”, “Progress” und “Sojus” weniger.
Daraus schließe ich, die Erkennung greift bei eindeutig deutschen bzw. englischen Wörtern in der Sprache richtig ausgesprochen. Proton kann man ja englisch und deutsch aussprechen und ich habe es deutsch ausgesprochen.
Transcript geht gar nicht, weil es versucht englische Worte im deutschen Text zu erkennen.

Habe mal eine Mail dorthin geschrieben, wie die Pläne so aussehen auch andere Sprachen zu supporten.

3 „Gefällt mir“

So wie es jetzt gerade funktioniert ist es offensichtlich noch frühe Beta, aber wenn es fertig ist kann es zu einem wichtigen Bestandteil in der Schnittstelle Suche-Shownotes-Transkript werden

Ich fände es geil, wenn man es als Suche im eigene Blog einbinden könnte.

Nunja wenn du das Transkript mal hast, kannst du das ja sogar in Wordpress und in den Player einbinden. Dann hast du die Suche direkt auf deiner eigenen Seite.

Ja, aber ich will halt direkt zu den relevanten Stellen im Audio springen können

Stimmt. Ich denke aber das ist aktuell ein Henne/Ei Problem. Wenn es einfacher wird Transkripte zu haben und das viele Podcasts haben, dann wird es auch bald Player/Suchen etc. geben, die dann damit so arbeiten können.

Für den Anfang wirst du das dann vielleicht mit der Einbindung von deren Service überprücken können.

Also ich habe nach dem Anmelden unter https://www.deepgram.com/console meine eigenen Files via HTTP oder Fileupload vom Mac einstellen. Dann hat es ca. 2 Stunden indexiert.

Ich habe mal verschiedene Schlagworte probiert, aber irgendwie kam nicht viel nützliches raus. :-/ So ganz werde ich auch noch nicht ganz schlau daraus.

Habe ich das richtig verstanden, dass DeepGrams die Audiodateien analysiert und dann mehr oder weniger transkribiert und damit durchsuchbar macht?
Erinnert mich ein bisschen daran, wie die Idee von Odeon für Twitter am Anfang war. :smiley:

Ich denke mal es steckt ein wenig mehr dahinter als nur die Transkription, die dann im Volltext durchuchbar ist. Sonst könnte es ja nicht zu der direkten Stell im Audio springen und die Transkription funktioniert ja gar nicht in Deutsch, die Suche aber schon. Sie schreiben was von Deep Learining und neuronalen Netzen

1 „Gefällt mir“

Na dann werfen wir mal alle unsere deutschsprachigen und mit Metatags voll gestopften Audiodateien auf DeepGram, wie mir CRE vermittelte brauen die nur Daten und dann irgendwann wird’s erstaunlich.

Ich glaube so einfach ist es wiederum auch nicht. Und das steht ja alles noch am Anfang. Ich denke mal die werden sich noch wesentlich weiterentwickeln bis das Ding endgültig fertig ist

Man müsste das neuronale Netz eher mit einer Aussprachen-Datenbank trainieren bzw. mit volltranskribiertem audio, wo schon jedes wort einem Timecode zugeordnet ist

1 „Gefällt mir“

Ich habe mal eine Folge This American Life reingetan. Funktioniert natürlich etwas besser bei der Suche.
Das Transkript ist hier auch passable. Doch wenn man ein Skript anfertigen will, dann ist man damit schon ziemlich weit und kann ein fertiges Skript bestimmt im Bruchteil der Zeit, die man sonst bräuchte machen.

1 „Gefällt mir“

Vielleicht sollten wir hier noch mehr deutsche Podcasts bzw. Audio-Dateien hochladen um die Relevanz von deutschen Inhalten zu erhöhen.

1 „Gefällt mir“

Ich habe eine Antwort auf meine Anfrage erhalten, wie es mit der Unterstützung weiterer Sprachen (unter anderem Deutsch) aussieht:

Thanks for reaching out! We do have plans to support other languages and right now the biggest obstacle is getting the data we need. We require a large amount of hand-transcribed audio in a new language to train our deep neural network.

Any tips on finding it?

Habt ihr eine Idee? Die ÖR haben da denke ich einiges, aber ob die das rausrücken bezweifle ich.