Transkripte in Metadaten


#1

Ich habe den Gedanken schon länger, aber da @auphonic die Woche auch Spracherkennung einführte, scheint es gar nicht mehr so seltsam …

Kann man Transkrpite in MP4-Metadaten hineinschreiben, gibt es dafür eine Spezifikation? Wäre ja ggf. spannend für Suchmaschinen und auch für Archive.
KAnn man sowas ggf. mit dem #podlove:podlove-publisher in den Feed-Metadaten einbinden, vielleicht nicht im Feed selber, sondern vllt. mit einer verlinkten .TXT Datei oder so …

… vielleicht ähnliches Vorgehen wie mit den SimpleCapters … :confused:

@ericteubert @timpritlove


#2

Ja, darüber haben wir natürlich auch schon nachgedacht, ob man die Transkripte nicht gleich in die Mediendateien reinpackt.
Von der Dateigröße her macht es ja nicht viel Unterschied (das Cover image ist meist größer als das Transkript).

In MP4 (und anderen Container Formaten) kann man einen subtitle track hinzufügen - den kann man auch von VLC usw. anzeigen lassen.

In MP3 (ID3) gibts auch Synchronized Text /Transcriptions:
http://id3.org/id3v2.3.0#Synchronised_lyrics.2Ftext
Habe jetzt noch nicht getestet ob das auch jemand anzeigen kann.

D.h. Spezifikationen gibt es dafür. Wäre natürlich das Hammer Feature wenn das auch ein podcatcher unterstützen würde, dann könnte man auch darin suchen usw.


#3

Definitiv! Aber vielleicht wäre das auch das Henne-Ei Ding … Ohne Hennen werden keine Eier gelegt, ohne Eier, schlüpfen keine Hennen … :confused:

Vielleicht bringt die Zukunft ja genau das. Deep-Gram versucht ja auch Sprache zu erkennen und auszuwerten. Die brauchen z.B. genau das um ihre Technik voran zu bringen. Ich glaube, dass davon viele Weitere profitieren können, und wenn es nciht so schwer ist, und es Specs gibt, warum nicht?!

Kann mir vorstellen, dass Podc.at das beispielsweise einbauen könnte …


#4

ich habe gerade eine produktion mit transkript laufen lassen und das funktioniert hervorragend. kann der podlove player schon damit umgehen?


#5

Ist das schon in die Datei von @auphonic hineingeschrieben worden? Gregor schrieb ja, dass es da theoretisch einen Standard gäbe, der das zuließe.


#6

ich weiß nur, dass die demo-player von auphonic das echt gut können. damit kann man sogar direkt das transkript durchsuchen brain explode aber die daten werden als html/vtt/json geliefert.
@auphonic

https://auphonic.com/blog/2016/12/02/make-podcasts-searchable-speech-to-text/


#7

Hier gibts die gleiche Diskussion: