nachdem von der Zielgruppe unseres Podcasts vermehrt der Wunsch nach Transkription kam, habe ich mich auf die Suche begeben und bin auf Auphonic gestoßen. Mein erstes Testergebnis mit wit.ai war nicht übel und ich habe mal geschaut, was Auphonic noch so kann. Liest sich echt super, aber als Newbie sagt mir nicht alles etwas oder kann ich den Nutzen noch nicht ermessen.
Um eine Entscheidung zu treffen, ob dieses Tool sich für uns lohnt, müsste ich genauer wissen, wie unsere Projekte damit aussehen können. Daher stelle ich hier mal meine dummen Fragen:
Projekte aus mehreren Bestandteilen
Unsere einzelnen Folgen bestehen aus mehreren Teilen. Ich habe schon gesehen, dass ich ihn Auphonic das Intro und Outro automatisch hinzufügen kann. Jetzt ist aber bei uns die Herausforderung, dass wir vor der regulären Episode also auch vor dem Intro immer erst so eine Art Einführung haben. Die Intro Melodie kommt erst danach. Zudem haben wir unseren Episoden immer feste Programmpunkte mit eigenen Jingles. Die Frage ist nun, wie müsste ich die Dateien vorbereiten, damit sie von Auphonic richtig verarbeitet werden? Wenn wir einen oder mehrere Gesprächspartner in einer Sendung haben, habe ich ja auch je Teil der Episode mehr oder weniger einzelne Tracks von Teilnehmern. Wie müsste ich das vorbereiten, damit es korrekt verarbeitet wird?
vtt- und json-Dateien
Die Transkription erzeugt ja verschiedene Dateien. Die HTML-Datei ist klar. Aber was macht man mit der Untertiteldatei vtt und mit der JSON Datei? Deren Verwendung ist mir nicht klar.
Wenn du Multitrack verwendest, was in Hinblick auf die Spracherkennung sicher von Vorteil ist (dann werden die SprecherInnen exakt getrennt), lade bitte einen Track pro Sprecher (oder halt mehrere zusammenfassen in einen Track wenn du sehr viele hast) und einen Track mit Einspielungen (Intros, Jingles, etc.): https://auphonic.com/help/algorithms/multitrack_tips.html
Die Episodenteile musst du schon vorher zusammenfügen und das Intro Feature ist nur dann sinnvoll, wenn du es bei uns speichern willst (um es nicht jedesmal neu hinzuzufügen).
Die VTT Datei kannst du z.B. dem Podlove Publisher geben, der kann die Transkripte dann gut im Webplayer anzeigen - bzw. sollten HTML5 Player damit umgehen können.
Aber wenn du einfach nur das Transkript auf deiner Webseite haben willst, brauchst du diese Formate wahrscheinlich nicht …
Wünsche schon mal ein schönes Wochenende!
LG
Georg
Ein gutes, neues Jahr, lieber @auphonic!
Eine Frage ist jetzt aufgekommen, nachdem ich mich intensiver damit beschäftigt habe, wie ich mit Auphonic unsere Prozesse vereinfachen kann.
Ich gebe ja bei der Produktion die Metadaten an. Werden die auch irgendwo lesbar ausgegeben?
Für den Podlove Web Player benötige ich sie ja als JSON. Insbesondere ein Weg, die Dauer zu ermitteln, fehlt mir noch.
Bietet Auphonic da was?
So weit ich weiß nimmt der Podlove Publisher die Metadaten direkt aus unserer API, bzw. kannst du im Publisher direkt deine Auphonic Produktion starten (und im Publisher alle Metadaten eingeben) - d.h. da sollte kein zusätzliches JSON notwendig sein…
Hast du das schon mal probiert?
Ich nutze den Podlove Publisher nicht, sondern nur den Web Player und dem muss ich JSON-Definitionen übergeben, siehe https://docs.podlove.org/podlove-web-player/meta-data.html
Eigentlich ist die Dauer das wesentliche Problem. Alle anderen Infos kriege ich oder muss ich sowieso eintippen.
Ich betreibe einen HCL Domino Server mit einer Blog-Anwendung. Mit der API habe ich mich noch nicht beschäftigt. Da kann man die Metadaten inkl. Dauer abrufen?
Beim Testen sind jetzt noch zwei Dinge aufgefallen:
Wenn ich Outro mit Überblendung angebe, kann ich irgendwo regeln, wie weit er das Outro runterregelt, während gesprochen wird? Scheint mir noch recht laut. Oder muss ich das im Outro selbst so anlegen?
Wenn ich ein Video generieren lasse, nimmt er ja Episoden bzw. Chapterbilder. Kann ich ein Basisbild o.ä mitgeben, um so das 16:9 auszufüllen?