Inhalts-Datenbank

none · 5. August 2022 um 04:38

Kennt jemand eine Datenbank (oder ähnliches), die man nach den Inhalten der einzelnen Folgen durchsuchen kann?

Etwas konkreter: Mein Podcast hat jetzt die 100. Folge überschritten und ich merke immer mehr, dass ich bestimmte Sachen in anderen Folgen schon mal erwähnt habe oder die evtl. zum Thema passen. Meist kann ich mich nicht an die konkreten Folgen erinnern. (Florian Freistetter scheint das mit seinen Sternengeschichten problemlos zu gelingen - ich vermute aber, er hat eine Script-Datenbank?)

Ja, man hätte das von Anfang an so planen können … aber wer ahnt das schon …

Mein erster Gedanke war, ich nehme alle Shownotes und Kapitelmarken her, ziehe Schlüsselwörter heraus und baue daraus eine DB auf. Stellt sich raus, (meine) Kapitelmarken und Shownotes taugen nicht wirklich.

Zweiter Gedanke war, ich transkribiere alle Folgen (würde ich tatsächlich machen - trotz ) rückwirkend und speicher die Scripte als Textblobs in der DB und hab so eine Volltextdatenbank, die ich nach allen möglichen Kriterien durchsuchen kann.

Prinzipiell existiert das ja schon via WP-Suche über die Instanz. Da ich jedoch zwischendrin den Hoster /RSS etc. gewechselt habe, sind nicht alle Folgen an einem Platz/ Server … Aber abgesehen davon, hätte ich das ohnehin gerne separat - vom Podcast-Server losgelöst - da ich dann die Möglichkeit hätte, daran herumzuknippeln (auffüllen, streichen …).

Daher meine Frage: Gibt es so etwas nicht schon für Podcasts oder lässt sich eine andere DB (Literatur DB?) nicht dahin zweckentfremdet nutzen? Und wenn ja, kann ich die dann für meine Hörer zur eigenen Suche verfügbar machen?

SebastianStix · 5. August 2022 um 09:23

Hi,

wenn die Transkripte schon existieren reichen ja theoretisch Textdateien auf dem PC und man findet dann über die Volltextsuche etwas.
Ich habe selbst kein fertiges Tool gefunden und das deshalb in die Suche auf der Podcast-Webseite integriert. Da funktioniert die Suche in Kapitelmarken, Shownotes und auf Wunsch Transcript. - Allerdings ist die Gewichtung der Ergebnisse eine heftige Herausforderung. - Man findet einfach sehr viele Treffer und die wollen sortiert werden.

Wenn Du selbst so etwas aufbauen willst, dann gibt es Online-Datenbank-Tools. Mir fällt leider kein Name ein. Grundsätzlich kannst Du Dir damit eine DB schnell klicken und Suchformulare und ähnliches zusammenbasteln.

Wolfi · 9. August 2022 um 17:22

Ich habe für meine ganzen Episoden Transkripte. Und die liegen zusammen mit meinen digitalen Notizen in Google Drive. Die dortige Suche finde ich echt sehr brauchbar. Sicher nicht so fancy wie eine dedizierte Datenbank mit Highlighting etc. Aber dafür eine einfache und schnelle Lösung, die für meine Hobbypodcasts ausreicht.

none · 11. August 2022 um 03:44

Danke @SebastianStix und @Wolfi ! Ja, zwischen diesen beiden Polen pendelt auch gerade meine theoretische Loesung:

Transkriptionen (*.txt) in einem Verzeichnis und ein 3rd-Party-Tool, dass drueber sucht - mal mehr oder weniger „sophisticated“
Ich schnitze mir eine eigene DB samt Oberfläche zusammen (ich hab tatsächlich noch eine ältere FlagShip-Lizenz)

Bei 1) ist die Suche nur so gut wie das 3rdPT. Google Docs scheint ja ganz OK zu sein. Für den nicht ganz so versierten Zuhörer ist das evtl. zu kryptisch, zu kompliziert, (zu viele Treffer?) … Größtes CON ist, das ist eher für mich und nicht die Community.

kann ich natürlich den Hörern zugänglich machen … und mit soundex() und Co. kann ich die Suche wirklich sehr spezifisch und einfach machen. Größtes CON ist jedoch der Aufwand. Das wäre ein Projekt, für das ich jeden Tag Zeit abknappsen müsste und das auf diese Weise Monate braucht.

Ich hab mir ein paar TextMining-Tools angeschaut, da gibt es auch FOSS drunter, aber insgesamt ist der ganze Ansatz vieeeeeeeeel zu wuchtig und die Preise sind z.T. auch sehr …interessant…

SebastianStix · 11. August 2022 um 08:27

Ich weiß nicht wie sehr Du die übrigen Metadaten pflegst. Kapitelmarken und Episodenkeywords nutze ich recht exzessiv. Ich behaupte mal in 90% der Fälle gibt es darin ausreichend Treffer und weil beides ja im RSS-Feed drin ist, kannst Du diese Datenquelle viel einfacher nutzen.

Ist das vielleicht noch ein alternativer Ansatz?

Wolfi · 11. August 2022 um 08:46

Ich habe beruflich früher viel mit Suchtechnologie gearbeitet und da vor allem Lösungen mit Elasticsearch gebaut. Damit könnte man eine maßgeschneiderte Lösung entwickeln, die Transkripte und sonstige Metadaten durchsucht.

Das größte Problem ist dabei aber auch die Zeit, die man braucht, um sowas zu entwickeln. Vor allem, wenn man das der Community zur Verfügung stellen möchte.

none · 11. August 2022 um 09:14

Nein, ist leider kein Ansatz. Denn wie ich im Ausgangstext erwähnt habe, befindet sich ein großer Teil der Folgen unter einer anderen Instanz unter einem anderen RSS etc. pp.

Zweitens sind Kapitelmarken eher nicht geeignet und auch Shownotes nur bedingt. Bei Anchor und Funkwhale gibt es z.B. gar keine Kapitelmarken - allerdings habe ich sie händisch in die Shownotes dort eingefügt. Deren Optionen in den Shownotes sind ebenfalls rudimentär(*).

Shownotes sind ebenfalls nur bedingt brauchbar, weil sie ja meist auf weiterführenden Kram hinweisen und daher die Anzahl der Suchergebnisse unendlich aufblasen können.

Wirklich relevant ist nur das Transkript. Aber auch da liefert eine einfache Suche z.B. aus OS-Bordmittel schlichtweg zu viele oder fragwürdige Ergebnisse. Man brauchte also ein etwas ausgetüftelteres Suchmodul.

DEVONthink wäre z.B. so ein Kandidat, aber das funktioniert nur für mich(ohne Community), also nicht online und nur unter OS X. Ich hab aber auch Linux-, Android- und Windowsgeräte. (OS X-only mach ich nich mehr)

Screenshot 2022-08-11 164406
Meine Anchor-Shownotes

(*) Ich bin mittlerweile überzeugt, dass der größte Teil der Plattformen nicht wirklich taugen. Außer für Reichweite . Eine echte eigene Instanz ist wie ein Michelin-Restaurant im Verhältnis zu einem McDonalds. Ich hab in manchen Folgen in meinem Podcast auch auf die Unzulänglichkeiten von Funkwhale, Anchor … hingewiesen … find ich bloß nicht mehr …