#sub7-Doku: WikiData

Die Notizen hier entstehen nachträglich, da ich mir während der Session selbst leider keine gemacht habe.

Die Slides von @johl: https://docs.google.com/presentation/d/1VF0ml3nWFRsYN-hwRgVfnXGi5w1iQ8CdJ3OKbEJsrVs/edit

Die Slides selbst sind ein kurzer Überblick über Wikidata und die technischen Rahmenbedingungen selbst. Ich kann dazu vor allem die CRE-Podcastfolge vom Dezember 2013 zu Wikidata empfehlen, bei der @johl selbst zu Gast war: http://cre.fm/cre205-wikidata

Daher möchte ich hier nicht auf die Details von Wikidata eingehen, nur kurz: Wikidata abstrahiert das Wissen der Wikipedia in eine Datenbank. Die wichtigen Begriffe dahinter sind Graphdatenbanken, Semantic Web, RDF. D.h. die Daten sind als Triple abgelegt.

Zur Session selbst: Nach der Einführung von @johl ging die Diskussion darum, warum Wikidata für Podcasts interessant sein kann.
Dabei kamen wir zum Schluss, dass…

  • Wohl die Podcast-(Meta)daten nicht in Wikipedia selbst landen werden/sollen. Wikidata konzentriert sich auf “enzyklopädisches Wissen”, und da sind Podcasts leider oft nicht im Geltungsbereich. Das Schöne ist aber, dass sich die Daten wunderbar linken lassen, sodass Daten gar nicht in Wikidata selbst sein müssen.
  • Eine Anreicherung von Podcasts mit Wikidata-Links kann Keywords und Tags ersetzen und sind sogar besser, da sie semantisch eindeutig sind und nicht von der Unschärfe von Tags betroffen sind (andere Schreibweisen, Plural, Synonyme)
  • Die Diskussion blieb dann beim Punkt stehen, wie man nun diese Links “abstrahieren” kann zu einer groben, allgemeineren Suche oder Filterung. Konkret: wie finde ich alle Episoden, in denen “Musik” besprochen wird. Ein Link zu einer Band (Beispiel: die Beatles https://www.wikidata.org/wiki/Q1299) lässt sich nicht offensichtlich filtern, wenn man nach allen Links sucht, die mit “Musik” zu tun haben.

Meine eigenen Gedanken:

  • Um die Podcast-Landschaft vernünftig semantisch zu erfassen, müsste es meiner Meinung nach eine möglichst zentrale Anlaufstelle geben. Ich denke, der Wert ist geringer, wenn man nur seine eigenen Produktionen verlinkt. Dann hat man zwar eine direkte Durchsuchbarkeit innerhalb eines Formats, aber keine übergreifende Suche, die meiner Meinung nach viel interessanter wäre.
  • Ich denke, dass die semantische Erfassung der Podcasts selbst schon ein grosser Schritt wäre. Die Durchsuchbarkeit und das grobe/abstrakte Filtern ist dann “nur” noch ein Problem der Technik und der Datenqualität, aber nicht mehr ein strukturelles.

Ich habe an der Subscribe selbst schon mal ein kleines Ruby-Skript geschrieben, das versucht, diese Verlinkungen halb-automatisch für eine Episode zu erstellen. Die APIs sind auf Seiten Wikidata vorhanden, allerdings gibt es ein grundlegendes Problem: Es ist äusserst schwierig (unmöglich?) zu erkennen, ob ein einzelnes Wort oder eine Wortgruppe verwendet werden soll für eine Verlinung.

Beispiel: Tesla Model 3
Wikidata: https://www.wikidata.org/wiki/Q23663332 (Tesla Model 3)
Reisst man diese Wortgruppe auseinander, hat man:
Tesla, Model, 3
3 Begriffe also, von der wahrscheinlich nur der erste sinnvoll ist.

Ich würde gerne einen Proof of Concept bauen, der:

  • Feeds einliest und schon mal die Episoden-Summary durchkämmt und eine Liste von Einzelwörtern bringt, die dann halbautomatisch (Vorschläge!) mit Wikidata-Items verlinkt werden können.
  • Die Möglichkeit bietet, mithilfe der Wikidata API weitere Verlinkungen zu erstellen (Wortgruppen, etc.)
  • Eine einfache Podcast-Suche die es erlaubt, nach bestimmten Items zu suchen. Das ist natürlich extrem ausbaufähig und ein potentiell riesiges Betätigungsfeld
  • Eventuell schon Wikidata (API? SPARQL-Endpoint?) einbindet, sodass auch komplexere Queries möglich sind.

Ausserdem wäre meiner Meinung nach zu diskutieren: Welche Daten können wir zu Podcasts und Episoden erfassen? Hier ist die Liste lang. Dinge, die mir schon einfallen:

  • Aufzeichungsdatum, -ort, beteiligte Personen
  • Unterteilung der Verlinkung in “Hauptthema” und “wurde auch (kurz) besprochen”. Der Unterschied wäre, dass ein Podcast zum Thema “Kernkraftwerke” eine andere Qualität hat als ein 30-sekündiges Segment in einem 2h-Podcast, der zufällig mit Kernkraftwerken zu tun hat.

Ich hoffe die Notizen und meine Gedanken dazu sind hilfreich. Über Feedback würde ich mich freuen.