Daten aus dem Apple Podcasts Verzeichnis

dirkprimbs · 11. November 2020 um 12:40

Es ist mal wieder so weit. Ich habe einen neuen Crawl laufen lassen.
Die Deutschen Daten habe ich wie immer für einfache Bearbeitung in mein praktisches Google Spreadsheet geworfen. Ich habe die Daten vom letzten Mal auch drin gelassen so dass Vergleiche möglich werden.

Ein paar fast facts, die mir aufgefallen sind (more to come, ich „verdaue“ gerade noch die großen Datenbanken und mach noch ein paar zusätzliche Crawls):

Der Bestand an Podcasts hat sich seit dem letzten mal mehr als verdoppelt. Beim letzten Mal zählte ich noch 15205 dt. Podcasts und gestern waren es 34635. Das ist analog zur Gesamtzahl die mein Crawler gefunden hat. Da waren es 2019 noch knapp über 700k und sind jetzt über 1,3 Millionen weltweit.
Obwohl überall behauptet wird dass True Crime ein Ding wäre ist die extra dafür eingeführte Kategorie mit 135 Sendungen deutlich kleiner als ich vermutet hätte.
Spannend auch: Die Kategorien „Management und Marketing“ sowie „Selbsthilfe“ scheinen rückläufig zu sein und das obwohl die Gesamtzahl aller Sendungen sich verdoppelt hat. Wenn ich jetzt mal von der Annahme absehe dass der Crawl hier falsch war, kann das an verschiedenem liegen, z.B. könnte es sein, dass die entsprechenden Sendungen als primäre Kategorie etwas anderes wählen (z.B. Wirtschaft oder Gesellschaft) oder die Sendungen in der Sparte sind einfach so kurzlebig dass es mehr „sterbende“ als neue Formate gibt.
Relativ haben die Kategorien „Gemeinnützig“, „Mode und Schönheit“, „Spiritualität“ und „Medizin“ am stärksten zugelegt und sich jeweils knapp vervierfacht. („Luftfahrt“ hat sich vervierzehnfacht, von 1 auf 14 aber das ist vermutlich ein Effekt der Kategorienänderung bei iTunes).

Ein paar Hinweise zu dem eigentlichen Crawl:

ich erhebe keinen Anspruch auf Vollständigkeit! Von den insgesamt 1,3mio Podcastfeeds die ich gefunden habe gaben mir knapp 64,000 beim Zugriff eine Fehlermeldung und bisher habe ich keine Anstalten gemacht diesen Fehler auszugleichen (mir reicht das was ich auf Anhieb bekommen habe )
Es gibt gelegentlich Fehlzuordnungen weil die Feeds von teilweise durchwachsener Qualität sind. Es mag also sein dass ich Sendungen als Deutsch erkannt habe die es eigentlich nicht sein sollten oder umgekehrt. Insgesamt scheint der Datenbestand einem ersten groben Blick aber standzuhalten.
Beim letzten Mal habe ich noch ein paar manuelle Cleanups-gemacht (z.B. die Lanuage Tags geradegezogen etc.) Mal sehen ob und wann ich das noch mache. Für einen ersten Blick braucht es das erst mal nicht.
Ich versuche Sonderzeichen mit zu berücksichtigen aber es gibt eine Menge Sprachen von denen ich keine Ahnung habe. Ich habe daher auf Deutsch und Englisch optimiert. Auch hier: Wer seinen Podcasttitel mit exotischen Schriftzeichen beginnt mag dann durch mein Raster gefallen sein
Für den Crawl habe ich den Code neu geschrieben weil der alte linear ablaufende Code mit der Menge der Daten gnadenlos überfordert war. Wer will scrollt ganz hoch und holt sich das Python Skript auf Github. Aber seid gewarnt: Ich habe nicht mal versucht das in ordentlich zu machen… So, don’t judge…
Zu den Daten allgemein: Die sind nur ein Subset was möglich wäre. Sowohl bei meinen Aufrufen an die Apple APIs als auch beim Auswerten der Feeds habe ich eine Auswahl der Daten übernommen und den Rest weggeworfen. Da geht also ggf. mehr… Einfach mal melden wenn Du eine Frage hast die die Daten derzeit nicht beantworten. Vielleicht kann ich helfen. Ich garantiere und verspreche allerdings nichts…

So und jetzt tauche ich mal wieder ab. Wir lesen uns!
ttfn //D