Daten aus dem Apple Podcasts Verzeichnis

Nachtrag: Aus dem erwähnten neugefundenen Podcasts war mir dieser aufgefallen:

Auch er findet sich in der Kategorie “Religion und Spiritualität” nicht unter ‘H’. Allerdings ist er in der Beliebte Podcasts-Liste der Kategorie. Mir kam in den Sinn einfach mal zu probieren, ob er unter dem Kleinbuchstaben ‘h’ zu finden ist. Und ja stellt sich heraus, es gibt unterschiedliche Ergebnisse, wenn man Kleinbuchstaben verwendet und dort ist der Podcast gelistet.

Ich würde also empfehlen “ascii_lowercase” auch abzufragen. Riesige Mengen an zusätzlichen Podcasts sind das nicht, aber das ein oder andere - zum Beispiel teenagersexbeichte - erwischt man damit doch.

Noch ein Vorschlag: Es ist überlegenswert zumindestens die erwähnte Beliebte Podcasts-Liste für alle Kategorien (oder “genres”) einmal durchzugehen

https://podcasts.apple.com/XX/genre//id1301
https://podcasts.apple.com/XX/genre//id1321
https://podcasts.apple.com/XX/genre//id1304
...

und dabei XX mit ar,es,hk,it,ru usw. zu ersetzen. Das erfordert keinen großen Rechercheaufwand zur Modifizierung des Skripts. Die zusätzlichen Abrufe entsprechen der Anzahl der “genres” (ggf. plus “sub genres”) multipliziert mit der Anzahl Länder-/Sprachenversionen, was vermutlich auch noch überschaubar ist.

Man hätte dann zumindestens die beliebtesten Podcasts aus allen Sprachen über das gesamte Verzeichnis mit in der Sammlung. Das ist für manche weitergehenden Auswertungen vielleicht auch interessant.

Hallo in die Runde!

Das ist ja total stark, dass es endlich mal eine Übersicht zu den Podcasts auf Itunes gibt. Die Frage, die sich mir stellt: Geht das auch für andere Podcast-Verzeichnisse/-Plattformen? Z.B. Spotify, Deezer, Podcast.de o.ä.? Innerhalb der Verzeichnisse wird es wahrscheinlich vor allem Überschneidungen geben, da ein Podcast ja meist auf mehreren Portalen angeboten wird. Trotzdem interessant zu sehen, wie sich die Angebote so verteilen. Gibt es hier schon etwas?

Ansonsten schon mal vielen Dank für die tolle Arbeit!

Liebe Grüße Kathi

Abhängig vom jeweiligen Dienst kann das schwierig sein. Apple hat als einzige eine öffentlich durchsuchbare Webseite und ohne Anmeldung nutzbare API. Alle anderen Dienste kann man nur nach Anmeldung durchsuchen und dann vermutlich nicht in dem notwendigen Umfang.

Hi, das PRoblem ist das geschloßene Plattformen die Daten sehr eng an der Brust halten, da es für Sie ja die Geschäftsgrundlage sind. Daher ist ja für viele Podcaster die offenen oder wenigstens fast offenen Verzeichnisse wie iTunes der Goldstandard, bei Deezer, Spotify etc ist halt immer eine Firma dahinter die mehr Geld macht wenn Sie keine Daten raus geben … offene APIs und Kooperation ist halt auf Dauer besser für alle aber das sehen Konzerne leider nicht. Meine Spotify Statistiken sind zB auch deutlich schlechter (in der Datenqualität) als das was Apple über iTunes ausspuckt.

hust hust :wink:

2 „Gefällt mir“

War das ein warnendes “und eh du dich versiehst hast du ein Verzeichnis am Hals”-hust oder ein “fyyd hat ne super API”-hust? :wink:

3 „Gefällt mir“

Ob die API super ist, müssen andere beurteilen, aber sie ist ohne Anmeldung nutzbar :slight_smile:
Andererseits kann ich kaum leugnen, dass Apple ein etwas größeres Verzeichnis hat als fyyd und deshalb der Vergleich nicht einmal mehr hinken kann.

[edit] jetzt hab ich auch noch auf den falschen Post geantwortet. Wird Zeit für Urlaub und so [/edit]

2 „Gefällt mir“

Die Apple API hat, sagen wir mal, noch deutlich Luft nach oben.

3 „Gefällt mir“

Ja, aber die haben mein Angebot nicht angenommen, denen das richtig zu machen. Tja… :wink:

[noch ein edit]
Und damit das hier auch ein wenig Sinn erhält: Die API, über die ich rede, hat hier eine Dokumentation gefunden: https://github.com/eazyliving/fyyd-api
[/noch ein edit]

3 „Gefällt mir“

Was ist denn die Datenquelle für fyyd?

Die Frage zielt sicher darauf ab, woher die Infos über neue Podcasts kommen… die werden manuell von Hörerinnen oder den Podcastmenschen selbst dort abgeliefert :slight_smile:

2 „Gefällt mir“

Es ist mal wieder so weit. Ich habe einen neuen Crawl laufen lassen.
Die Deutschen Daten habe ich wie immer für einfache Bearbeitung in mein praktisches Google Spreadsheet geworfen. Ich habe die Daten vom letzten Mal auch drin gelassen so dass Vergleiche möglich werden.

Ein paar fast facts, die mir aufgefallen sind (more to come, ich „verdaue“ gerade noch die großen Datenbanken und mach noch ein paar zusätzliche Crawls):

  • Der Bestand an Podcasts hat sich seit dem letzten mal mehr als verdoppelt. Beim letzten Mal zählte ich noch 15205 dt. Podcasts und gestern waren es 34635. Das ist analog zur Gesamtzahl die mein Crawler gefunden hat. Da waren es 2019 noch knapp über 700k und sind jetzt über 1,3 Millionen weltweit.
  • Obwohl überall behauptet wird dass True Crime ein Ding wäre ist die extra dafür eingeführte Kategorie mit 135 Sendungen deutlich kleiner als ich vermutet hätte.
  • Spannend auch: Die Kategorien „Management und Marketing“ sowie „Selbsthilfe“ scheinen rückläufig zu sein und das obwohl die Gesamtzahl aller Sendungen sich verdoppelt hat. Wenn ich jetzt mal von der Annahme absehe dass der Crawl hier falsch war, kann das an verschiedenem liegen, z.B. könnte es sein, dass die entsprechenden Sendungen als primäre Kategorie etwas anderes wählen (z.B. Wirtschaft oder Gesellschaft) oder die Sendungen in der Sparte sind einfach so kurzlebig dass es mehr „sterbende“ als neue Formate gibt.
  • Relativ haben die Kategorien „Gemeinnützig“, „Mode und Schönheit“, „Spiritualität“ und „Medizin“ am stärksten zugelegt und sich jeweils knapp vervierfacht. („Luftfahrt“ hat sich vervierzehnfacht, von 1 auf 14 aber das ist vermutlich ein Effekt der Kategorienänderung bei iTunes).

Ein paar Hinweise zu dem eigentlichen Crawl:

  • ich erhebe keinen Anspruch auf Vollständigkeit! Von den insgesamt 1,3mio Podcastfeeds die ich gefunden habe gaben mir knapp 64,000 beim Zugriff eine Fehlermeldung und bisher habe ich keine Anstalten gemacht diesen Fehler auszugleichen (mir reicht das was ich auf Anhieb bekommen habe :wink: )
  • Es gibt gelegentlich Fehlzuordnungen weil die Feeds von teilweise durchwachsener Qualität sind. Es mag also sein dass ich Sendungen als Deutsch erkannt habe die es eigentlich nicht sein sollten oder umgekehrt. Insgesamt scheint der Datenbestand einem ersten groben Blick aber standzuhalten.
  • Beim letzten Mal habe ich noch ein paar manuelle Cleanups-gemacht (z.B. die Lanuage Tags geradegezogen etc.) Mal sehen ob und wann ich das noch mache. Für einen ersten Blick braucht es das erst mal nicht.
  • Ich versuche Sonderzeichen mit zu berücksichtigen aber es gibt eine Menge Sprachen von denen ich keine Ahnung habe. Ich habe daher auf Deutsch und Englisch optimiert. Auch hier: Wer seinen Podcasttitel mit exotischen Schriftzeichen beginnt mag dann durch mein Raster gefallen sein :wink:
  • Für den Crawl habe ich den Code neu geschrieben weil der alte linear ablaufende Code mit der Menge der Daten gnadenlos überfordert war. Wer will scrollt ganz hoch und holt sich das Python Skript auf Github. Aber seid gewarnt: Ich habe nicht mal versucht das in ordentlich zu machen… So, don’t judge…
  • Zu den Daten allgemein: Die sind nur ein Subset was möglich wäre. Sowohl bei meinen Aufrufen an die Apple APIs als auch beim Auswerten der Feeds habe ich eine Auswahl der Daten übernommen und den Rest weggeworfen. Da geht also ggf. mehr… Einfach mal melden wenn Du eine Frage hast die die Daten derzeit nicht beantworten. Vielleicht kann ich helfen. Ich garantiere und verspreche allerdings nichts…

So und jetzt tauche ich mal wieder ab. Wir lesen uns!
ttfn //D

11 „Gefällt mir“

danke! Das ist wirklich toll, diese Datenlage.
Nur eine kurze Frage: Sonderzeichen ist klar, dass die nicht alle albgefrühstückt werden kann, aber Umlaute zu Beginn der Namen wäre schon möglich, oder? Einer meiner Podcasts (Übergabe) ist wieder nicht dabei und ich möchte meinen, dass Titel mit Ä/Ü/Ö durchaus nicht so arg selten sind, oder?

Deutsche Umlaute rufe ich auch ab. Wenn Deiner nicht in dem Datensatz ist dann hat Dein Server zu dem Zeitpunkt zu dem ich vorbeikam den Feed evtl. nicht rausgerückt oder Dein Feed weist den Podcast nicht als Deutsch aus.

Nachtrag: Ich habe eben nachgesehen. Dein Podcast steht doch drin?

Du hast sehr recht!
Entschuldige bitte, ich war nicht geduldig beim laden der Suche :wink:
Sorry!

1 „Gefällt mir“

Auf Twitter erreichte mich ein Kommentar den ich Euch nicht vorenthalten will weil er natürlich völlig Recht hat:

Hi Dirk, eine Ergänzung zu deinem Sendegate-Post zum letzten Crawl, inbesondere diesem Part

„True Crime ist entweder ein unbestelltes Boom-Segment oder eigentlich völlig unbedeutend… Anders kann ich mir die gerade mal 135 Sendungen in Deutschland in der Kategorie „Wahre Kriminalfälle“ nicht erklären.“

Schau mal, worunter in Deutschland die gängigen True-Crime-Podcasts kategorisiert sind. Das ist eine Schwäche deiner Herangehensweise: Es setzt voraus, dass alle als True Crime kategorisieren, was True Crime ist UND außerdem den relativ jungen Kategorie-Tag dafür überhaupt kennen und nutzen (können)

Liebe Grüße

Also anders formuliert: Jede Aussage die ich hier tätige geschieht unter dem Vorbehalt dass es eine Beschreibung der in den Feeds hinterlegten Informationen ist. Die hängen von mehreren Faktoren ab:

  1. Der Feed wurde ordentlich erstellt und enthält korrekte Angaben - Da hilft natürlich dass wir es mit eine Masse an Feeds zu tun haben über die sich einige Fehler dann statistisch rausmitteln aber trotzdem gibt es immer noch eine Menge Unschärfen derer man sich bewusst sein muss.
  2. Die Angaben in den Feeds sind meist durch die Vorgaben von Apple beeinflusst. So hat Apple z.B. sein eigenes Kategorisierungssystem und hat das außerdem noch vor einigen Monaten umgestellt. Zum einen wechselt nicht jede(r) die Kategorie nur weil Apple neue einrichtet und zum anderen kann es natürlich sein dass Kategorien einfach anders verwendet werden. Sandro’s Kommentar stellt das gut heraus. Vermutlich gibt es eine True Crime Dunkelziffer… Vermutlich könnte ich die aber auch aufklären indem ich nicht nur die Primärkategorie erfasse sondern auch noch die anderen. Bleibt also die Feststellung: Die Kategorien sind eine sehr unscharfe Annäherung daran in welchem Segment die Podcaster:innen ihren Content positionieren wollen. Das muss nicht immer der Wahrheit entsprechen oder kann auch mal schlicht Interpretationssache sein.
  3. Mein Code ist schon für sich genommen auch eine Interpretation. Ich habe ja mitnichten einen Full Take der verfügbaren Daten. Tatsächlich dürfte ich das gar nicht (die Daten gehören Apple und ich darf bestenfalls zu Forschungszwecken Teile davon auswerten) und zweitens will ich das auch gar nicht. Ich wähle also aus (die Kategorien oben sind ein schönes Beispiel) und ich deute auch einfach mal nur. Sandro’s Kommentar zeigt auch dass ich solche implizierten Annahmen und Interpretationen besser kennzeichnen sollte.

ttfn //D

2 „Gefällt mir“

Hallo zusammen,

die Dezember-Zahlen sind da. Wie immer findet ihr den aktuellen Stand in diesem (inzwischen ziemlich üppigen) Spreadsheet.

Kurze Zusammenfassung:

  • Die Gesamtzahl im Apple Podcasts Directory gelisteter Deutschsprachiger Podcasts stieg netto um 1119 Formate.
  • Anchor wuchs in der selben Zeit um 802 Sendungen.

Ansonsten gilt analoges wie schon früher im Thread gesagt… Viel Spaß mit den Daten, lasst wissen falls ihr Fragen habt.

ttfn //D

2 „Gefällt mir“

Aloha,

Wie jeden Monat habe ich auch diesmal wieder ein neues Datenblatt dem Spreadsheet-Monster hinzugefügt…

Im Februar ist die Zahl der in iTunes gelisteten Podcasts von 37207 auf 36929 zurückgegangen.

VG //D

3 „Gefällt mir“

Die Lockdownmaßnahmen der Regierung greifen also :joy:

Gibts nen Hinweis drauf, was weggefallen ist?

Ließe sich rausfinden, habe ich aber noch nicht gemacht…

1 „Gefällt mir“