Daten aus dem iTunes Podcast Verzeichnis

Es war mal wieder Zeit…
Ich habe meinen Crawler neu geschrieben und die als Deutschsprachig identifizierbaren Podcasts aus dem Directory gefischt. Wer will kann in diesem Google
Spreadsheet
mit den Daten spielen oder hier das Excel File samt Pivot (2,7MB) herunterladen.
Für technisch versierte habe ich auch hier ein dekoratives JSON File (ZIP, 890kb)…

Wer selbst ran will oder wissen möchte wie mein Crawler funktioniert, der läd hier das Python Skript runter. Aber Achtung:

  1. Das Ding ist Quick & Dirty, erwartet keine besonders hohe Qualität
  1. Die iTunes API gibt nur sehr wenig Infos her weswegen ich außerdem jeden Feed abrufe. Wenn man das daheim nachmacht, dann zieht man nicht nur sehr viel Daten sondern sollte auch knapp eine Woche Zeit für den Crawl einplanen (ca. 750000 Feeds x ca. 1 Sekunde Zeitaufwand = 8,3 Tage)

Viel Spaß damit!

Quick Highlights:

  • Insgesamt sind in itunes 15265 Podcasts registriert deren Feeds im Language Tag als Sprache “de*” tragen also sich selbst als Deutsch identifizieren.
  • die verteilen sich auf 11060 unterschiedliche Podcaster (bzw. unterschiedliche Angaben bei “Autor”
  • Davon haben 7194 dieses Jahr noch kein Update gesehen. Sprich: knapp die Hälfte sind entweder verstorben oder pausieren.
  • Soundcloud hat mit 1585 Feeds immer noch einen ordentlichen Anteil.
  • anchor-feeds sind mit 655 auch ordentlich vertreten.
  • Lt. iTunes ist “Bildung” mit 1107 Podcasts die “vollste” Kategorie gefolgt von “Gesellschaft und Kultur” (1095) und “Musikfilme” (933, wtf?)
  • 2873 Podcasts stammen von 83 Podcastern mit mehr als 10 registrierten Sendungen. Keiner davon ist privat.
10 „Gefällt mir“