Daten aus dem iTunes Podcast Verzeichnis


#41

Sind das Podcasts? Ich würde sagen es sind welche, eben abgeschlossene. Nur weil die auf “complete” gesetzt sind heißt das ja nicht, dass es sich um Hörspiele handelt und selbst wenn würde das auch nichts ändern. Viel interessanter ist doch die Frage: Sind die relevant? Sprich: Ziehen solche Formate noch Hörerinnen an?

Das ist doch eine Frage, die zumindest teilweise von podigee beantwortbar sein müsste. Schließlich sehen die für über 1700 Podcasts die Zugriffsstatistiken.

@mati.podigee, @vanilla_chief - wäre es nicht allgemein interessant uns von diesen Statistiken mehr zu erzählen? Libsyn berichtet beispielsweise in ihrem Podcast “The Feed” einmal im Monat von ihren Statistiken. Wie viele Zugriffe finden im Mittel statt, Wie viele Zugriffe haben die Top Podcasts, woher kommen diese Zugriffe, welche Clients werden benutzt etc.

Ich fände toll das Equivalent dazu im Deutschen Markt zu bekommen…

//D


#42

Ja, das wäre eine tolle Sache. Da wir unsere Statistiken aktuell eh neu aufsetzen, könnten wir überlegen, wie wir bestimmte Daten anonym, Podcast-übergreifend auswerten können. Ich nehme das mal auf :slight_smile:


#43

fyi: Ich habe das Google Spreadsheet jetzt auch um die Anzahl Episoden und ein paar praktische Detailspalten ergänzt (z.B. gibt es jetzt eine Spalte in der ausschließlich die Domain steht)


#44

Ich hab meinen Podcast grad mal in der Liste gesucht und nicht gefunden. Bin natürlich bei iTunes gelistet und dieses Jahr 9 Folgen veröffentlicht. Woran liegts?
Das heißt, die Dunkelziffer könnte größer sein?


#45

Such mal deinen Podcast unter https://itunes.apple.com/de/genre/music/id26. Wenn er da nicht ist, taucht er auch nicht in Dirks Liste auf.


#46

Bzw. unter https://itunes.apple.com/us/genre/music/id26. In deinem Feed stehen ja englische Kategorien.


#47

Was Heiko sagt.
Natürlich gibt es eine Dunkelziffer und Beifang ggf. auch weil ich davon abhängig bin, dass der Feed richtig eingetragen wurde. Außerdem gab es beim Crawl ein paar Dutzend feeds, die einen 404 Fehler gaben und deswegen nicht berücksichtigt wurden. Keine Ahnung was es bei deinem Feed jetzt konkret war. Ich werde ja öfter Mal crawlen, wenn alles richtig eingetragen ist sollte dein Feed also demnächst auftauchen.


#48

Okay.
Ich habe die Einstellungen mit Podlove gemacht, im WP-Backend kann ich da auch “nur” englische Kategorien angeben, die Sprache des Podcasts ist aber auf deutsch gestellt. In den Verzeichnissen finde ich ihn nicht, weil es auch gar kein “Ü” gibt, bzw. Einträge mit “Ue”. Der Podcast heißt “Übergabe - Der Podcast”.

Einen Fehler im Feed kann ich mir kaum vorstellen, weil alle Dienste den feed auslesen und immer aktualisieren (deezer, apple, fyyd, Spotify, usw.). Dann wart ichs mal ab, verwundert bin ich trotzdem :slight_smile:


#49

Bei den meisten Feeds, die einen timeout oder 404 liefern könnte man kurz danach die Datei wieder bekommen, nur mache ich das eben nicht. Es reicht ja schon, dass Du Dein Wordpress aktualisierst während ich “vorbeikomme” um eben genau dann ein Problem zu produzieren. Nachdem ich aber bis zu 750000 Links abgegrast habe, nahm ich darauf bisher keine Rücksicht und gehe im Falle eines Zugriffsfehlers einfach weiter, auch in dem Wissen, dass wir von einer Minderheit betroffener Feeds sprechen.

Was meinst Du damit? Mein Podcast heißt “Anerzählt” und wird gefunden…

//D


#50

Ok, jetzt habe ich es verstanden und auch nachvollzogen. Ich habe mich manuell durch die in Frage kommende Kategorie geklickt und in der Tat - iTunes listet keinen Podcast, dessen erster Buchstabe ein Umlaut ist. :frowning: WTF?!
Ä,Ö,Ü… sind leider nicht dabei. Ich hatte erwartet, dass die in der Sonderzeichen/Zahlen Kategorie enthalten wären, sind sie aber nicht.

Das erklärt dann leider auch warum Dein Podcast nicht in der Sammlung ist, denn mein Crawler hat ja nur eine Möglichkeit an die Daten zu kommen: Erst listet er alle Podcasts auf, die Apple im Directory zeigt und geht von dort aus weiter. Die sonstigen Apple Such-APIs sind leider ziemlich limitiert, aber ich werde mal schauen ob ich darüber einen alternativen Weg finde.

Damit ergibt sich jetzt auch eine “Dunkelziffer”, die ich so nicht auf dem Schirm hatte. Ich vermute mal, dass es ein paar Dutzend Shows gibt, die tatsächlich mit so einem Umlaut im Titel starten und es deswegen nie in meine Liste schaffen. Danke für den Hinweis!

Für uns hier leite ich allein schon wegen der mangelnden Anzeige bei iTunes ab: Podcasttitel mit Umlaut zu beginnen ist vielleicht etwas worüber man noch einmal nachdenken möchte…
//D


#51

Damit meine ich, dass ich in der Übersicht in iTunes auf “U” gehe und dort Umlaute am Wortanfang nicht finde. Macht ja erstmal nichts, solang die Leute hören, bin ich zufrieden. Wundert mich eben nur :slight_smile:


#52

Ich würde mich von dieser Apple-Seite nicht verrückt machen lassen. Erstens steht oben Vorschau/Preview und nicht Verzeichnis zweitens stellt sich mir die Frage, ob überhaupt jemand auf der Seite Podcasts sucht.


#53

Es lässt sich niemand verrückt machen.

Aber wir diskutieren hier ja den Podcast-Datenbestand, den ich aus dem iTunes Verzeichnis gezogen habe und der hat anscheinend eine Lücke.

Anders kommt man leider auch nicht an einen einigermaßen kompletten Abzug der Podcastwelt da draußen (außer man ist Google und crawlt gleich das ganze Web) denn Apple stellt zwar eine API bereit, aber die taugt nur zur gezielten Suche aber nicht für Übersichtslisten. Genau deswegen musst Du Dich per Skript durch die Webseite von Apple wühlen und deren Links einsammeln.

Dabei stellt sich jetzt raus, dass mit Umlauten anfangende Podcasts überhaupt gar nicht auf der Webseite auftauchen. Das ist ziemlich sicher ein Bug, denn ansonsten sieht alles recht vollständig aus. Die haben einfach übersehen, dass Umlaute auch Buchstaben sind und deswegen in der Restzeichenliste nicht auftauchen.

Lange Rede kurzer Sinn: Für die Ursprungsidee festzustellen was es da draußen eigentlich an Podcasts gibt ist das hochgradig relevant, auch wenn sowohl @mynoxin als auch ich weiterhin ruhig schlafen werden :wink:


#54

Nein. Da steht Vorschau. Die URI die dein Scanner verwendet ist nämlich https://itunes.apple.com/us/genre/music/id26. Aber egal, mein Scan von gestern abend gibt ungefähr 500.000 Feeds her. Mir reichts…

snapshot-2019-05-12T00-41-31Z.zip (14.9 MB)


#55

Die kriege ich auch, ich filtere dann nur noch nach den Deutschen als Subset.
Und die Start-URI die mein Scanner verwendet ist ansonsten diese: https://podcasts.apple.com/de/genre/podcasts/id26

Wie viele Podcasts mit Ü am Anfang hast Du denn?


#56

Nur um sicherzustellen, dass wir vom selben sprechen: Ich hatte vor 9 Tagen einen neuen Crawler und die erzeugten Daten hier reingestellt:


#57

Keinen. Aber für meinen Link Extraction Code würde ich die Hand nicht ins Feuer legen. Außerdem fehlen mir auch andere. U.a. fehlt mir https://audiodump.de/2019/05/09/ad046-warren-buffetts-wishlist/. Ich nehme an, das @lik den mit einem < am Anfang eingetragen hat. Ist mir aber auch nicht so wichtig. Ist für einen Softwaretest. Stützt aber deine These mit den Umlauten am Anfang des Podcast-Namens.


#58

Klar. Ich glaube aber die beiden URIs zeigen auf den gleichen Datenbestand. Aber ich probiere meinen Scanner mal mit deiner URI aus.


#59

Ich weiß halt, dass Apple nach Landes-ID bestimmte Podcasts ausblendet. Wenn z.B. auch nur ein einziges “Explicit”-Tag im Feed ist verschwindet Dein Podcast in ganz Asien und verschiedenen Südamerikanischen Ländern. Deswegen wollte ich mit dem deutschen Language Tag starten um auch wirklich das zu sehen was hierzulande gelistet ist. Sind trotzdem knapp 500k.

Ansonsten behauptet übrigens Apple an verschiedenen Stellen es wären insgesamt fast eine Million Listungen, uns fehlen also so oder so eine Menge Einträge. Für den generellen Zweck reicht es aber immer noch und es soll erst mal jemand mit einer besseren Sammlung ankommen :wink:


#60

Eben…

Das ist meiner: https://github.com/heikopanjas/ultraschall-scanner. Braucht allerdings einen SQL Server. ¯_(ツ)_/¯