Was Heiko sagt.
Natürlich gibt es eine Dunkelziffer und Beifang ggf. auch weil ich davon abhängig bin, dass der Feed richtig eingetragen wurde. Außerdem gab es beim Crawl ein paar Dutzend feeds, die einen 404 Fehler gaben und deswegen nicht berücksichtigt wurden. Keine Ahnung was es bei deinem Feed jetzt konkret war. Ich werde ja öfter Mal crawlen, wenn alles richtig eingetragen ist sollte dein Feed also demnächst auftauchen.
Okay.
Ich habe die Einstellungen mit Podlove gemacht, im WP-Backend kann ich da auch “nur” englische Kategorien angeben, die Sprache des Podcasts ist aber auf deutsch gestellt. In den Verzeichnissen finde ich ihn nicht, weil es auch gar kein “Ü” gibt, bzw. Einträge mit “Ue”. Der Podcast heißt “Übergabe - Der Podcast”.
Einen Fehler im Feed kann ich mir kaum vorstellen, weil alle Dienste den feed auslesen und immer aktualisieren (deezer, apple, fyyd, Spotify, usw.). Dann wart ichs mal ab, verwundert bin ich trotzdem
Bei den meisten Feeds, die einen timeout oder 404 liefern könnte man kurz danach die Datei wieder bekommen, nur mache ich das eben nicht. Es reicht ja schon, dass Du Dein Wordpress aktualisierst während ich “vorbeikomme” um eben genau dann ein Problem zu produzieren. Nachdem ich aber bis zu 750000 Links abgegrast habe, nahm ich darauf bisher keine Rücksicht und gehe im Falle eines Zugriffsfehlers einfach weiter, auch in dem Wissen, dass wir von einer Minderheit betroffener Feeds sprechen.
Was meinst Du damit? Mein Podcast heißt “Anerzählt” und wird gefunden…
//D
Ok, jetzt habe ich es verstanden und auch nachvollzogen. Ich habe mich manuell durch die in Frage kommende Kategorie geklickt und in der Tat - iTunes listet keinen Podcast, dessen erster Buchstabe ein Umlaut ist. WTF?!
Ä,Ö,Ü… sind leider nicht dabei. Ich hatte erwartet, dass die in der Sonderzeichen/Zahlen Kategorie enthalten wären, sind sie aber nicht.
Das erklärt dann leider auch warum Dein Podcast nicht in der Sammlung ist, denn mein Crawler hat ja nur eine Möglichkeit an die Daten zu kommen: Erst listet er alle Podcasts auf, die Apple im Directory zeigt und geht von dort aus weiter. Die sonstigen Apple Such-APIs sind leider ziemlich limitiert, aber ich werde mal schauen ob ich darüber einen alternativen Weg finde.
Damit ergibt sich jetzt auch eine “Dunkelziffer”, die ich so nicht auf dem Schirm hatte. Ich vermute mal, dass es ein paar Dutzend Shows gibt, die tatsächlich mit so einem Umlaut im Titel starten und es deswegen nie in meine Liste schaffen. Danke für den Hinweis!
Für uns hier leite ich allein schon wegen der mangelnden Anzeige bei iTunes ab: Podcasttitel mit Umlaut zu beginnen ist vielleicht etwas worüber man noch einmal nachdenken möchte…
//D
Damit meine ich, dass ich in der Übersicht in iTunes auf “U” gehe und dort Umlaute am Wortanfang nicht finde. Macht ja erstmal nichts, solang die Leute hören, bin ich zufrieden. Wundert mich eben nur
Ich würde mich von dieser Apple-Seite nicht verrückt machen lassen. Erstens steht oben Vorschau/Preview und nicht Verzeichnis zweitens stellt sich mir die Frage, ob überhaupt jemand auf der Seite Podcasts sucht.
Es lässt sich niemand verrückt machen.
Aber wir diskutieren hier ja den Podcast-Datenbestand, den ich aus dem iTunes Verzeichnis gezogen habe und der hat anscheinend eine Lücke.
Anders kommt man leider auch nicht an einen einigermaßen kompletten Abzug der Podcastwelt da draußen (außer man ist Google und crawlt gleich das ganze Web) denn Apple stellt zwar eine API bereit, aber die taugt nur zur gezielten Suche aber nicht für Übersichtslisten. Genau deswegen musst Du Dich per Skript durch die Webseite von Apple wühlen und deren Links einsammeln.
Dabei stellt sich jetzt raus, dass mit Umlauten anfangende Podcasts überhaupt gar nicht auf der Webseite auftauchen. Das ist ziemlich sicher ein Bug, denn ansonsten sieht alles recht vollständig aus. Die haben einfach übersehen, dass Umlaute auch Buchstaben sind und deswegen in der Restzeichenliste nicht auftauchen.
Lange Rede kurzer Sinn: Für die Ursprungsidee festzustellen was es da draußen eigentlich an Podcasts gibt ist das hochgradig relevant, auch wenn sowohl @mynoxin als auch ich weiterhin ruhig schlafen werden
Nein. Da steht Vorschau. Die URI die dein Scanner verwendet ist nämlich https://itunes.apple.com/us/genre/music/id26
. Aber egal, mein Scan von gestern abend gibt ungefähr 500.000 Feeds her. Mir reichts…
snapshot-2019-05-12T00-41-31Z.zip (14.9 MB)
Die kriege ich auch, ich filtere dann nur noch nach den Deutschen als Subset.
Und die Start-URI die mein Scanner verwendet ist ansonsten diese: https://podcasts.apple.com/de/genre/podcasts/id26
Wie viele Podcasts mit Ü am Anfang hast Du denn?
Nur um sicherzustellen, dass wir vom selben sprechen: Ich hatte vor 9 Tagen einen neuen Crawler und die erzeugten Daten hier reingestellt:
Keinen. Aber für meinen Link Extraction Code würde ich die Hand nicht ins Feuer legen. Außerdem fehlen mir auch andere. U.a. fehlt mir https://audiodump.de/2019/05/09/ad046-warren-buffetts-wishlist/
. Ich nehme an, das @Malik den mit einem <
am Anfang eingetragen hat. Ist mir aber auch nicht so wichtig. Ist für einen Softwaretest. Stützt aber deine These mit den Umlauten am Anfang des Podcast-Namens.
Klar. Ich glaube aber die beiden URIs zeigen auf den gleichen Datenbestand. Aber ich probiere meinen Scanner mal mit deiner URI aus.
Ich weiß halt, dass Apple nach Landes-ID bestimmte Podcasts ausblendet. Wenn z.B. auch nur ein einziges “Explicit”-Tag im Feed ist verschwindet Dein Podcast in ganz Asien und verschiedenen Südamerikanischen Ländern. Deswegen wollte ich mit dem deutschen Language Tag starten um auch wirklich das zu sehen was hierzulande gelistet ist. Sind trotzdem knapp 500k.
Ansonsten behauptet übrigens Apple an verschiedenen Stellen es wären insgesamt fast eine Million Listungen, uns fehlen also so oder so eine Menge Einträge. Für den generellen Zweck reicht es aber immer noch und es soll erst mal jemand mit einer besseren Sammlung ankommen
Eben…
Das ist meiner: https://github.com/heikopanjas/ultraschall-scanner. Braucht allerdings einen SQL Server. ¯_(ツ)_/¯
Ist das Problem nicht, dass in dem Skript ascii_uppercase verwendet wird und damit ÄÖÜ nicht abgefragt werden?
Wenn man direkt danach fragt, bekommt man auch die Einträge zurück:
https://podcasts.apple.com/de/genre/podcasts-nachrichten-und-politik/id1311?letter=Ü
Ergänzung: Es ging um deutsche Podcasts richtig? Wenn nicht gibt es auch noch mehr Sonderzeichen, die man abfragen sollte. Zum Beispiel Å:
https://podcasts.apple.com/de/genre/podcasts-nachrichten-und-politik/id1311?letter=Å
Geiler Catch!
Auf der Apple Seite gibt’s diese Buchstaben zwar auch nicht, aber ich fixe und re-crawle mal
Ja ist erstaunlich. Vermutlich benutzt niemand dieses Interface.
Habe jetzt mal meine Version aktualisiert. Werde noch ein wenig weiterbasteln und dann dieser Tage neu laufen lassen. https://github.com/dirkprimbs/itunes-podcast-crawler
Weil es im aktuellen Sendegarten von @sreimers und @martinruetzler gefragt wurde:
Für diese Aussage habe ich einfach mal nach Podcastern gesucht, die mehr als 10 Sendungen registriert haben. Das bezog sich auf alle Sendungen, egal wie alt und egal ob aktiv oder nicht.
Macht man das, findet man praktisch nur Radiosender und Universitäten, also keine Privatpersonen. Das bedeutet einfach nur, dass es ein (logisches) Limit gibt wie viel Sendungen Hobbyisten online stellen. Sogar “Profis” wie Viertausendhertz bleiben derzeit noch unter der 10er Marke…
Und noch etwas: Die Welle an Nullnummern in letzter Zeit kam daher weil der @eazy mit Hilfe meiner Daten seinen Index aktualisiert hat. Da kamen dann eine Menge Sendungen hinzu und einige landeten deswegen geballt in der Nullnummernkuration. Das ist inzwischen wieder abgeflaut und zurück zum Normalzustand…
LG //D
Hallo ihr lieben
ich habe regelmäßig Fragen von Leuten, die diesen Post hier finden und dann die Links im Intro nutzen. Deswegen habe ich jetzt in einem Verzweiflungsakt einen neuen zentralen Platz für die Daten angelegt und einen neuen Intro-Post geschrieben um der Verwirrung hoffentlich Herr zu werden und sicherzustellen, dass Suchende auch immer den aktuellen Stand finden…
Bitte hier entlang: