Podlove-Publisher-Stats: Massive Spam(?)-Zugriffe auf Feed?

Ich sehe seit zwei Tagen ein wirklich seltsames Phänomen in meinen Podlove Publisher Stats. Das Problem ist eigentlich gar kein Podlove-Publisher-Problem (denn die Anzeige scheint absolut korrekt zu sein), aber ich wusste nicht, wo ich es hier sonst posten soll…

Mein Beffaná-Podcast (https://beffana.net) ist ein Adventspodcast für Familiy & Friends. 24 Folgen pro Jahr, alle im Dezember. Die restlichen 11 Monate ist Zugriffs-Ebbe.

Seit gestern ein völlig anderes Bild: Irgendein Bot, Script, whatever, lädt massiv Folgen herunter. Client und Betriebssystem werden als „unknown“ angegeben. Insgesamt sind es mehrere Tausend Downloads pro Tag (siehe Screenshots). Die Downloads sind annähernd gleichverteilt über alle Folgen.

Bildschirmfoto 2021-02-25 um 09.40.15

Bildschirmfoto 2021-02-25 um 10.02.53

Ich hab meine Folgen nicht direkt im Wordpress, sondern benutzte als CDN Amazon Cloudfront. Und auch hier spiegelt sich die Zugriffsspitze. Mich kostet der „Spaß“ derzeit rund 4 Dollar am Tag. (Btw.: Die Zugriffsspitzen in den Wochen davor sind real, das stammt von einem anderen Podcast, der über dasselbe CDN läuft).

Bildschirmfoto 2021-02-25 um 09.36.07

Bevor ich jetzt den Podcast vom Netz nehme, weil die Kosten ärgerlich hoch werden, wollte ich fragen, ob jemand dieses Phänomen kennt und ob es sich irgendwie verhindern lässt… Danke!

Du könntest die zugehörige IP-Adresse sperren, aber das dürfte in ein Katz-und-Maus-Spiel ausarten.

1 Like

Ja, danke. Auf sowas wird’s uU hinauslaufen. Ich hab mal auf Amazon-Seite beim CDN das Logging angestellt, um herauszukriegen, von wo genau die Zugriffe kommen. Podlove ist da ja (glücklicherweise) recht datensparsam. Bei Amazon CloudFront könnte ich wohl bestimme IP-Adressbreiche bzw. ganze Länder sperren. Ich frag mich nur, was der Sinn hinter so massiven Content-Abrufen sein kann. Außer Matthias ärgern… :astonished:

WTF??? Es ist Spotify?? Nicht Euer Ernst, Leute… (Kann aber auch eine Fake-ID sein)

Bildschirmfoto 2021-02-25 um 15.54.50

Ich würd mich ja uU freuen, nur zeigen die Spotify-Stats genau gar nix an. Und die zugehörigen IP-Adressen werden alle dem Provider Google (möglicherweise auch Google Cloud Services?) in Brüssel zugeordnet. Okay. Ich belästige Euch mal nicht weiter mit Einzelheiten meiner Recherche. Wäre nur interessant zu erfahren, ob jemand anderem sowas auch schon mal passiert ist. Viele Zugriffe auf einen Podcast sind ja toll, aber wenn sie keinen Sinn ergeben und nur Kosten erzeugen, isses irgendwie doof…

In https://github.com/opawg/user-agents/blob/ce4e59d66fd5d08c39f0c4f2d7bd70c58fef569b/src/user-agents.json#L1904-L1912 steht dazu:

This useragent, currently simply Spotify/1.0, is used when retrieving the RSS and audio for Spotify’s catalogue. It isn’t used for passthru.

Also keine User, sondern der „Cache“ den Spotify da selbst nochmal anlegt. Du kannst die Folgen natürlich auch einfach zu Archive.org hochladen, bevor du den komplett offine nimmst – glaube da gibts irgendwo hier auch in Howto dazu.

Ansonsten ggf. auch einfach mal im OPAWG-Slack fragen ob das andere da auch schon mal hatten.

1 Like

Danke für den Link. Was der Spotify – Bot eigentlich macht, ist mir schon klar. Nur war es bisher doch so (und ist soweit ich weiß auch bei meinen anderen Podcasts so), dass der Spotify-Bot einmal die neue Folge holt und die dann auf Spotify–eigenen Servern cached. Mir ist eben nicht klar, warum er das in diesem Fall pro Folge mehr als 100 mal macht…

Ich hatte so etwas bei fast allen meinen Podcasts schon, allerdings war bei mir ein anderer User Agent gelistet. Letztendlich habe ich irgendwann das Plugin Wordfence installiert und sinnvolle Sperr-Regeln eingerichtet.

3 Like

Danke für den Tipp!

Um das hier nur kurz abzuschließen: Dank @dirkprimbs Tipp mit Wordfence und einigen restriktiven Filtereinstellungen war die Sache schnell gestoppt. Ich verstehe zwar immer noch nicht, welchen Sinn es für irgendwen hat, tausendfach Podcast – Folgen von irgendwo herunterzuladen und damit erheblichen Traffic und Kosten zu produzieren, aber Teile des Netzes und seiner Nutzer*innen sind wohl einfach Scheiße…

Naja, bei mir war das so dass einfach bei jeder Aktualisierung immer der gesamte Katalog runtergeladen wurde. Beim Anerzählt heißt das jeden Tag alle 1000 Episoden, bei 2debate 1x im Monat alle 100 usw… Ich habe daraus geschlossen dass hier jemand einen schlecht programmierten Crawler betreibt und versucht irgendeine Art von Archiv zu bestücken.

1 Like

Verstanden. Aber bei Beffaná wurde ja seit Wochen nix geupdated, als der Spuk anfing, weil der Adventskalender nun mal jedes Jahr an 24.12. aufhört. Wahrscheinlich ein ganz besonderes mies programmierter Crawler…