Ich habe seit einigen Tagen sehr viele neue Downloads der aktuellsten Folge. Da freut man sich natürlich, aber hier geht das ganz klar nicht mit rechten Dingen zu:
So sieht es aus. Ende September kam die Folge raus, dann normaler exp-Abfall bis ca. 2. Oktober irgendwas passiert ist. Das Problem wird immer schlimmer. Die Folge ist jetzt schon ein kompletter Ausreißer und hat doppelt so viele Downloads wie die zweitplatzierte.
Die „Werkzeuge“ wie user-intent-cleanup und user-agent-refresh bringen hier nichts.
Ich habe noch nicht in die Datenbank selbst reingeschaut, aber ein Blick auf die zeitliche Abfolge zeigt, dass es bestimmte Stoßzeiten gibt:
67% der Podcastclients dieser Folge sind „Unknown“. Das werden diese Downloads sein. Das Betriebssystem ist hauptsächlich „android“ und sie laden aus Deutschland und über den feed.
Meine Theorie: Irgendeine Android Podcastapp hat ein kaputtes Update gepusht und diese Hörer*innen laden die neueste Folge jetzt jeden Tag regelmäßig herunter? Aber dann müsste das Problem ja auch bei anderen Podcasts auftreten?
Ich habe etwa Ähnliches beobachtet: Bei mir bekommen ältere Episoden gerade einen enormen Schub, etwa im Wochenrhythmus. Auch hier ist der Podcastclient „Unknown“. Ich habe bisher auf den nächsten LLM-Crawler getippt.
Aber irgendwie ist es schon komisch. Muss ja ein massiver Bug sein, dass das jeden Tag hunderte Downloads auslöst.
Ich habe nochmal direkt in die Datenbank geschaut nach den Clients… und es ist sehr unübersichtlich. Ich glaube viele Downloads sind von clients
stagefright/1.2 (Linux;Android 14)
stagefright/1.2 (Linux;Android 13)
… usw.
Client name, device model und eigentlich alle anderen Felder außer dem user-agent sind leer. Soweit ich das verstehe ist das irgendein android media framework. Sagt also irgendwie nichts aus.
Überlege mal mit dem Skalpell an die DB zu gehen und einfach alle stagefright download intents aus dem betreffenden Zeitraum zu löschen. Was kann schon schiefgehen?
Ich bin jetzt bereit. Mache mir natürlich ein backup der Datenbank, aber nochmal kurzer Realitätscheck, falls sich hier jemand mit sowas auskennt. Ich habe mir mal die Störenfriede aus den Download intents vor cleanup herausgesucht, und zwar so:
SELECT DATE(accessed_at) AS access_date, COUNT(*) AS access_count
FROM wp_podlove_downloadintent
WHERE user_agent_id IN (
SELECT id
FROM wp_podlove_useragent
WHERE user_agent LIKE '%stagefright%'
)
GROUP BY DATE(accessed_at)
ORDER BY access_date;
Die Daten kann man jetzt nicht lesen, aber im Wesentlichen geht es am 25.09. los und fällt am 12.11. dann deutlich ab. Aktuell habe ich zuverlässig 19 solche Downloads am Tag. Vor dem 25.09. waren es mehrere Monate lang Null. (Hmm, 25.09. ist genau das Erscheinungsdatum der Folge die so oft heruntergeladen wurde…)
Ich würde jetzt diese Einträge einfach aus den Download intents löschen, oder spricht da irgendwas dagegen? Es gibt dann aber user agents, die in der user agent datenbank sind, aber keine download intents mehr haben. Ist das ein Problem?
Eine sauberere Methode wäre wohl, in die Downloadbereinigung einzuhaken und diese Clients mit aufzunehmen. D.h., dass „stagefright/1.2 (Linux;Android 14)“ einfach nicht in die bereinigte Datenbank aufgenommen wird? Habe ich irgendwo die Möglichkeit das einzubauen?
Alright, also einhaken ist gar nicht so einfach, weil das Bereinigen eine einzige SQL Query ist, die Daten von DownloadIntent zu DownloadIntentClean schaufelt.
Aber Teil der Query ist, als Bot markierte User Agents rauszufiltern. Das heißt:
UPDATE wp_podlove_useragent
SET bot = 1
WHERE user_agent LIKE "%stagefright%";
dann einmal die Bereinigung komplett neu anstoßen and Bob’s your uncle.
PS: Ich erinnere mich vage, dass ich vor Jahren dem User Agent mal hinterhergeforscht habe, ohne genaues herauszufinden. Hatte mich aber nicht getraut, ihn auf die Bot-Liste zu setzen. LLM meint, das ist ziemlich sicher ein Bot. Vielleicht, in Verbindung mit deiner Erfahrung hier, ein Anlass das mal offiziell aufzunehmen.
Das Setzen von bot=1 für diese user agents hat wunderbar funktioniert und alles ist wieder schick.
Zur Interpretation: Bei mir gab es Frühling und Sommer 2024 NULL von diesen Downloads und ab 25.09. bis zu 500 Intents am Tag, die nach Bereinigung immer noch über 300 ergeben haben.
Woher kommen die? Es könnte ein Bug in irgendeiner Android-App sein, die versucht, die Datei nicht mehr selbst herunterzuladen, sondern sich die vom Betriebssystem zu besorgen? Kenne mich nicht aus mit Android. Aber warum immer wieder neu? Oder es ist ein LLM Crawler, der einen Bug hat. Aber warum betrifft es nur diese eine Folge? Ich habe auch bisher nicht herausgefunden, was an dieser Folge besonders ist.
Ich denke, es ist OK, Clients, die sich so gar nicht ausweisen, als Bots anzunehmen.