Podcasts erhalten für die Ewigkeit: wie?


#1

Der Day of the Podcast wird am Samstag mit einem kleinen Hörspiel eröffnen wo es um Podcasts und deren Verlust in ferner Zukunft geht. Anschließend reden über oben genanntes Thema.
Daher die Frage:
Wie würdet ihr Podcasts für die Ewigkeit erhalten, wie sehen eure Ideen aus?


#2

Für die ersten paar Jahre oder Jahrzehnte der Ewigkeit würde sich archive.org eignen. Dann würde ich darauf hoffen, dass die Leute von archive.org eine Lösung finden, um ihr Archiv für den Rest der Ewigkeit zu erhalten. https://archive.org/details/audio_podcast


#3

Folgender Link wurde gerade in meine Inbox gespült. Dort dürftest du auch Leute mit Ideen finden. Die haben jedenfalls ein hübsches Budget von 142.000 Dollar, um solche Ideen zu entwickeln. https://medium.com/the-bytegeist-blog/preserve-this-podcast-ae8e93ac83ae


#4

Ich verweise mal auf diesen Thread mit Hinweis auf die DNB #subscribe9: Museum auf die Ohren


#5

Hat eigentlich schon mal jemand geschätzt wie viel Podcastminuten pro Monat in etwa auflaufen?
Sprich: Wenn man alles downloaden würde, wie viel Speicher läuft da auf? :slight_smile:
@eazy?


#6

Das mit der Dauer ist so eine Sache. Würden alle Podcasts das anständig in den Feed eintragen, wie sich das gehört, dann wären das 91238817 Sekunden, also 1520647 Minuten oder auch 25344 Stunden. Das sind 1056 Tage oder auch 2 Jahre und 325 Tage.

Aber wie das so ist, es gibt leider einen ganzen Haufen Podcasts, die das nicht so genau mit der Angabe der Dauer im Feed nehmen. Genauer gesagt: 13% aller Episoden der letzten dreißig Tage haben keine Angabe zum Thema. Über die Korrektheit der restlichen 87% kann ich nur spekulieren.

Jetzt könnte ich mir den Spaß machen, die 87% nicht anzuzweifeln und hochzurechnen:

87% = 1520647
100% = 1747870

Ich wusste bereits seit der Berufsschule, dass ich im Leben vor allem den Dreisatz brauchen werde. Endlich konnte ich ihn sinnvoll einsetzen! :wink:

Nun kommt aber noch ein Problem dazu: Ich beherberge “nur” knapp 15.000 Podcasts. Was die anderen drölfzillionen tun? Keine Ahnung.

Die letzte Frage aber ist a) leichter und b) mit mehr Aufwand zu beantworten. Leichter, weil ich jetzt 60.000 (die Zahl der Episoden der letzten dreißig Tage) HEADs auf die enclosures machen kann und dann die content-length addieren. Ich schätze aber, das dauert eine Weile und ist mit Unwägbarkeiten verbunden.

Ich speichere die Größe nicht direkt in der Tabelle, nur in einem json-Blob. Vielleicht kann ich’s da rausholen, aber auch hier wird die Größe der Datei nicht immer angegeben sein und auch mal falsch. Ich werd da mal nachsehen, aber das dauert auch ein wenig :slight_smile:


#7

Antwort: 2,4TByte

Freundliche 96% aller Episoden haben eine Angabe, die ich jetzt mal nicht anzweifle. Und die Summe derer ergibt 2,3TB. Hochgerechnet auf 100% wären das dann 2,4TByte.


#8

Würde man die alle abspeichern wollen, würde natürlich sinnvollerweise noch ein resampling fällig und evtl sind einzelne Feeds auch mehrfach (in verschiedenen Dateiformaten o.ä.)?


#9

Resampling nach opus :slight_smile:

In meinen Daten sind die Dupes zu vernachlässigen. Es gibt manchmal welche, aber ich versuche darauf zu achten, dass ich die schnell entferne. Ich halte immer nur eine Geschmacksrichtung eines Feeds. Ausnahme: Diverse Video-Feeds (SD/HD), aber die sind in der absoluten Minderheit.


#10

Die Wellenformen in den Boden der Atacama-Wüste einschürfen. So wie die Linien der Nazca XD


#11

Einfach kulturelle und/oder historische Relevanz erlangen, dann kümmern sich andere um die Erhaltung.


#12

Ohje, darauf würde mich nicht verlassen :smiley:


#13

Gar keine so schlechte Idee. Archivare speichern Daten möglichst in unabhängigen Formaten ab. Reine Wellenformen sind da eine gute Idee. Also wav im Gegensatz zu mp3 oder m4a. Vielleicht sind letztere in 20 Jahren gar nicht mehr lesbar.


#14

Auf den ersten Blick vielleicht, aber frag dich mal wieviele Dinge überdauert haben, die niemand für interessant gehalten hat. :wink:


#15

Das waere dann ein Re-Encoding, was ich persoenlich immer vermeiden wuerde, wenn es sich um verlustbehaftete Formate, also auch OGG/Opus handelt.

Zudem wird bei OGG/Opus grundsaetzlich resampelt. Das Format kann nur 48 kHz! Aufnahmen in 44.1 kHz (also auch Rips von Audio-CDs) werden immer resampelt. Keine Ahnung, was sich die Entwickler dabei gedacht haben, aber so richtig gefallen will mir das nicht.

Aber, warum muss man denn ueberhaupt die Audiodateien reencoden?


#16

Um sie ggf. für die Speicherung zu verkleinern z.B. Oder um ein Format zu haben, dass zukunftssicher ist.


#17

Ich vermute als WAV ists am zukunftssichersten, weil man da auch aus Bruchstücken das Audio zurückholen kann ohne viel darüber wissen zu müssen. Das kricht man noch mit intensivem Hacken zurückrecherchiert um aus den Informationen(den Bits und Bytes) schlau zu werden.

MP3 zu rekonstruieren oder gar Opus ist zuviel Aufwand. Da bekommt man nicht hin, wenn die Info dazu verschollen ist…

Das Rekonstruierbarhalten ist ja schon bei den Daten der Apollo-Missionen ein riesen Ding. Viele der Daten sind nur schwer rekonstruierbar, weil niemand mehr weiß, wie die Tonbänder gespeichert wurde.
Und das, obwohl es da noch richtig viele Infos gibt, die erfasst aber nie ausgewertet wurden.
Und die Technik war damals noch viel simpler…


#18

Könnte mir vorstellen, dass man zukünftig nicht mehr nach Daten sucht, sondern nur noch die eintreffende Datenflut reduziert. Alte Podcasts sind dann sicherlich nur noch ihrer Metadaten wegen interessant, um irgendwelche Medienhistoriken nachzuzeichnen.


#19

Hab’s jetzt dreimal gelesen und weiß immer noch nicht was du damit meinst?


#20

Naja, bisher zielen das Suchverhalten und Algorithmen auf “Suche mir Daten, welche die Merkmale xyz haben”. Irgendwann, wenn wir uns vor Daten nicht mehr retten können, könnte die Maxime geändert werden in “Ignoriere, was nicht in irgend einer Weise die Merkmale xyz hat.” Dann würden alte Podcasts zunehmend eh rausfallen.

Medienhistorisch wären Podcasts weiterhin interessant, um zu erforschen, wie sich Kommunikation und technik entwickelt haben. Aber dafür denke ich, will man sie eigentlich nicht speichern.