Datenvisualisierung

Ori · 28. Januar 2020 um 02:45

Hallo,

ich recherchiere seit geraumer Zeit für einen Podcast und die Datenmenge nimmt überhand.
Mit dem Thema Datenvisualisierung habe ich mich bisher kaum beschäftigt.

Gesammelt habe ich bisher 259 Datenpunkte mit jeweils:

Quelle
Seite / Bereich auf der Webseite
Typ (Information, Aussage, Meinung)
Thema
Jahreszahl
Die eigentliche Information / Zitat
Eigener Kommentar

Und es wird immer mehr.
Da es in absehbarer Zeit (wenige Monate nur noch) an die Datendeduplizierung und Aufbereitung gehen wird, möchte ich jetzt schonmal anfangen die Daten in ein $Ding zu kippen.

Dieses $Ding sollte in der Lage sein mir die Datenpunkte nach Thema einzufärben und zu sortieren.
Ich hatte da an Punktwolken gedacht, falls das der richtige Begriff dafür ist.

Gut wäre es auch ein $Ding, welches die Daten auf einem Zeitstrahl abbilden kann.
Und besonders glücklich würde es mich machen, wenn besagtes $Ding Open Source wäre.

Gerne entgegen nehme ich auch First-Read/Hear/Watch Empfehlungen zum Thema Datenvisualisierung.

Gruß,
Felix

Ori · 28. Januar 2020 um 03:03

Mir ist grade eingefallen, dass ich doch nicht komplett unbeleckt bin was Datenvisualisierung angeht.
Ich habe da mal so eine Datenvisualisierung für tcpdump gebastelt.
Das war aber dann doch eher eine Spielerei, siehe gifs

tcpdump1
tcpdump2
tcpdump3

EDIT: das ist mir grade eingefallen, weil mir als weiterer “sollte das $Ding können” Punkt noch eingefallen ist, dass 1:1 und 1:N und N:N Beziehungen zwischen den Datenpunkten herstellbar sein sollten. Grade wenn man wie in meinem Fall die Daten in technische, ökologische und politische Kontexte entlang einer Zeitachse nach themenspezifischen Tags sortieren möchte, wird das ohne Beziehungen zueinander schnell unübersichtlich.

Ori · 29. Januar 2020 um 05:25

Update in eigener Sache…
Ich klöppel mir da grade vielleicht schon etwas für meine Bedürfnisse brauchbares zusammen

lordampersand · 29. Januar 2020 um 18:14

Ich bin verwirrt. Was ist denn dein Ziel? Deskriptive Analyse? Vorhersage? Was haben Netzwerkdiagramme damit zu tun, wenn es um Zeitserien und Attribute geht?

Ori · 30. Januar 2020 um 23:40

Hallo,

ich arbeite an einem Podcast in dem es um die Geschichte und Philosophie von GNU, Unix, Linux und Open Source geht. Für die Vorbereitung einer Folge möchte ich die gesammelten Informationen sortieren und miteinander korrelieren.

Am Ende möchte ich eine Grafik haben, die ich während der Sendung benutzen kann, um mich thematisch daran entlangzuhangeln.

Das sieht aktuell etwa so aus, damit bin ich aber noch nicht glücklich.

Um aus meinen Daten diese “Infografik” zu bauen, muss ich sie sowohl thematisch als auch zeitlich sortieren.

Das Hatte ich mit dem “TimeLine Project” versucht, das sah dann so aus.

Mit zunehmender Menge an Datenpunkten, Themen sowie den Verbindungen von Themen, Personen, Meinungen, Projekten und das ganze sortiert entlang der Zeitachse wurde das aber unübersichtlich.

Also suchte ich nach einem Werkzeug um die Themen besser sortieren zu können.
Dabei bin ich auf forcegraph3d gestoßen und hab einfach damit angefangen.
Ich nehmen gerne auch ein 2D Tool, wenn ihr ein gutes kennt.

Ich habe sowas halt noch nie gemacht.
Meine Bastelei mit Forcegraph3d hat mich bisher hier ankommen lassen.

Da ich “nur” den Datensatz um 1960 halbwegs bisher halbwegs mit maschinenlesbaren Daten ergänzt habe, sind noch wenig Verbindungen von klar thematisch zusammenhängenden Themen zu erkennen.
Das wird mit Prüfung der Primärquellen und Verschlagwortung der Datenpunkte noch besser.

Jedes X ist ein Datenpunkt und mit einem Mouseover ist das Zitat lesbar.
Ich arbeite aktuell an:

Zuordnen von Datenpunkten zu N Themen (aktuell ist jeder Punkt nur einem Thema zugeordnet)
Fixieren von Informationen auf fixen Achscoordinaten
Ein und Ausblenden von Informationstypen nach Filtern
Verbindungen zwischen Quelle (Buch 1, Buch 2, Buch 3) und Datenpunkt

Mein Podcastpartner arbeitet daran, die Informationsquelle von CSV / JSON in eine Datenbank zu laden, damit das einlesen, editieren und korrellieren neuer Datenpunkte performanter geschehen kann.

Am ende wollen wir ein Werkzeug haben, in das wir eine irgendwo gefundene Information eingeben können, auf eine Art, dass sie unserem Gesamtbild automatisiert hinzugefügt werden kann.

Dadurch soll erkennbar werden, welche Personen mit welchen Meinungen zu welchen Zeitepoche an der Entwicklung welcher Projekte mitgewirkt haben, wie diese finanziert wurden, sich untereinander beeinflusst haben und welche Strömungen wie entstanden sind.

Diesen durchsuchbaren visualisierten Datensatz nehmen wir dann wieder her um uns auf die jeweilige Folge vorzubereiten.

Den zu erwartenden Blind Spots oder Fehlinterpretationen hoffen wir durch Interviews mit Fachleuten entgegenwirken zu können.

Ich hoffe ich konnte meine Ambition ein wenig verständlicher darlegen, als ich das anfangs gemacht habe. Sprache ist manchmal ein grausam unpräzises Werkzeug. Generell gilt: wir haben gefühlt für noch keine unserer Anforderungen das richtige Werkzeug gefunden. Wenn also eine Frage wie “warum nehmt ihr X und nicht Y” aufkommt, ist die Antwort wahrscheinlich “Weil wir nicht wussten, dass Y existiert oder es noch nicht als Lösungsansatz in Betracht gezogen haben.”

Um Y zu finden, bin ich hier
Das Projekt ist ergebnisoffen und es spricht nichts dagegen, die Daten anders auszuwerten.

Gruß,
Ori

Ori · 31. Januar 2020 um 04:44

Update, es wird langsam.

Fixieren von Informationen auf fixen Achscoordinaten - DONE

OchMenno · 31. Januar 2020 um 08:11

Richtig cool … wäre auch was da ich mich ja mit Geschichte etwas beschäftige … behalte ich mal im Auge

Ori · 31. Januar 2020 um 09:15

So hier ist mal der aktuelle Arbeitsentwurf zum reinfühlen:
http://graph.kabelsalat.it/lil/examples/auto-colored/

Steuerung:
Linksklick auf freie Fläche -> rotieren
Linksklick auf Koten -> Knoten verschieben
Rechtsklick auf Freie Fläche -> Im Raum bewegen
Mausrad -> Zoom
Regler oben rechts -> Themen auf den Achsen verschieben / den Zeitstrahl auseinanderziehen
(den rotate knopf ist noch tot)

Gute Nacht

Ori · 3. Februar 2020 um 16:08

So ich habe jede Information jetzt ein bis vier Themen zugeordnet.
Dann habe ich ein bisschen mit der Sortierung der Daten entlang der Achsen gespielt.

So sehen sie “unsortiert” im raum aus:

Man sieht, dass die Daten eine art “Schlauch” um die Zeitachse bilden.
Es ergeben sich Muster, man kann diese aber noch nicht wirklich einordnen.
Eine weiteres Problem ist, dass die Farbgebung relativ willkürlich ist.

Ich habe dann also begonnen Regeln für das Positionieren von Datenpunkten im Raum zu definieren.
Auf nachfolgendem Screenshot sieht man von oben nach unten:

Quelle (Buch, Link etc)
Datenpunkte ohne Information zum Zeitpunkt (Meinungen oder Informationen wo noch keine Zeit Recherchiert wurde)
Themen (GNU, Unix, Linus Torvalds, MULTICS etc.)
Jahre

Es ist noch immer ein relatives Chaos aber es beginnen sich besser Muster herauszubilden.

Jetzt arbeite ich daran Informationen bzw die Verbindungen nach Typ (z.b. nur Meinungen) oder Themen (nur GNU und Linux) dynamisch ein und ausblenden zu können.

Ori · 5. Februar 2020 um 00:02

Liebes Tagebuch,
weiterer Progress wurde gemacht.

das Projekt wird jetzt über ein csv verwaltet
Verbesserungen am Farbschema
der Graph kann jetzt über die GUI von lose auf entlang dem Zeitstrahl angeordnet umgeschaltet werden

Weiter offen ist:

Anbindung an DB
Per klick auf einen Knoten den Text in einem Textfenster zusammen mit weiteren relevanten Informationen anzeigen
Über das Webinterface weitere Datenpunkte aufnehmen können
Über das Webinterface Punkte editieren

Ori · 5. Februar 2020 um 19:18

Habe das Thema verschoben, da es sich von “ich suche nach einem Tool” zu “Ich baue mir ein Tool” entwickelt hat.

Ori · 12. Februar 2020 um 23:07

Stellt sich raus, die Firma kineviz hat ziemlich genau das was ich beschrieben habe mit dem Podukt graphxr bereits gebaut. Mit einer GraphDB, in performant, dafür allerdings nicht open source. Schauen wir mal, was wir damit anfangen.

graphxr

Ori · 30. Dezember 2020 um 19:21

Kurzes Update.

wir haben weiter an dem Tool gebastelt.

Frontend: https://cvs.kabelsalat.it/kabelsalat/force_graph_frontend
Backend: https://cvs.kabelsalat.it/kabelsalat/force_graph_backend

Zum ausprobieren: https://staging.kabelsalat.it

Habe eine rc3 Version gebastelt.

https://rc3.kabelsalat.it

Hier ein kurzes Erklärungsvideo, wie man mit dem Tool umgeht.

Viele der „must have“ Features des Tools liegen noch im Backlog aber es wird langsam.

Gruß,
Ori