Automatische Videoerstellung mit Audiowaveform: bitten um Feedback zu einigen Beispielen

auphonic · 28. März 2017 um 12:43

Da Auphonic Videos aus Podcasts generieren kann (mit Cover+Kapitel Bilder), was vorallem zum automatischen Youtube Export verwendet wird, haben uns in den letzten Monaten einige gefragt, ob wir nicht die Waveform/Spektrum/“Audiogramm”/etc. ins Video einbauen könnten, damit man besser sieht dass etwas gesprochen wird.
(Wie das ja mittlerweile auch viele andere Dienste machen - siehe die Diskussion hier: Audio-Clips im Netz teilen)

Wir haben das nun mal versucht zu automatisieren und würden uns um Feedback freuen, was gefällt und was nicht.
Hier sind nun 4 Varianten mit einigen Beispielbildern (von @timpritlove Podcasts):

Variante 1: Volle Waveform in der Mitte

Beispiel Forschergeist Podcast Cover Bild:

Weitere Beispiele:

Raumzeit: https://www.youtube.com/watch?v=aN4TFPHUWeY
CRE: https://www.youtube.com/watch?v=n9PHWhWvHwA
Lautsprecher: https://www.youtube.com/watch?v=6HEqe0HkHzc
Auphonic Default Logo: https://www.youtube.com/watch?v=LPfcdVMq7vU

Mögliche Probleme:

Anordnung in Mitte kann problematisch sein? (auch wenn es eigentlich transparent ist)

Variante 2: Spektrumanzeige unten

Forschergeist:

Weitere Beispiele:

Raumzeit: https://www.youtube.com/watch?v=BNqwIvCWWrQ
CRE: https://www.youtube.com/watch?v=-qhol59_jhU
Lautsprecher: https://www.youtube.com/watch?v=6SNRrGgpNi8
Auphonic Default Logo: https://www.youtube.com/watch?v=s97-a2xWQpQ

Mögliche Probleme:

Playerleiste verdeckt meist die spektrumanzeige? (zumindest in Youtube und anderen lokalen Videoplayern)

Variante 3: kleine Level Anzeige (oben links)

Forschergeist:

Weitere Beispiele:

Raumzeit: https://www.youtube.com/watch?v=BQZbbv1Vsg4
CRE: https://www.youtube.com/watch?v=BUeDE0g6D50

Mögliche Probleme:

zu klein wenn image/video nicht in Vollbild angezeigt wird? (zu unauffällig?)
Youtube Titel steht auch immer links oben und überdeckt Spektrum
problematisch wenn links oben im Bild etwas Wichtiges sich befindet?
Vorteil (?): nicht so riesig

Variante 4: Spektrum klein (oben links):

Forschergeist:

Weitere Beispiele:

Raumzeit: https://www.youtube.com/watch?v=SzS6mSfl0zs
CRE: https://www.youtube.com/watch?v=MfdysUOM-NQ

Mögliche Probleme:

gleich wie bei Variante 3

Bitte um Feedback!

Da wir nicht so viele Option einbauen wollen, wäre wir sehr dankbar für Feedack:
Was gefällt euch, was geht gar nicht?
Gibt es vielleicht noch andere Ideen bzw. Kombinationen aus unseren? Bzw. Layout Verbesserungsvorschläge, etc.?

Vielen Dank !

phil · 28. März 2017 um 13:05

Hi,

ich finde Variante 2 mit Abstand am besten.
Varianten 3 und 4 sind kaum sichtbar und entsprechend mehrwertllos.
Variante 1 sieht einfach extrem komisch aus, sehr digital und wenig “audiotisch”.

Ich würde bei Variante 2 sogar so weit gehen, die Amplitudenanzeige bis auf halben Screen zu erweitern. Oder mindestens ein Viertel. Das Bild im Hintergrund ist sowieso nur ein Episodencover oder das Kapitelbild, kein echtes Bewegtbild mit Mehrinfo im Bild selbst. Deswegen kann es meines Erachtens auch mutig überdeckt werden.
Man könnte durchaus über Transparenzen nachdenken, damit das Cover zumindest noch durchschimmert.

Aber grundsätzlich: Extrem cooles Feature - vielen Dank für Idee, Vorschläge und (hoffentlich baldige ) Umsetzung.

chrismarquardt · 28. März 2017 um 14:10

Erst mal: geile Aktion, würde mich freuen, wenn etwas in dieser Richtung käme!

Mein primärer Anwendungsfall ist weniger der zusätzliche Ausspielweg auf YouTube, sondern der Einsatz als Appetithappen in Social Media: kurze ausgewählte Videoschnipsel meines Audio-Podcasts für Social Media bereitstellen, damit Leute ohne Stress kurz reinhören können und Appetit auf den gesamten Podcast bekommen.

Dafür verwende ich bisher ab und zu den WNYC Audiogram Generator - viel Gefrickel, Handarbeit und Aufwand.
Beispiel-Ergebnis: http://media.tipsfromthetopfloor.com/audiograms/tfttf739_5.mp4

Wenn Auphonic mir das einfacher machen würde, käme mir das massiv dagegen. Aber vielleicht liegt das ja auch weit außerhalb der Planung. Zumindest würde ich gerne mal ausloten, ob ich das irgendwie dafür nutzen könnte.

Aus dieser Warte ist mein klarer Favorit die Variante 1, besonders weil die Wellenform gut sichtbar ist.

Meine Vorschläge zur Variante 1:

höhere fps (etwas smoothere Bewegung der Wellenform wäre schöner)
den erste und letzte Videoframe aus der höchsten Wellenform aus dem Audio erzeugen, da daraus teilweise der Thumbnail generiert wird. Das erhöht das Klickbedürfnis - WNYC macht das z.B. so.
konfigurierbarkeit (Hintergrundbild, zusätzlicher Text) im Hinblick auf die Appetithappen-Wirksamkeit - vermutlich über Metadaten lösbar?
Option für quadratisches Video (Instagram, etc.)
Option, Anfangs- und Endzeit anzugeben

Ich sehe bei Variante 2 folgendes Problem: YouTube-Bedienelemente befinden sich am unteren Rand des Videos und verdecken das Spektrum.

Problem mit V3 und V4: Spektrum aus meiner Sicht viel zu klein - man sieht es im Preview/Thumbnail nicht wirklich.

Loewe88 · 28. März 2017 um 14:34

Ich finde die Variante wie Clammr das macht recht schön. Eventuell könnt ihr ja in die Richtung was bauen und durch ein kleines (optionales?) Branding noch ein wenig Werbung für euren Service machen.

Beispiel: Audio-Clips im Netz teilen

Die Podcastcover sind i.d.R. ja immer quadratisch, sodass man da doch gut Platz hat, wenn man ein 16:9 Video draus machen würde.

lobodingbauer · 28. März 2017 um 15:12

Variante 1 ist topp für mich. Da lässt sich Grafik schön rumbauen, sieht cool aus, fetzt, ist eindeutig Audio.

Variante 2 sieht weit nicht so gut aus für mich, wie ein Meeresboden.

Variante 3 und 4 ist nicht so gut.

Was vielleicht cool wäre, wäre ein Level-Meter, der grün, orange ausschlägt, so richtig Audio-Level. Weil das kennen die Leute auch. Links oder rechts am Rand in die Höhe des Bildes.

crossgolf_rebel · 28. März 2017 um 17:38

Ich finde Var 1 und 2 am besten.
Über die Höhe der Ausschläge und die Farbe kann man aber noch mal reden

Ich freue mich auf die neue Funktion und würde die gleich mit nutzen wollen

nitramred · 28. März 2017 um 17:47

Dem würde ich uneingeschränkt zustimmen. Auf mich wirkt die Animation der Waveform noch etwas abgehakt, kann man da noch mehr “Frames” einbauen? Ansonsten schließe ich mich @lobodingbauer an.

nitramred · 28. März 2017 um 17:49

Jepp, für Soundhappen in den Social Networks wäre das perfekt. Ich glaube auch nicht, dass sich jemand den ganzen Podcast auf YouTube anschaut (anhört bestimmt), aber so ein Hingucker in Facebook, Twitter etc. fände ich auch toll!

auphonic · 29. März 2017 um 06:42

Zuerst mal danke für das Feedback - ja, mein Favorit ist auch die Variante 1, da bin ich ja beruhigt

Zur Framerate bei Variante 1 (@chrismarquardt, @nitramred):
Ja die ist hier wahrscheinlich bisschen zu niedrig. Der Hauptanwendungsfall bei uns ist halt (zumindest im Moment) große Videos auf Youtube durchzuschleifen - wenn hier die Framerate größer ist, dauert die Berechnung viel länger und die Dateien werden riesig. Aber ich werde mal versuchen das zu verbessern …

Zu Konfiguration/Parameter (@chrismarquardt):
Paremeter (Text/Hintergrundbild usw.) möchte ich eigentlich vermeiden, man kann eh ein Image so hochladen (d.h. Text selbst reingeben wenn es wirklich sein muss), damit es dann passt.

Zu Quadratische Videos (@chrismarquardt):
Wir exportieren die Videos genauso wie auch das Input Image ist - in diesem Beispiel hier macht es nur Youtube automatisch 16:9.
@Loewe88 : wir können leider nicht davon ausgehen, dass alle Cover Images quadratisch sind, das ist sehr oft nicht der Fall wenn man sein Audio einfach zu Youtube exportieren will (und macht bei solch einem Use-Case ja auch keinen Sinn).

Zu Anfangs/Endzeit angeben / Appetithappen in Social Media (@chrismarquardt, @nitramred, @lobodingbauer ):
Für solch einen Use Case verwenden die meisten aber keinen fixen Ausschnitt sondern schneiden die Highlights nochmal extra dafür oder? (zumindest hab ich das bis jetzt so immer gesehen)
D.h. man müsste dann sowieso eine eigene Production damit machen - da kann man auch das Cover Image dementsprechend anpassen wenn man will (16:9, etc.).

Zu buntem Levelmeter (@lobodingbauer):
Alles was Farbe ist, ist halt schwierig, weil es sich sehr einfach mit dem Bild schlagen kann.

Nico · 29. März 2017 um 08:09

Variante 1 gefällt mir gut, die 2. ist auch nicht schlecht.

Auf jeden Fall eine coole Sache.

chrismarquardt · 29. März 2017 um 08:19

Ja, über ein Bild wäre das lösbar. Dann wäre eine etwas konfigurierbare Wellenform aber wichtig (s.u.)

Ah, alles klar.

Ich sehe hier zwei Möglichkeiten:

Podcaster schneidet Highlights selber und macht jeweils eine neue Produktion (mehr Arbeit für den Podcaster)
Podcaster gibt der Produktion Anfangs- und Endzeit mit und überlässt Auphonic das schneiden (mehr Arbeit für Auphonic)

Ich vermute, dass aus Sicht von Auphonic 1. die bessere Alternative ist und damit wäre ich selbst auch zufrieden

Das ist für mich ein weiteres Argument für die Konfigurierbarkeit der Farbe. Besonders, wenn man sich als Podcaster von der grauen Masse abheben möchte (und wer möchte das nicht?)

Über das Episodenbild habe ich schon einige Kontrolle über den Look. Die Farbe der Wellenform bekommt dann als bewegtes Teil aber so viel Aufmerksamkeit, dass aus meiner Sicht eine Konfigurierbarkeit fast zwingend ist.

Es muss ja nicht gleich ein Colorpicker sein, mir würde hier völlig ein verstecktes Expertenfeld reichen, wo man einen Hexcode reinwerfen kann.

Warum ich das wichtig finde, siehst Du an diesen beiden Beispielen:

https://chrismarquardt.com/tmp/hs473_2.mp4

http://media.tipsfromthetopfloor.com/audiograms/tfttf739_5.mp4

(in diesen Beispielen ist die Wellenform nicht nur farblich konfiguriert, sondern auch in Höhe und Position auf der Y-Achse anders)

melanie · 29. März 2017 um 08:29

Noch ein +1 für die erste Variante. Ich schneide die Appetizer immer selbst raus oder sogar aus mehreren Teilen zusammen, daher wäre eine neue Produktion für mich kein Problem.
Die zweite Variante finde ich aber auch gut: in Audiogram kann ich die Position der Waveform selbst definieren - ist wahrscheinlich nicht so leicht umzusetzen, wenn man sich das herumdoktern im Code ersparen will, oder?

Wäre es vielleicht eine Möglichkeit, dass man zwischen Variante 1 und 2 wählen kann?

Vielen, vielen Dank jedenfalls für deine Mühe. Es wäre großartig, wenn das über auphonic machbar wäre
Audiogram oder auch alle anderen Varianten (clammr ist nett, aber nicht sehr schön, finde ich) machen bissl viel Arbeit…

rstockm · 29. März 2017 um 08:33

Ich stelle mir ja immer die grundsätzliche Frage: welchen echten Mehrwert hat eigentlich die “wirkliche” Darstellung des Audio. Sprich: tut es nicht genauso gut eine perfekt gestaltete Endlos-Animation um zu versinnbildlichen “hier läuft Audio”. Alles andere ist doch eher Nerdkram…

chrismarquardt · 29. März 2017 um 08:51

Noch was zu den zwei Beispielen oben: sie zeigen beide im Thumbnail eine Wellenform. Das ist als visueller Hinweis für den Betrachter wichtig, damit er erst mal überhaupt auf die Idee kommt, dass hier nicht nur ein Bild gezeigt wird, sondern dass das was zum Klicken und Hören dahinter steckt. WNYC hat das anscheinend ausprobiert und mit Wellenform im Thumbnail eine deutlich höhere Klickrate erzielt.

Für das Thumbnail wird im Beispiel oben der erste Frame des Videos hergenommen. Da die Podcaster ihre Appetithappen aber typischerweise an einem Nulldurchgang schneiden werden, wäre der resultierende Thumbnail ohne Wellenform.

Die WNYC-Engine löst das so, dass sie den ersten und letzten Frame des Videos durch den Frame mit der höchsten Wellenform (d.h. mit dem größten Audio-Peak) ersetzen.

rstockm · 29. März 2017 um 08:55

…und, wer es in der Freakshow noch nicht gehört hat: für Ultraschall 3.1 haben wir genau so einen Teaser-Generator in Planung, gibt aber noch etwas Forschungsarbeit zu leisten. Ich finde es gut und Richtig, wenn sich hier viele Akteure auf den Weg machen um die Sichtbarkeit von Audio in den sozialen Medien zu steigern.

auphonic · 29. März 2017 um 09:07

Zur Konfigurierbarkeit (@chrismarquardt, @rstockm, @melanie):
Ich sehe das auch eher pragmatisch, man sollte einfach nur erkennen dass da Audio ist und dass was läuft.
Rein subjektiv finde ich die Videos die rauskommen, wenn man Bilder+Texte+Waveform in verschiedenen Farben kombiniert, meist unschöner als wenn man die Waveform einfach dezent und transparent drüberlegt …
@rstockm Wow, wenn das jetzt in Ultraschall auch noch kommen soll, dann könnt ja ihr dort alle möglichen Konfigurationsparameter einbauen (ist in einem Editor sicher einfacher zum Probieren)
Bzw. gibt es ja auch noch andere Tools wie Clammr, https://wavve.video/, etc. wenn man wirklich alles konrollieren will.

Zu Thumbnail (@chrismarquardt): Danke, das ist sicher eine gute Idee!

chrismarquardt · 29. März 2017 um 09:25

Warum so kurz vor dem Ziel aufgeben?

Die Wellenform ist aus meiner Sicht generell erst mal sehr wichtig. Da sind wir uns vermutlich einig. Besonders in Social Media, wo Video König ist und Audio, wenn überhaupt, nur sehr stiefmütterlich behandelt wird. Der beste Weg für Aufmerksamkeit geht über das Auge. Bilder sprechen sofort.

Um unsere Zielgruppe zu erreichen, ist das Bild also zunächst nicht ausreichend, erst die Wellenform (wichtig, dass sie bereits im Thumbnail sichtbar ist) gibt das wichtige Signal: “Da kommt jetzt kein Standbild, sondern was zum Hören”

Ab hier gibt es mehrere Möglichkeiten:

Wellenform nur im Thumbnail, beim Abspielen nur ein Standbild. Pro: macht kleine Dateien. Kontra: Könnte für den Hörer etwas unbefriedigend werden, wenn dann nichts zappelt.
Wellenform im Thumbnail, im Video eine Wellenform aus einem vorfabrizierten Animationsloop. Pro: einfacher programmatisch zu erzeugen. Kontra: Disconnect zwischen Audio und Video.
Wellenform im Thumbnail, Wellenform im Video synchron zum Audio. Kontra: etwas aufwändiger zu produzieren. Pro: keine Diskrepanz zwischen Auge und Ohr.

Ich habe das synchrone Audio hier mal eben neben eine Variante mit entkoppelter Endlos-Animation gestellt. Ich persönlich komme mit der ersten Variante deutlich besser klar, selbst wenn ich nicht ständig auf den Schirm starre, sondern sie nur im Augenwinkel zappelt.

chrismarquardt · 29. März 2017 um 09:42

[quote=“auphonic, post:16, topic:5124”]
Ich sehe das auch eher pragmatisch, man sollte einfach nur erkennen dass da Audio ist und dass was läuft.[/quote]

Darum machst Du ja auch Audio und nicht Video

[quote=“auphonic, post:16, topic:5124”]
Rein subjektiv finde ich die Videos die rauskommen, wenn man Bilder+Texte+Waveform in verschiedenen Farben kombiniert, meist unschöner als wenn man die Waveform einfach dezent und transparent drüberlegt[/quote]

Ich sehe hier zwei mögliche Ansätze:

Alles über einen Kamm scheren. Einfacher für Auphonic, einfacher für die Podcaster. Dafür sieht alles eher einheitlich aus.
Den Podcastern mehr Freiheiten geben. Dann kann sich das jeder so hübsch oder so hässlich machen, wie er möchte.

Variante 2. kennen wir aus den 90ern vom Desktop-Publishing. Da kam viel gruseliges dabei raus, aber auch einige Perlen.

Variante 1. wäre eher der Apple-Ansatz. Defaults vorgeben. Generell habe ich überhaupt nichts dagegen. Dann muss die 1-size-fits-all-Lösung aber verdammt gut durchdacht sein (bevorzugt von jemandem, der das professionell macht), damit sie dann auch von allen akzeptiert wird und keinen Augenkrebs verursacht.

Das Problem wird sein, dass wir, sobald das Visuelle ins Spiel kommt, plötzlich ganz viele Geschmäcker von ganz vielen Leuten hören werden. Da wo sich die meisten beim Audio nicht wirklich auskennen (Stärke der Kompression, release-Zeiten usw. sind ja letztendlich auch erst mal Geschmackssache), fühlt sich auf der visuellen Seite fast jeder Mensch berufen, eine Meinung zu haben, egal wie fundiert sie ist.

Ich habe sowohl professionell Audio produziert als auch Grafik- und Webdesign für Kunden gemacht. Auf Grafikseite hatten die Kunden IMMER deutlich mehr dazu zu sagen. Also am besten schon mal warm anziehen

chrismarquardt · 29. März 2017 um 09:47

Hier ist übrigens eine sehr gute allgemeine Diskussion zum Thema “Audiogramme” und warum die kurze Form (der Appetithappen) besser funktioniert, als die gesamte Episode in Video zu packen:

Zitat:

“WNYC shows have been seeing great results. On Twitter, the average engagement for an audiogram is 8x higher than a non-audiogram tweet and on Facebook some of our shows are seeing audiogram reach outperform photos and links by 58% and 83% respectively.”

auphonic · 29. März 2017 um 13:00

Zur schlechten Framerate des Waveformvideos, hier eine neue Version - besser ?

Die Framerate ist hier trotzdem noch sehr gering, jedoch ist die Darstellung der Waveform ein bisschen anders (es werden einfach Teile weggelassen, was nicht stört im Video) - dadurch sollte es besser aussehen und Platz wird auch noch gespart.

Im Vergleich dazu nochmal die alten Version: