ähm-Erkennung durch Deep Learning


#1

Ich habe grade auf BoingBoing einen interessanten Artikel über “ähm”-Erkennung durch Deep Learning gelesen. Das Programm kann man auch selber ausprobieren. Habe ich noch nicht gemacht, weil ich Code-Analphabet bin, aber vielleicht kann jemand von euch damit rumspielen.
Cool wäre natürlich eine Integration in Ultraschall :smiley:
I ,for one, welcome our new machine podcast lords


Hilfe bei Python
#2

Wäre das nicht ein cooles Feature für Ultraschall 4.0, @rstockm? Weiß nicht, wie realistisch es umzusetzen wäre, vllt. kann man sich an der Stelle von @auphonic beraten lassen?


#3

Ist schwierig. Nicht unbedingt technisch, das könnte evtl irgendwie machbar sein(habs mir aber nicht angeschaut).
Vielmehr ist das Problem, dass Ähs durchaus wichtig sind in Podcasts. Speziell, wenn man ohne Manuskript arbeitet(Laberpodcasts z.B.) und Gedanken sich spontan entwickeln, oftmals also nicht sprachlich perfekt ausgereift sind, helfen die Ähs beim Hören den Faden zu halten.
Es sind halt kurze Pausen, in denen man das eben Gehörte etwas sacken lassen kann und das ist nicht zu unterschätzen.

Klingt komisch, is aber so :wink:


#4

In dem Zusammenhang ganz cool:

Editieren 2.0 würde ich mal sagen…
LG
Jens


#5

Ich habe im Rahmen eines neuen Projektes auch darüber nachgedacht.
Viele der Ähms in meinen Folgen sind störend und überhaupt nicht notwendig, gleichzeitig gibt es welche die drin bleiben sollten. Dem Tool blind zu vertrauen funktioniert also aus diesem Grund schon nicht, darüber hinaus würde ich dem Tool generell nicht 100% vertrauen und das ganze beaufsichtigen wollen.

Meine Überlegungen dazu wären eine Art Schnittassistent, der die Multitrack Produktion durch den Detektor laufen lässt und dann bspw. 100 Schnitte vorschlägt. Für diese kann man sich jeweils einen vorher/nachher vergleich anhören und dann bestätigen ob der Schnitt durch die Software gesetzt werden soll oder nicht. Das sollte für einen schnelleren ersten Cut genügen. Anschließend muss man sowieso über die Folge gehen und andere Dinge als Ähms gerade ziehen.
Könnte mir locker 30% Zeit in der Nachbearbeitung sparen.

Was denkt ihr?


#6

Da würde ich mir wünschen die Entscheidung welche Ähms wichtig sind dem Podcaster zu überlassen :wink: Ich für meinen Teil sehe nämlich mindestens 80% der Ähms als nicht sinnvoll. Die wenigen, die dem Hörgenuss helfen oder Denkpausen untermalen lasse ich dann gerne absichtlich drin. Alle anderen kann man locker rauswerfen und eine Autoerkennung im Tool wäre episch cool :slight_smile:


#7

Dann ists ein klassischer Fall für Sprechdisziplin. Podcasts hinterher nochmal hören und üben die unsinnigen Ähhs und Ähms rauszulassen bzw herauszuhören, welche denn nun hilfreich sind und dafür nen Gespür anzutrainieren.
Ist mit viel Umgewöhnung verbunden aber sinnvoller auf lange Sicht, weils auch einem ne Menge Entscheidungsarbeit auf Dauer abnimmt.
Nicht alles lohnt sich mit Technologie zu erschlagen, auch wenns natürlich verlockend wäre.

Zumal das Problem von Ähm Erkennung nicht trivial ist, wenn man nicht Google oder Apple ist, die genug Daten haben da Deep-Learnen zu trainieren.

Ich versteh aber Deinen Punkt, mit lästiger Arbeit ists verbunden, egal wie mans löst. Und automatisch wirds (leider?) nie gehn.


#8

Das Problem ist die Erkennung. Es reicht nicht aus nach kurzen Sprechelementen zu suchen und die anzuzeigen, denn ein ähm sieht genauso aus wie ein und von der Länge her.
Da haste dann mal schnell ne Schnittliste von hunderten oder tausenden Schnitten und da wirst wahnsinnig beim Schneiden, genauso, wie wenn Dus manuell machst.

Bin aber für Ideen offen, wie mans trotzdem hinbekommen kann.


#9

Ich selbst mache kaum Ähms. Als jahrelanger Sprecher habe ich mir da einigermaßen Sprechdisziplin angewöhnt. Aber ich habe regelmäßig Leute vorm Mikro, die da anders ticken. Die kann man jetzt schlecht auffordern das Ganze zu üben und noch mal aufnehmen. Und die Ähms einfach drin zu lassen ist eine Zumutung für die Hörerinnen und Hörer. Ergo sitze ich da und schneide… Das sehe ich tatsächlich als Dienst am Publikum. Technologie ist da zwar kein Muss (ich sehe Ähms meist schon in der Kurve auch ohne Tool), aber es ist eine interessante Möglichkeit den Prozess zu vereinfachen und das einfach mit der Begründung “übe Sprechdisziplin” abzulehnen würde auch für andere Tools wie Leveler etc. gelten…


#10

Ich habe gestern begonnen Positive und Negative Samples zu erstellen und werde am Wochenende das Netz damit trainieren. Melde mich dann mal was die Fehlerrate mit False-Positives angeht.