Neue Automatische Füllwörter Entfernung - Feedback gesucht

Hallo Sendegate!

Wir haben nun zusätzlich zu unserer Stille Entfernung auch eine Füllwörter Erkennung und Entfernung veröffentlicht - hier gibt es mehr Details dazu:

Dieses Feature ist für alle Auphonic UserInnen verfügbar.

Dazu wären wir natürlich an Feedback interessiert:
Für Deutsch sollte das schon einigermaßen gut funktionieren, falls nicht bitte lasst uns das wissen und wir werden den Algorithmus verbessern :slight_smile: !
(Falls ihr Podcasts in anderen Sprachen habt, wäre wir natürlich auch interessiert, wie gut es funktioniert.)

Außerdem lasst uns gerne wissen, ob weitere automatische Cutting Features euch Zeit in der Post Produktion ersparen würden? Wir sind auf der Suche :wink:

Danke!
LG
Georg

6 „Gefällt mir“

Gibt es Fälle, die bei Euren Tests sich als „das lassen wir wohl besser drin“ gefunden habt oder ist der derzeitige Ansatz so viel wie möglich rausnehmen und mit Hilfe unseres Feedbacks nochmal nachzujustieren?

Und welchen Ansatz benutzt Ihr technisch? Texterkennung und darüber dann die Füllwörter erkennen? Oder was Anderes?

Und wie verhindert Ihr, dass Sätze nicht plötzlich falsch werden weil ein Füllwort falsch erkannt wurde?

Bin da etwas neugierig…

Edit:
Kommt das irgendwann auch in die Standalone-App rein?
Dann wäre ne Integration mit Ultraschall machbar…

Hi Georg!

Verrückt ist das. Habe es soeben auch schon an andere Leute geschickt in meiner Begeisterung :wink: Ich habe es gleich einmal bei unser aktuellen Aufnahme von Gemeinwohl Geplauder getestet (auch österreichisches Deutsch :sweat_smile:).

Es ist echt wild. 3(!) Minuten wurden bei einer Aufnahme von etwas mehr als 1h entfernt und es hört sich sehr natürlich an.

Bin gespannt, was das Feedback der Zuhörenden sein wird.

Gibt es Fälle, die bei Euren Tests sich als „das lassen wir wohl besser drin“ gefunden habt oder ist der derzeitige Ansatz so viel wie möglich rausnehmen und mit Hilfe unseres Feedbacks nochmal nachzujustieren?

Unser Ansatz ist eher konservativ und wir versuchen eher zu wenig als zu viel wegzulöschen: im Moment mal nur klare Füllwörter, keine Wortwiederholungen, etc.
Werden das dann in Zukunft vielleicht noch erweitern …

Und welchen Ansatz benutzt Ihr technisch? Texterkennung und darüber dann die Füllwörter erkennen?

Nein, wir machen das nicht mit Texterkennung sondern haben ein eigenes Modell dafür entwickelt. Aber das ist trotzdem angelehnt an Modellen zur Spracherkennung, insofern wird schon der Inhalt zumindest rudimentär verstanden …

Und wie verhindert Ihr, dass Sätze nicht plötzlich falsch werden weil ein Füllwort falsch erkannt wurde?

Das hätte ich bis jetzt in unseren Tests noch nie gesehen - aber zu 100% kann man es natürlich nicht ausschließen.

Kommt das irgendwann auch in die Standalone-App rein?
Dann wäre ne Integration mit Ultraschall machbar…

Nein, unsere Standalone App gibt es schon länger nicht mehr, weil unsere neuen Algorithmen alle spezielle Hardware brauchen (GPUs). Aber unsere API wäre natürlich in Ultraschall integrierbar (das hat glaub ich eh schon mal jemand angefangen) …

Danke jedenfalls für deine Fragen :wink:

1 „Gefällt mir“

Danke Gregor!

Super dass es bei dir gut funktioniert hat - österreichisches Deutsch sollte bei uns natürlich keine Probleme machen :wink:

2 „Gefällt mir“

Das klingt hervorragend und ich werde das testen.
Bei meinem Workflow würde ich das so jedoch 2 mal durch Auphonic schicken, weil ich das Ganze hinterher schon gerne nochmal (in Ultraschall) bearbeiten und anpassen möchte.

Anders herum ergibt das wenig Sinn, weil ich Füllwörter beim Bearbeiten ja eh bereits rausnehme.
Bei einer Multitrack-Aufnahme müsste ich das Projekt mehrmals unter Einsatz der Credits für jede Spur durchschicken.

Gibt es (vielleicht jetzt schon) eine Möglichkeit meine Multitrack-Files hochzuladen und wieder als einzelne Tracks zurückzubekommen?

Eine Frage hätte ich noch: gibt’s die Möglichkeit die geschnittenen Stellen per Api abzufragen?
Dann könnte man die Füllwörter in Auphonic erkennen lassen und die Schnitte in Ultraschall automagisch einbauen, um so nochmal Nachbearbeitung zu ermöglichen,falls doch mal was schief lief.

Die Api-Anfragen wären also die ungeschnittenen aber Audiobearbeiteten Files runterladen plus die Positionen und Längen der Schnitte.

Kurzes Feedback, ich kann gerade keine ausführlichen Beispiele geben.

Ich habe es mit unserer aktuellen Folge ausprobiert und weitestgehend funktioniert es sehr beeindruckend, leider sind aber auch hier und da mal nötige Silben von Wörtern weggeschnitten, weswegen ich es noch nicht wirklich nutzen kann.

Hier ein kleines Beispiel: Bei etwa 18:40 ist das Wort „aktuell“ langgezogen. Das „ell“ wird als Füllwort erkannt und rausgeschnitten. Übrig bleibt dann nur „aktu“.

1 „Gefällt mir“

Ja klar - du kannst du bearbeiteten Tracks bei uns natürlich auch exportieren:
https://auphonic.com/help/algorithms/multitrack_tips.html#export-processed-input-tracks

Ja klar, die Cutting Zeiten sieht man in der API Antwort - siehe das subdict „statistics“ → „cuts“ hier:
https://auphonic.com/help/api/query.html#details-about-a-production

2 „Gefällt mir“

Vielen Dank für dein Feedback - das ist in der Tat ein Fehler und wird gefixed!

Hast du noch wo Probleme gehört? Hier wäre wir sehr dankbar für konkrete Zeiten, dann können wir das verbessern.
(Ich konnte in deiner Production nicht mehr wirklich was finden …)

Auf alle Fälle Danke und ich hab dir die Credits für deine Production zurückgeschickt!

2 „Gefällt mir“

Ich bin jetzt erstmal beschäftigt, höre bei Gelegenheit aber nochmal rein!

1 „Gefällt mir“

Das Feature habe ich bislang immer übersehen.

Könnte man die vielleicht als REAPER-Regions exportieren? Dann könnte man die Regions auf die Originaldateien im Reaper legen und hat überall Hints auf „Problemstellen“.
Ein Traum wäre natürlich @Mespotine wenn die Regions als Spur dargestellt werden und ich einfach „X - Remove“ drücken könnte und dann wird der Ripple-Cut dort gemacht.
Ich mag dann doch gerne Kontrolle über so etwas haben…

1 „Gefällt mir“

Nice! Das müssen wir uns mal zur Ultraschall 6er Reihe mal genauer anschauen.

@SebastianStix
Regions wäre zwar so machbar, aber eine Liste mit den Problemstellen, die Du probe hören kannst und dann per Klick RippleCutten wäre meines Erachtens nach der bessere Ansatz.
Regions bringen zuviele potenzielle Probleme mit sich.

1 „Gefällt mir“

Das wäre sicher genial!

Apropos: wir sind auch am Überlegen, ob wir das nicht bei uns ins Web Interface auch einbauen, d.h. dass man dann die Cuts anhören und bestimmte entfernen kann, falls sie einem nicht gefallen …

Aber andererseits: bei 1h Podcast kommen meist schon 200-400 Cuts zusammen, würde sich wirklich jemand die Arbeit antun, die alle nochmal zu kontrollieren?

Bei Podcasts, wo es auf Exaktheit ankommt, sicherlich.
Ich denke allein Holgi würde das für seine Auftragsproduktionen machen und ich auch. Speziell wenn es auf Zitierfähigkeit ankommt, dann macht das sehr viel Sinn.
Bei klassischen Laberpodcasts, bei denen es egal ist vermutlich eher nicht.
Aber für die kann man ja immer noch einen „Wende alles an“-Button machen.

1 „Gefällt mir“

Wow, das klingt ja nach einem mega hilfreichen Feature - kann es auch „Ähs“ entfernen? Das ist bei einem unserer Podcasts eines der zeitraubendsten Schnittarbeiten, da eine der Hosts immer sehr viele „Ähs“ macht. Sowas automatisiert zu erkennen und zu entfernen, wäre natürlich genial!

Moin @auphonic,

Als weitere Stellen hab ich jetzt noch gefunden:

  • 02:45 – Da sage ich was, breche aber wieder ab und man hört nicht, dass ich es zurücknehme
  • 09:27 – Setzt den Cut zu aggressiv
  • 13:45 – Genauso zu aggressiv für einige der Füllwörter in den folgenden Sekunden
  • 22:50 – Ab da auch zu aggressiv
  • 25:00 – Basti verhaspelt sich etwas beim Wort „spielstarkes“ und mit dem herausgeschnittenen „ähm“ stolpert man als Hörer*in
  • 36:09 – Ähnlich: Ich verhaspele mich kurz, mache das mit einem „äh“ deutlich und wenn das rausgeschnitten wird, hört es sich komisch an
  • 39:15 – Auch da läuft beim Wort „aktuell“ was schief, außerdem direkt danach bei „diese“
  • 47:49 – Beim Wort „lauwarm“ wird die zweite Silbe abgeschnitten

Und zusätzlich entsteht grundsätzlich das Problem, dass durch den Schnitt manche Worte zu schnell nacheinander kommen, was dann unnatürlich klingt. Gäbe es vielleicht auch die Möglichkeit, manche Füllwörter nur zu muten, wenn kurz davor oder danach ein anderes Wort kommt? Bzw. einen Mittelweg zwischen Muten und hartem Cut? Also erst muten und die Pause dann etwas kürzen, sie aber nicht komplett rausnehmen.
Außerdem gibt es noch Stellen (ich wüsste auch nicht, wie sich das vermeiden lässt), wo die Person gerade ein oder ausatmet vor oder nach dem Schnitt und dann ein Teil des Atmers fehlt und hörbar ist, dass geschnitten wurde.

Wie gesagt, an vielen Stellen bin ich aber beeindruckt, wie gut das schon funktioniert und kann mir grundsätzlich vorstellen, es auch für unsere Folgen zu nutzen. Darum hab ich mir auch die Zeit genommen, nochmal durchzuhören.

Ganz ganz großartiges Feature, aber ich brauche tatsächlich dringend die Möglichkeit bei den Ähms zur Not zu entscheiden, ob ich sie drin haben will. Ich höre also die bearbeitete Version nochmal an und wenn ich über irgendwas stolper, geh ich rein und schau welcher Edit drin liegt. Dann entscheide ich ob der soll, oder nicht.

1 „Gefällt mir“