Drift, Phrasierung und Rubato klingen ähnlich. Beim Bearbeiten eines KI-Takes zeigt sich, dass sie es nicht sind.
Ein Schlagzeug-Take aus Suno, importiert in Cubase, getriggert auf Superior-Drummer-Sounds. Es läuft. Und dann läuft es auseinander: Das MIDI driftet gegen das Audio, nach acht Takten sitzen die Taktlinien neben den Schlägen. Die naheliegende Diagnose lautet: schlechte Tempo-Erkennung. Sie ist nicht falsch, aber sie verfehlt das Eigentliche.
Manche Transkriptionswerkzeuge geben den Hinweis selbst. Sie liefern eine Tempo-Map mit und schreiben dazu, man möge erst diese ins Projekt laden und dann das Audio importieren — sonst stimmt die Synchronität nicht. Übersetzt heißt das: Das Stück hat kein festes Tempo. Das Werkzeug weiß es und gibt die Verantwortung weiter. Die Frage ist also nicht, ob die Software das Tempo schlecht erkannt hat. Die Frage ist, was für eine Zeit dieses Material überhaupt hat.
Drei Dinge, die gleich aussehen
Drei Phänomene können dazu führen, dass ein Schlag nicht auf dem Raster sitzt. Auf der Wellenform sind sie nicht zu unterscheiden. Musikalisch sind sie drei verschiedene Dinge.
Das erste ist Drift. Eine Tempo-Schwankung ohne Richtung. Das Stück wird schneller und langsamer, ohne dass die Schwankung etwas meint. Bei generativer Musik ist das der Normalfall: Das Modell hält kein striktes Tempo, weil es nie gegen einen Klick gespielt hat. Drift kann sich lebendig anfühlen — das ist die Falle. Die Lebendigkeit ist hier ein Nebenprodukt, keine Aussage.
Das zweite ist Phrasierung. Die gerichtete Mikro-Abweichung. Das Ride einen Hauch vor dem Schlag, die Snare einen Hauch dahinter, konsistent über den Groove. Eine Schlagzeuger*in, die so spielt, weicht nicht zufällig ab: Sie weicht in eine bestimmte Richtung ab, mit Bezug zum Puls. Das Feel sitzt in der Konsistenz, nicht in der Streuung.
Das dritte ist Rubato. Die bewusste Dehnung über die Phrase — accelerando ins Thema, ritardando vor der Auflösung. Im klassischen Sinn ist Rubato „gestohlene Zeit“: Was vorne genommen wird, wird hinten zurückgegeben. Es gibt einen Bezugspuls, zu dem das Tempo zurückkehrt. Die Abweichung folgt der Form.
Der Test und seine Grenze
Daraus ergibt sich ein Kriterium. Phrasierung und Rubato haben einen Referenzpunkt, zu dem sie zurückfinden. Drift hat keinen. Die Frage an einen zweifelhaften Take lautet also: Kehrt das Tempo nach der Dehnung an einen Bezugspunkt zurück, oder wandert es einfach weiter? Kehrt es zurück, ist die Abweichung Gestaltung. Wandert es, ist sie Streuung mit besserer Presse.
Nur trägt dieses Kriterium nicht überall. Es setzt einen Puls voraus. Eine Ballade in freier Zeit, ein Intro ohne steten Grundschlag, kehrt zu keinem Klick zurück — und ist trotzdem zutiefst gestaltet. Dort versagt der Test. Wo kein Bezugspuls existiert, lässt sich am Timing allein nicht entscheiden, ob eine Dehnung Absicht trägt oder ein Modell verzieht. Die saubere Grenze zwischen Gestaltung und Rauschen verschwimmt genau da, wo Musik am freiesten atmet. Das ist keine Schwäche des Kriteriums, sondern seine ehrliche Reichweite.
Warum die Unterscheidung zählt — und wo nicht
Man könnte einwenden: Klingt es lebendig, ist die Herkunft der Lebendigkeit gleichgültig. Beim Hören stimmt das. Eine Hörer*in spürt nicht, ob eine Abweichung gerichtet oder ungerichtet ist; sie spürt, ob es trägt. Für den Höreindruck ist die Metaphysik der Absicht folgenlos.
Folgenreich wird sie, sobald man mit dem Material arbeitet. Wer extrahiert, quantisiert, konserviert, entscheidet darüber, was am Timing erhalten bleiben soll — und dafür muss man wissen, ob die Abweichung Struktur hat. Strukturierte Abweichung lässt sich auf ein Groove-Template legen, übertragen, bewusst verstärken. Unstrukturierte lässt sich nur einfrieren oder wegwerfen: Bewahren kann man sie nicht, weil nichts da ist, das sich bewahren ließe.
Hier kippt eine praktische Frage in eine begriffliche. Suno kann inzwischen tempogelockt exportieren — ein festes Raster, sauber zu bearbeiten. Das ist die richtige Wahl, wenn die Drift Rauschen war. Es ist die falsche, wenn sie Rubato war, denn dann ebnet das feste Tempo gerade das ein, was den Take trägt. Dieselbe Einstellung, zwei gegensätzliche Folgen — und welche zutrifft, hängt nicht am Werkzeug, sondern an der Antwort auf die Frage, was für eine Abweichung man da vor sich hat.
So weit, nicht weiter
Das Muster ist nicht aufs Schlagzeug beschränkt. Generative Systeme erzeugen regelmäßig Output, der Struktur zeigt, ohne sie zwingend zu haben. Ein Text kann wie ein Argument aussehen, ohne einem zu folgen; eine Tempo-Kurve kann wie Agogik klingen, ohne Form zu meinen. Die Ähnlichkeit zur Bedeutung ist nicht die Bedeutung.
So weit die Analogie — weiter sollte sie nicht. Musikalische Abweichung ist messbar, kontinuierlich, am Signal ablesbar; das Rückkehr-zum-Puls-Kriterium hat ein klares Korrelat. Bedeutung in Sprache hat es nicht. Der gemeinsame Nenner ist schmal: In beiden Fällen sagt der Anschein nichts über die Struktur dahinter, und in beiden Fällen verführt der Anschein dazu, Struktur anzunehmen, wo vielleicht keine ist.
Rest
Die Tempo-Map, die ein Werkzeug aus einem KI-Take zieht, ist weder Gegner noch Freund. Sie ist eine Hypothese über die Zeit des Stücks. Folgt man ihr, übernimmt man die Behauptung, die Schwankung bedeute etwas. Verwirft man sie zugunsten eines festen Tempos, behauptet man das Gegenteil. Beides kann richtig sein. Welche Behauptung stimmt, verrät kein Werkzeug — das bleibt eine Frage ans Ohr.
Leave a Reply