Zur Musik

Warum KI für einen Komponisten manchmal der bessere Sänger ist

… und warum Komponisten anders auf den Gesang blicken als andere

Warum viele Menschen KI-Stimmen instinktiv ablehnen

Viele Menschen haben eine Aversion gegen Gesangsstimmen, die mithilfe von Künstlicher Intelligenz (KI) erzeugt wurden. Dabei empfinden sie die Stimme selbst oft gar nicht als „unschön“. Was sie stört, ist der Umstand, dass sie von einer Maschine erzeugt wurde.

Das ist verständlich. Denn die menschliche Stimme ist identitätsstiftend. Jede Stimme ist so einzigartig wie ein Fingerabdruck – oder wie die Iris im Auge oder die Form eines menschlichen Ohres. Im Gegensatz zu Iris oder Ohr verbinden wir eine Stimme jedoch unmittelbar mit einer Persönlichkeit.

Wenn wir eine Stimme hören, entsteht sofort ein inneres Bild eines Menschen. Eine Stimme gehört zu einem Menschen. Basta!

Und deshalb empfinden viele es als befremdlich – ja manchmal sogar als eine Art Betrug oder Grenzüberschreitung –, wenn eine Künstliche Intelligenz eine menschliche Stimme nachahmt.

Das ist normal.
Das ist verständlich.
Das ist menschlich.

Mensch ist Mensch – und Mensch soll Mensch bleiben. Maschinen sollen ihn nicht nachbilden, nachahmen oder ersetzen. Mit dieser Haltung gehe ich persönlich konform.

Der Perspektivwechsel: Wie ein Komponist Stimmen wahrnimmt

Als Komponist jedoch sehe ich die Sache noch aus einer anderen Perspektive. Warum? Gerne möchte ich Ihnen meinen Gesichtspunkt dazu schildern. Ich möchte nichts an Ihrem Gesichtspunkt ändern. Ihr Gesichtspunkt ist richtig! Ich möchte Ihnen nur die Möglichkeit geben, die Sache einmal aus den Augen eines Komponisten zu betrachten.

Für einen Komponisten ist eine Gesangsstimme zunächst nichts anderes als eine musikalische Stimme, ein Instrument – ähnlich wie eine Flöte oder eine Klarinette. Sie trägt eine Melodie. Dass sie zusätzlich auch noch Wörter transportiert, ist lediglich eine ihrer Eigenarten (wie z.B. E-Gitarren auch so ihre Eigenarten haben).

Liedtexte – wichtiger als die Musik? Oder maßlos überschätzt?

Welche Wörter das sind, seien wir mal ehrlich, ist den meisten ziemlich egal. Justin Bieber hat in einem seiner Lieder eine gefühlte Million Mal „Baby“ gesungen. Keinen hat‘s gestört. Und bittet man Mitmenschen, einen richtig guten Liedtext zu nennen, sagen sie z.B. „Stairway to Heaven“. Fragt man sie dann aber, worum es in diesem Text geht, wissen 99 von 100 es nicht. Kurzum: Liedtexte werden gemeinhin extremst (!), ja geradezu maßlos überwertet. Oder anders ausgedrückt: Den Leuten ist es völlig wurscht, welche Wörter gesungen werden.

Seien wir ehrlich: Es klingt halt besser, wenn Sänger echte Wörter benutzen, als wenn sie „Oh“ und “Ah“ oder Fantasiesprache benutzen. Aber manchmal tun Sänger sogar das. Und Phil Collins sagte sinngemäß, dass manche Textzeilen einfach entstanden seien, weil sie rhythmisch und klanglich passten, nicht weil sie eine tiefere Botschaft hätten.

Manch Klassikliebhaber summt die Texte italienischer Opern mit, während er von deren Bedeutung nicht den Funken einer Ahnung hat.

Ein gutes Beispiel dafür ist übrigens „Bobby Brown“ von Frank Zappa. Das Lied wurde nach seiner Veröffentlichung in Dauerschleife im Radio gespielt. Es dauert Monate (!), bis erste Hörer bemerkten, was der „versaute alte Frank“ da eigentlich sang. Dann wurde das Lied empört aus dem Programm genommen (später dann aber wieder rege gespielt, nachdem man sich vom ersten Schock erholt hatte).

Frank Zappa: Immer provokativ, immer unberechenbar – sein Song „Bobby Brown“ sorgte für großen Aufruhr.

Es gibt, wie immer, natürlich auch Ausnahmen von dieser Regel, aber die Eigenschaft einer Gesangsstimme, Wörter zu transportieren, spielt im Gesamtbild eher eine Nebenrolle.

Klang wichtiger als Bedeutung

Ungleich wichtiger als die gesungenen Wörter sind für mich als Komponist die gesungenen Noten, die Klarheit, das saubere Treffen der Töne, die richtige Lautstärke sowie Takt, Rhythmus und Timing.

Ich selbst besitze ein extrem feines Gehör, das heißt: Ich höre es, wenn ein Sänger auch nur minimal daneben singt. Und jeder Sänger tut das (es gibt natürlich seltene rühmliche Ausnahmen). Für mich sind solche Sänger eine Qual!

Meine Heimatstadt Kirchheim unter Teck ist bekannt für ihre alljährlich im Juni stattfindende „Kirchheimer Musiknacht“. Da spielen in der Innenstadt bis zu 60 Bands live. Wenn ich da durch die Gassen ziehe, glauben Sie, ich treffe auf nur einen einzigen Sänger, der richtig singt?

Es gibt mehrere typische Formen des Falschsingens:

(1) Manche singen – oft ohne es zu merken – grundsätzlich einen Tick zu hoch oder zu tief.
(2) Andere haben keine Tonstabilität: Der gehaltene Ton schwankt hörbar.
(3) Wieder andere wechseln zwischen richtig und falsch – einzelne (gut geübte, häufig wiederholte) Stellen stimmen, andere nicht.
(4) Gerne werden auch Sprünge verfehlt: Der erste Ton sitzt, der nächste landet daneben.
(5) Manche verlieren im Verlauf der Melodie den Bezug zur Tonart und driften allmählich davon und
(6) der wohl häufigste und typischste Laienfehler: Der Sänger beginnt leicht unter oder über dem Zielton und rutscht auf die richtige Tonhöhe. Der Ton wird also nicht sofort exakt getroffen, sondern der Sänger gleitet quasi erst dorthin.

Wie viel Arbeit wirklich hinter einer „perfekten“ Gesangspur steckt

Rund die Hälfte aller Arbeit im Studio geht für den Gesang drauf. Eine Gesangsspur wurde früher gut und gerne zig Dutzend Mal eingesungen. Die armen Sänger mussten das früher immer am Stück machen. Heute werden nur mehr kurze Abschnitte eingesungen, die dann perfekt poliert und digital zusammengebastelt werden.

Nur damit Sie einmal einen Eindruck davon bekommen, was im Tonstudio mit einer Gesangsstimme alles gemacht wird: Die Stimme wird zuerst einmal „geradegebügelt“ durch ein spezielles Effektgerät, das die Tonhöhenschwankungen bereinigt, die Stimme buchstäblich stimmt. Dann geht die Stimme durch eine weitere Stufe. Die sorgt für Fülle. Da werden heimlich Stimmverdopplungen über die Stimme gelegt. Danach wird mit einem Spezialgerät die Lautstärke geglättet, ausgeglichen, damit leise und laute Stellen gleichmäßig wirken. Weitere Effektgeräte formen den Klang der Stimme – etwas mehr Wärme hier, etwas mehr Brillanz dort. Dann sorgt ein weiteres Teil dafür, dass scharfe „S“-Laute nicht zischen. Zum Schluss gibt’s obendrauf als Sahnehäubchen noch Hall fürs Volumen und teilweise Echo. Bei manchen Sängern muss man zudem noch das Timing glätten, also einzelne Silben oder kurze Passagen im zeitlichen Verlauf verschieben.

KI ist eh schon an Bord

Viele dieser Studio-Hilfsmittel funktionieren heutzutage übrigens schon KI-gestützt. Es gibt z.B. KI-gestützte Equalizer. Hier steuert also die KI automatisiert die Klangregelung der Stimme (Tiefen, Mitten und Höhen).

Wenn Sie heute ein modernes Lied im Radio hören, dann ist die Stimme, die Sie hören, in vielen Fällen bereits digital – teilweise sogar KI-gestützt – poliert. Und würden Sie vergleichsweise die pure, reine Originalversion hören, die der Sänger im Studio eingesungen hat (gänzlich ohne Hilfsmittel und Effekte), würden Sie sich unter Umständen zu Tode erschrecken.

Grundsatzentscheidung

Die Gesamtarbeiten an der Stimme im Tonstudio nennt man neudeutsch „Vocal Editing“ – dasselbe kostet in einem Profi-Studio gut und gerne mehrere Tausend Euro pro Lied.

Das stellt mich als Komponist vor die Frage: Nehme ich einen echten (menschlichen) Sänger, gebe im Studio 5.000 Euro dafür aus (pro Lied!) und habe am Ende ein annähernd zufriedenstellendes Ergebnis – oder lasse ich gleich von Anfang an die KI nach meinen Vorgaben singen – und habe dann ein perfektes Ergebnis – kostenlos.

Vom Zeitfaktor noch gar nicht gesprochen. Bis ein Sänger ein Lied einstudiert, übt, aufnimmt und bis mir das Studio das Endergebnis abliefert, vergehen minimal 4 Wochen. Lasse ich es die KI singen, kann ich in einer Stunde 12 verschiedene Versionen erstellen und mir die beste davon aussuchen.

Singen ist natürlich wunderbar!

Verstehen Sie mich bitte nicht falsch: Singen ist eine tolle Sache. Die Hausfrau geht jeden Donnerstagabend in ihren Singkreis, weil ihr das Spaß macht, weil sie die Gruppenaktivität liebt, weil Singen befreiend wirkt usw.

Eine ausgelassene Karaoke-Party im Rahmen einer Betriebsfeier ist lustig – alle lachen, alle sind vergnügt. Das ist wunderbar. Wenn in Kirchheim Laienmusiker alte Gassenhauer nachspielen und die Leute das gerne hören, weil sie mitsingen können – wunderbar. Das ist schön. Das ist gut. Das ist richtig. Das ist wichtig!

Aber ich als Komponist habe ein Ergebnis im Ohr, das ich erzielen will. Und dabei wähle ich natürlich den Weg, der mich dorthin bringt. Und deshalb nutze ich KI.

Als ich meine ersten mithilfe von Gesangs-KI produzierten Lieder (z.B. „Wind aus Beton“) an meine Leser schickte, war einer der häufigsten Kommentare: „Oh, ein tolles Lied – und ja sooo eine wunderschöne Stimme! Wer hat denn das gesungen?“

Gibt es „schöne“ und „unschöne“ Stimmen überhaupt?

Übrigens: Es ist eine erwähnenswerte Tatsache, dass es so etwas wie eine „schöne Stimme“ gar nicht gibt. Es gibt keine „schönen“ und andererseits „unschönen“ Stimmen. So etwas existiert nicht. Was die Leute meinen, wenn sie von einer schönen Stimme sprechen, ist eine Stimme, die Töne treffen und halten kann. Was der Laie als „schöne Stimme“ bezeichnet, ist in Wahrheit einfach nur eine gut kontrollierte Stimme. Gute Atemkontrolle usw. – das ist trainierbar. Für jeden mit anatomisch intakten Stimmbändern.

Wenn also die Leute KI-Stimmen „toll“ und „wunderbar“ finden, solange sie nicht wissen, dass es sich um KI-generierte Stimmen handelt, und sie dann „schlecht“ finden, sobald sie es wissen, womit haben wir es dann zu tun?

Mit einem psychologischen Faktor.

Und, noch einmal: Dieser Faktor ist verständlich. Ich will Ihnen das nicht wegnehmen. Es ist ein richtiger Impuls, dass man nicht will, dass Menschen durch Maschinen ersetzt werden.

Was aber mich betrifft: Ich habe keine 5.000 Euro, die ich pro Lied für die Gesangsstimme ausgeben könnte, die mir die KI-Software kostenfrei per Haus liefert. Ich stehe also vor der Frage, was besser ist: Meine musikalischen Lied-Ideen umzusetzen und für andere hörbar ins Leben zu bringen – oder eben, alternativ, musikalisch zu schweigen und keine Lieder zu produzieren.

Ich weiß nicht, wie Sie das sehen: Aber ich freue mich über meine Lieder – und ich finde es besser, sie zu haben als sie nicht zu haben.

Vielen Dank für Ihre Aufmerksamkeit!

MiKe

PS. Schreiben Sie mir gerne Ihre Ansicht dazu an mike [at] mikemachtmusik.de

Von Michael am 06.03.2026

Administrator