Das ist ein populäres Missverständnis. Es gibt keinen grundlegenden Unterschied zwischen Daten, die von KI oder Menschen gemacht sind. Deswegen kann es auch keine zuverlässigen KI-Detektoren geben.
Ich verstehe nicht genau was du damit sagen willst, bzw. was das Missverständnis sein soll?
Training artificial intelligence (AI) models on AI-generated text quickly leads to the models churning out nonsense, a study has found. This cannibalistic phenomenon, termed model collapse, could halt the improvement of large language models (LLMs) as they run out of human-derived training data and as increasing amounts of AI-generated text pervade the Internet.
Das Problem entsteht ja schon im Grundprinzip von GANs. Die eine Hälfte wird darauf trainiert echte und generierte Daten zu unterscheiden. Wenn aber in den Referenzdaten immer mehr “falsche”, also generierte Daten auftauchen, kann das Ganze schon vom Prinzip her nicht funktionieren.
Nature ist mit der Veröffentlichung nicht gerade in meinem Ansehen gestiegen.
Was da gemacht wurde: Man nimmt ein generatives Modell. Damit erzeugt man zufällig Daten. Mit diesen Daten trainiert man ein neues Modell und immer wieder so weiter.
Natürlich geht in jeder Generation etwas verloren. Wenn ein Modell nicht ausspuckt oder nicht lernt, zB, dass der 3. Oktober Tag der Deutschen Einheit ist, dann wissen Folgegenerationen das nicht. Es gibt kein prinzipielles Problem mit KI-generierten Daten.
Das Prinzip hinter GANs ist das man 2 KIs gegeneinander antreten lässt. Eine KI generiert etwas, zB ein Bild. Die andere KI unterscheidet dann, ob so ein Bild von der Gegner-KI generiert wurde, oder im Trainingsdatensatz vorkommt. Im Idealfall werden beide immer besser und schaukeln sich gegenseitig hoch bis zur Perfektion. Ob die Trainingsdaten von irgendeiner anderen KI generiert wurden, ist egal.
Das ist ein populäres Missverständnis. Es gibt keinen grundlegenden Unterschied zwischen Daten, die von KI oder Menschen gemacht sind. Deswegen kann es auch keine zuverlässigen KI-Detektoren geben.
Ich verstehe nicht genau was du damit sagen willst, bzw. was das Missverständnis sein soll?
Quelle
Das Problem entsteht ja schon im Grundprinzip von GANs. Die eine Hälfte wird darauf trainiert echte und generierte Daten zu unterscheiden. Wenn aber in den Referenzdaten immer mehr “falsche”, also generierte Daten auftauchen, kann das Ganze schon vom Prinzip her nicht funktionieren.
Nature ist mit der Veröffentlichung nicht gerade in meinem Ansehen gestiegen.
Was da gemacht wurde: Man nimmt ein generatives Modell. Damit erzeugt man zufällig Daten. Mit diesen Daten trainiert man ein neues Modell und immer wieder so weiter.
Natürlich geht in jeder Generation etwas verloren. Wenn ein Modell nicht ausspuckt oder nicht lernt, zB, dass der 3. Oktober Tag der Deutschen Einheit ist, dann wissen Folgegenerationen das nicht. Es gibt kein prinzipielles Problem mit KI-generierten Daten.
Das Prinzip hinter GANs ist das man 2 KIs gegeneinander antreten lässt. Eine KI generiert etwas, zB ein Bild. Die andere KI unterscheidet dann, ob so ein Bild von der Gegner-KI generiert wurde, oder im Trainingsdatensatz vorkommt. Im Idealfall werden beide immer besser und schaukeln sich gegenseitig hoch bis zur Perfektion. Ob die Trainingsdaten von irgendeiner anderen KI generiert wurden, ist egal.