2026年3月25日水曜日

AIがAIの生成したテキストを学習してドンドン凡庸になっていく問題

評価の問題は、AI研究者の間で「モデル崩壊」と呼ばれています。AIが生成したテキストの学習を繰り返すことで、無難な答えに収束していき、エラーも増幅していくというものです。

これが、将来的に避けられるのか疑問です。

Claude Codeとかが優れすぎているので、ブログやSNSの発信さえAIに自分ぽく書かせるというテクニックもあちこちで公開されているのを目にします。

人間が書いたオリジナルのテキストという観点から、以下のようなことを考えてしまいました。

この観点は眼からうろこですね。

言葉は悪いのですが

AIに汚染されていないオリジナルデータ

という概念。

しかし、一方で、人間の生成したものでさえ、贋作、著作権侵害、真似、パクリが横行していますし、過去の何らかの人間の生成したものに多かれ少なかれ影響を受けているわけです。

例えば絵画の印象派なども、マネやモネの派生と考えると、先だった師や同時代の生成者のアイテムを自分なりに解釈して再構築したわけです。

と、このまで考えた時、今の生成AIはトークンなどをチャンクとかベクトルという単位に落とし込み、確率的に計算させているわけです。たがら、繰り返すと例えば5シグマの外のようなものは生成されにくくなる。

だとふると、この、計算ロジックにノイズとか意外性を組込むなどとするとどうなるのか。

そこまでいくと、人間が生成したものと、AIが創造したものの差異とは何がという問いかけが生まれてくるかもしれません。

実際、バッハの曲を覚えたAIはバッハ風の曲を作りますし、カントリーのベストテンが歌手も含めて全てAIという現実は実現してしまいましたからね。


上の質問をClaudeに投げてみました。

aIの回答は敢えてブログには、今後は載せないこととします。

0 件のコメント:

コメントを投稿