2026年3月25日水曜日

AIがAIの生成したテキストを学習してドンドン凡庸になっていく問題

表記の問題は、AI研究者の間で「モデル崩壊」と呼ばれています。AIが生成したテキストの学習を繰り返すことで、無難な答えに収束しエラーも増幅していくというものです。

これが、将来的に避けられるのか疑問です。

Claude Codeが優れすぎているので、ブログやSNSの発信さえAIに自分ぽく書かせるというテクニックもあちこちで公開されているのを目にします。

人間が書いたオリジナルのテキストという観点から、以下のようなことを考えてしまいました。

生成AIによるテキストが増えるに従い、AIに汚染されていないオリジナルデータが重要

という概念。

一方で、テキストに限らす、画像も動画も、人間の生成したものでさえ、贋作、著作権侵害、真似、パクリが横行していますし、過去の何らかの人間の生成したものに多かれ少なかれ影響を受けているわけです。

例えば絵画の印象派なども、マネやモネの派生と考えると、先だった師や同時代の生成者のアイテムを自分なりに解釈して再構築したわけです。

と、このまで考えた時、今の生成AIはトークンなどをチャンクとかベクトルという単位に落とし込み、確率的に計算させているわけです。たがら、繰り返すと例えば5シグマの外のようなものは生成されにくくなる。

だとすると、計算ロジックにノイズとか意外性を組込むなどとするとどうなるのか。

そこまでいくと、人間が生成したものと、AIが創造したものの差異とは何がという問いかけが生まれてくるかもしれません。

実際、バッハの曲を覚えたAIはバッハ風の曲を作りますし、カントリーのベストテンが歌手も含めて全てAIという現実は実現してしまいましたからね。


上の質問をClaudeに投げてみました。

AIの回答は敢えてブログには、今後は載せないこととします。

0 件のコメント:

コメントを投稿