AI学習に使用できる高品質なテキストデータが2026年までに枯渇すると予測されている「2026年問題」。このデータ不足の解消策の1つに、別のAIが生成したデータを学習に利用する「データ合成」という方法がある。
AI開発においては遅れを取っている日本だが、この新たなフェイズにおいて、勝ち筋が見えるという。筆者が注目する自動運転AIの事例を紹介しよう。
※本稿は、国立情報学研究所・情報社会相関研究系教授の佐藤一郎『2030 次世代AI 日本の勝ち筋』(日経BP)の一部を抜粋・編集したものです。
● AIの学習データは 底をついてしまう
AIの著名研究者のひとり、スチュアート・ラッセル氏(米カリフォルニア大学バークレー校教授)が、2023年7月の国際的標準化組織ITUのAI関連イベントで「AIの学習データが底をつく」と発言して話題を集めました。その背景には、AI業界で当時指摘されていた「2026年問題」があります。
「2026年問題」とは、言語生成AIの学習モデルの巨大化が進むと、そのモデルのための学習用データとして利用できる、一定の品質以上の文章データ、例えばニュース記事、論文、ウィキペディアなどは2026年で足りなくなるというものです。
オープンAIのサム・アルトマンCEOは2023年4月、米MITのイベントにおいて「巨大モデルへと突き進んでいく時代は終わったと思う。我々は別の方法で改善に取り組んでいる」と述べていますが、これも一定品質以上の学習用データが不足することが念頭にあったといわれています。
● 別の生成AIによる出力が 混ざるのは避けられない
現在、学習用データ不足の解消策がいくつか検討され、実行に移されています。
そのひとつは、学習モデルの構造を見直し、モデルをコンパクト化することです。
言語生成AIの学習モデルは冗長部分があるので、性能を維持しながら学習モデルの規模を圧縮することで、学習モデルを構築するための学習用データを減らせるという考え方です。
もうひとつ有力な策は、従来のウェブや各種コンテンツデータベースから集めたデータに加えて、別の言語生成AIが生成したデータも学習に利用する方法で、データ合成と呼ばれています。特に英語以外の特定言語を重視した言語生成AIの構築では、一定の品質以上の文章データの確保が難しいとされています。
実際、日本の言語生成AI開発プロジェクトには、従来の強化学習による学習用データのかさ上げに加えて、生成AIで作成した文章を学習用データとして付加しているものもあります。
これはAIが別の生成AIの出力を学習している状況であり、その別の生成AIが間違った出力を行うと、それを学習したAIもその間違いを再生産してしまう可能性があります。しかし、現在のAI開発において、合成データの活用は避けられなくなっています。
というのは、ウェブ上には生成AIが作り出した文章や画像、動画が増えてきており、生成AIがウェブ上のコンテンツを学習用データとして利用している限り、結果的に「別の生成AIが作り出した文章や画像、動画」を学習することは不可避だからです。
解説
・AIの学習に必要な高品質なテキストデータが、モデルの巨大化により2026年までに底を突くと予測されている。
・不足を補うため、別のAIが作った「合成データ」を学習に使う手法が不可避となっており、日本でも活用が進んでいる。
・AIがAIの誤りを学習するリスクはあるが、自動運転などの特定分野ではこの新たなフェイズが日本の好機になり得る。
<ネットでの反応>
>高品質なテキストデータが2026年までに枯渇すると予測されている
ならばここみたいな低品質なテキストデータを学ぶが良い
清濁合わせて学習しないとね
濁は魅力的で強いぞw
2chのデータで学習させる、面白そうなAIができそうだな。
日本に勝ち筋というかね…
そんなもんAI研究者を輩出できるようになってから言えよ
頭大丈夫かこいつ?AIと取っ替えちゃうぞ?
ジェミナイに対する敗北宣言ですか
この手法でECサイトは自分でゴミデータサイト作ってる
クズだな
それなw
AIで作られたゴミサイトが乱立し、AIがそれを参照する
AI同士でAIを馬鹿にしていくのか、面白いな
5chの専門板が2~3人の荒らしに占拠されて廃れたのと同じか?
科学や政治を主導する話はどこへいったんだ
政治を主導しとるやろ、どこの国でも民主主義破壊しとるで
自己学習で無限にかしこくなるって話だったはずだが
日本にはクローズドでやっているという設定がある
毎日凄い数の漫画やなろう小説が産まれてるけどな…
週刊連載とか正気の沙汰じゃないとか言われてるものが何百あると思ってるんだ
ソフバンGとかモロに最先端なんだが
ARMとか持ってるし
AIが作った学習データを学習したら劣化してくるって事は無いんかな
つか既存の学習データが無いと進化しないなら
結局AIが知能化する事はない気がする
デジタルは劣化しない
AIはデータが命
世界でアメリカと中国しか成功してないから
日本が特別遅れてるわけでもない
大量の正規データと人海戦術が必要だから
Googleが強いのはデータ好きに使えて巨大企業故に大量雇用も出来る為
中国はデータ勝手に使うのに躊躇無いし人材雇用も安くて沢山使える為
そんなもんに価値があると思わなかったから
直接の理由は資金力だけど
本質的には日本語データの絶対量が少なすぎるから。
AIは英語という支配的言語の産物と言い換えてもいい
その先は開拓していかなければならない
AIと一緒に

ネット上の高品質なテキストデータには限りがあるからな。これからはただモデルを大きくするんじゃなく限られたデータでいかに賢くするか、効率化のフェーズに入るってことだろ。




コメント