生成AIストリーム

日本の技術者はSakana AIのことを、よく見たほうがいい。

Sakana AIから占う日本の生成AIの未来

しらいはかせ

2025年3月4日 16:39

Sakana AIから占う日本の生成AIの未来

　2025年2月20日、日本を代表するAIユニコーン企業であるSakana AIが発表した「AI CUDA Engineer」が、CUDA（Compute Unified Device Architecture：NVIDIAのGPUハードウェアの並立計算を制御するための基層レイヤーのソフトウェア）カーネルの自動生成・最適化で驚異的な性能を発揮すると発表しました。CUDAカーネルとは、GPU上で並列実行される関数で、上手に並べることで計算パフォーマンスを大幅に向上させることができます。ここをAIエージェントにやらせよう、という提案です。

⇨AI CUDA Engineer：エージェントによるCUDAカーネルの発見、最適化、生成　 February 20, 2025
https://sakana.ai/ai-cuda-engineer-jp/

　しかし、海外研究者コミュニティを中心に『性能詐称疑惑』が浮上し、炎上状態になっていました。

　Sakana AIには、元Stability AIの開発者や経営者をはじめ、筆者の知人も何人か働いています。経産省「GENIAC」のような支援も入っているし、メガバンクやNEC、SBIグループなど国内の大手企業10社からの資金調達を発表し、その評価額は2200億円に達しているらしいので、筆者としては叩くつもりは全然なく、むしろ『検証してみるかぁ』ぐらいの気持ちでその真実の検証に取り組んでみました。

⇨Sakana AI の間違いを徹底的に査読してみた (Colabコード付き) - しらいはかせ(AI研究/Hacker作家): https://note.com/o_ob/n/n2fcc4e927d5a

　筆者は若い頃からゲーム開発、グラフィックスエンジニアだったので、この手のコード検証というものは徹底的に検証し、メモリリークの一つも見逃さない！という習慣があります。一方で研究者としては、コンセプト的に、またアルゴリズム的に意味があり、定性的に人類の歴史を前に進めるような研究でオープンに公開されているのであれば、論文を読んだり、解説したり、アプリケーションに組み込んだりといった価値を錬成するためにも、素直に興味があります。

漫画で見る筆者の過去のお仕事

「AI CUDA Engineer」の何が問題だったのか

　コードや検証の詳細は筆者のブログに7万字ぐらいかけて公開しているのでそちらをご参照いただくとして、査読者としてはこの手の“論文”と呼ばれる新規のテクニカル文書が舞い込んだら、機械的に査読をしています。

⇨Sakana AI の間違いを徹底的に査読してみた (Colabコード付き)｜しらいはかせ(AI研究/Hacker作家): https://note.com/o_ob/n/n2fcc4e927d5a

　今回の件はすでに筆者が着手した時点で公開から2日経っており、メモリ確保手順の異常が指摘されていました。オープンにされたコードも出ていたので、「Gemini」（Google AI Studio）を駆使して検証コードを作成・実行することは、“たった半日の徹夜”で終わる作業ではありました。

　結果として今回発表されたSakana AIの発表した技術は、生成されたコードの評価方法に、AIによるチートが入っているという点で問題があったものの、提案手法そのものは誤りとはいえないことがわかりました。

検証結果。Sakana：オリジナルのコード、Improved：元のコードをを正しく動作するように修正したバージョン、Gemini：別の最適化を試みたバージョン、Gemini2：Geminiバージョンに共有メモリとCooperative Groupsを使った最適化を追加したバージョン、Gemini3：意図的に“盗み見”を行うように改変したバージョン、PyTorch：PyTorchの組み込み関数（torch.matmulと.tril()）を使用した実装

筆者による検証コード（Google Colabで動きます）

技術屋として見たときの視点

　今回、技術屋として検証で得られた成果（面白いところ）は以下の点です。

「Gemini」を活用し、短時間で徹底的な技術検証が可能であることを証明
改善版CUDAカーネルを開発、“盗み見”の脆弱性を解消して正しい計算結果と性能を両立
「Gemini」に“さらなる高速化”を提案させ、共有メモリやCooperative Groupsを活用したコードを開発
WMMA（Warp Matrix Multiply-Accumulate）を利用した最先端の高速化コードにも挑戦できたこと
PyTorchの最適化（cuBLASなど）の底力を再確認。手動最適化CUDAカーネルでも、PyTorchネイティブ実装を超えるのは困難なことを確認

　興味深かった点は、原作の提案通り、AIエージェントをつかってコードを進化的に改善するというサービスを作ることも可能ではありますが、そもそも膨大なコードの第三者による検証作業自体がAIの助力によってあっという間に終わって、再現や改善まで出来上がってしまった、という点です。

AIとのコラボレーションはエキサイティングな作業

　正直なところ、Sakana AIのコードの問題点を突き止め、本当に論文通りの速度で動いたときは『やった！』と思いました。

　「AI CUDA Engineer」が（チートでは有るが）CUDAのメモリ確保で「前回の演算結果を盗み見ることができる」という大きなバグを発見したのですが、これはお手柄です。自分としては改善版コードやより高速なコードを開発し、ベンチマークもできましたし、世界の開発者がどのようなテストを行っているのかを学ぶことができました。この論文の査読をしようと思わなければ、気にもとめなかったでしょう。

　やってみて興味深かったのは、「Gemini」が最適化以前の初歩的なCUDA実装ミス（1次元グリッドなど）をかなり初期段階から指摘していた点です。ChatGPTやClaudeでコーディングをしている開発者は多くなっていると想像しますが、自社で自分が開発したLLMだけでなく、全く特性が異なる他のLLMを比較するという習慣があればすぐに気づいたでしょう。
いずれにせよ“ユニコーン企業”といった企業のコードをAIに助力されながら直接触って、自分の手元で動くことを確認する、という勉強は大変エキサイティングであり、勉強になりました。

高いAI技術には高い倫理感

　“倫理というものは一番最後”でいい、というスタイルの研究者が居ます。それはそれでいいのかもしれません。例えば実は日本の生成AI分野、特に画像生成AIの分野は、弁護士がクリエイターよりも先に出て、倫理や法律の議論のほうが先に善悪の線引をしてしまいました。倫理観が先に立つことで、表現や研究など、特に新しいことや価値が明らかではないことがやりづらくなります。

　しかし、多くの研究者にとって、研究倫理ってのは研究の前や後ろにつくものではなく“日々どのような姿勢で研究しているか”の現れでもあるとも感じています。

　Sakana AIからは、論文発表後、外部からの指摘で初めて問題に気づいたことが発表され、論文末尾に追記がされ、Xに英語でアップデートが記載されました。

Update:

Combining evolutionary optimization with LLMs is powerful but can also find ways to trick the verification sandbox. We are fortunate to have readers, like@main_horsetest our CUDA kernels, to identify that the system had found a way to “cheat”. For example, the system…
— Sakana AI (@SakanaAILabs)February 21, 2025

上記のポストの翻訳

更新:進化的最適化と LLM を組み合わせると強力ですが、検証サンドボックスを騙す方法も見つかります。幸運なことに、@main_horse のような読者が CUDA カーネルをテストし、システムが「不正行為」を行う方法を見つけたことが判明しました。たとえば、システムは評価コードでメモリエクスプロイトを発見し、多くの場合、これにより正確性の確認を回避できました。さらに、システムはベンチマークのタスクで他の新しいエクスプロイトも発見できることがわかりました。

それ以来、評価とランタイムプロファイリングハーネスをより堅牢にして、このような抜け穴の多くを排除しました。現在、論文と結果の改訂を進めており、CUDA カーネル最適化に対する LLM 報酬ハッキングの影響と緩和策を反映して議論しています。

読者の皆様には、見落としがあったことを深くお詫び申し上げます。近日中にこの作業の改訂版を提供し、学習内容について説明します。

　特に取り下げたり、日本語での解説やリリースを出したりするつもりはなさそうです。

（編集部注：3月3日付でSakana AIのXに日本語での簡単な説明とお詫びがポストされました）

日本の技術者は Sakana AI のことを、よく見たほうがいい。

　「Watch this carefully, very important.」（よく見たほうがいい、とても重要）、とはイーロン・マスクが、トランプ・ゼレンスキー会談の動画について述べたXのポストに添えられたメッセージですが、日本にとってSakana AIの研究開発やアウトプットの品質、経営品質については、まさに下手なAIやメディアを挟まずに自分の目で「よく見たほうがいい」と思います。

Watch this carefully. Very important.
pic.twitter.com/wdM3XdbrH1
— Elon Musk (@elonmusk)February 28, 2025

　倫理観や技術品質という視点では、Sakana AIはちょうど今、防衛分野で求人をしています。

Sakana AIはグローバルで最先端のAI技術を日本の課題解決のために実装したいと考えており、防衛分野でのビジネスの企画立案・実装を担うビジネスアナリストを募集します。LLMやエージェントを活用して一緒にビジネスを切り拓きたいと思う方は、ぜひこちらからご応募ください。https://t.co/07hhfFpKXo
— Sakana AI (@SakanaAILabs)February 27, 2025

役割と責任
防衛分野を含む公共分野の政府機関や関連企業との強固な関係を構築・維持し、新たなビジネスチャンスを開拓する。

応募資格およびスキル

下記いずれかでの5年以上の勤務経験
　(i)防衛省や自衛隊を含む日本の政府機関において防衛分野の戦略・政策立案、予算策定、装備調達、技術開発等の業務に携わった経験、(ii)グローバルトップ経営コンサルティングファームにおいて、防衛分野を担当した経験、(iii)防衛分野のメーカーや商社における経験。
ネイティブレベルの日本語とビジネスレベルの英語に堪能であること。
学士号または修士号。工学、コンピューターサイエンス、機械学習の学位をお持ちであれば尚可。
大規模言語モデルや画像生成モデルなど、生成AIモデルの活用に強い情熱をお持ちの方は尚可。

Sakana AIの求人ページより引用

　一体どんな人がこのポストに就くのか、ワクワクが止まりませんが、今まで以上に税金の投入や、人命や国防に関わる分野なので、さらなる高度な倫理観や技術品質が鍛えられることは間違いなさそうです。オープンソースの成果や論文、採用の公募といった公開情報で、市民レベルでもきちんと見えるうちに、先端の活動にはしっかりと目を向けていく習慣を持つべきだと考えます。

「ディープテックに、社会をアタッチ」しよう

　AI企業への投資は「ディープテック」（Deep Tech）と呼ばれます。Deep Techの分野は、AI（人工知能）やバイオテクノロジー、二次電池、量子コンピューティング、ロボット工学など多岐にわたり、どれも生活を大きく発展させたり、地球の課題を解決する可能性を秘めているため、“世の中に深く根ざした問題（ディープ）を解決できる技術（テック）”とも言われています。日本国内で時価総額1000億円を超えるユニコーン企業のうち、50％以上がディープテックです。世界的に投資が集まる分野で、国も力を入れています。

　それを踏まえたうえで今回の問題は“社会の役割”をきちんと考えていく必要がありそうです。

　AIが生成したコードとはいえ、そもそも、性能詐称は技術者・研究者倫理に反する行為であります。

　ずさんなコードや研究成果を誇大広告とともに公開することは、企業の信頼を損なうので、おすすめできることではありませんが。大変興味深いことに、今回の誤りは“英語圏での機械学習コミュニティで火がついて指摘された”という点です。国内のAIインフルエンサーや、機械学習を専門にされている方々は特に検証らしい検証をしていないし、Sakana AI自身も第三者的なレビューを行っていないという点が明らかになったところも大変興味深いです。

　これは我が国のAI技術の信頼性を揺るがす問題であり、一般市民が必ずしも巨大な演算基盤が必要な話ではなく、無料の「Gemini」でも見つけられるような問題でもあるかもしれません。

　「誰もその本質も評価できず、止められない」という状態のまま、日本人が大好きな倫理観や日本語での罵詈雑言で、真の意味でのAI開発の信頼性についてオープンで建設的な貢献を行えていないとすると、Sakana AIを笑えないどころか、他でもない日本人、日本マネー、日本の技術者が海外から笑われるのではないでしょうか。

　そもそも検証だけなら筆者の週末コーディングのレベルで追いつけるような話だった、という話でもあるので、賢明なる窓の杜読者のみなさま、ぜひ手を動かして、遊んでみましょう。

Sakana AIをネットの玩具にせずに、日本の文化にしよう

　研究者に悪意があったかどうかに関わらず、やってしまったことは仕方がないです。しかし、ここで攻撃したり、ネットのオモチャにして叩いたりすることは、とても良くないことです。問題は、そんなに難しいことじゃないので、きちんと検証しましょう。

　更にいうと、CUDAのカーネルの改善をAIエージェントにやらせようという研究はNVIDIA一強の現在、オープンソースへのAIエージェントによる強制介入という、社会貢献として大変ロックな研究です。こういうところに既存の倫理観など要らぬ、という考え方もわからないでもありません。

　日本のこの分野には「Chainer」のような価値ある機械学習のオープンソース活動もありましたし、ゲーム開発者からすれば、この手の“チート技術”（＝見た目は動いているが、実はとんでもない計算コストの端折り）は十八番でもあります。命が関わる、品質にうるさい分野だけではなく、メディアやエンターテインメント、アートの分野にだって日本の才能やプレゼンスはたくさんあります。

　そういえば森ビルでこんな展示をやっているそうです。

⇨「マシン・ラブ：ビデオゲーム、AIと現代アート」 2025.2.13（木）～ 6.8（日）: https://www.mori.art.museum/jp/exhibitions/machine_love/

　アンソロピック、楽天グループ株式会社、株式会社メルコグループ、株式会社大林組、そしてSakana AIが協賛しているのが興味深いです。資本があり、経済体力があるからこそこういう文化事業に貢献できるものだと思います。いいぞ、もっとやれ、という感じで応援はしていきましょう。

　そして、これを読んだ日本の技術者が、Sakana AIに代表されるAIスタートアップの真価に目を向けていくことがとても大切であることが伝わったようであれば幸いです。

　ところで筆者の会社「AICU」は……AIでクリエイティブやエンターテインメントからAIDXを進めていくメディア企業なので、なかなかその凄さが伝わらないのが残念ではあります。良きお仕事ありましたら歓迎です！

豆知識：研究者にとっての最近の「論文」と査読、「オープンソース活動」の関係とは

　最近はarXivなどの論文プレプリントがあり、投稿した時点でPDFを公開したり、査読にかかっている段階で論文を公開したり、その後更新したりすることが多くなっています。

　日本のトラディショナルな研究者からすれば、由緒正しい論文誌に投稿し、数カ月後に査読結果が返ってきて、それを修正して印刷して……という流れが数年前まであたりまえだったので『そんなところで論文を公開するなんて！』とか『そんなところに置かれた技術文書を“論文”と呼ぶなんてケシカラン』という先生方もいらっしゃるかもしれません。しかし、最近は、学会員でなくてもPDFを閲覧できるオープンアクセスジャーナルが当たり前になりつつあるし、arXivにある「論文らしき」何か、だったとしても情報や日付がでてこないよりはよっぽどマシではあります。重要なのはアルゴリズムであったりGitHubのリポジトリのURLであったり、ダウンロードや学習するための『知のプラットフォーム』としての論文だったりするわけです。もっとマクロには中国系研究者の数の暴力……といった米中の研究者の戦いの場だったりもします。

　生成AIのブームによって、一般の方々がarXivに掲載されるような論文にアクセスできるようになったことは喜ばしいことですが、一方で“arXivに論文が載った”ということは別に何か自慢するような話ではなく、論文の体裁を整えて出すべきものを出せば載せることはできます。もちろん著名な国際会議なりに掲載されて、権利面なども解決して、その素性をarXivで明らかにできる論文であれば花マルです。

　その価値もピアレビュー、つまり“同分野の専門家によるレビュー”によって証明されているということで、オープンになることでさらに多くの人の目にとまり、追試や検証、利用価値の高い応用などが現れるでしょう。

⇨筆者の過去のarXiv掲載論文の例: https://arxiv.org/abs/2308.02139

論文の査読者としての視点

　実際のところ論文を1本通そうと思ったら、レビュー者である査読者は最低2～3名はつきます。これに加えてエディターなども加わります。査読も1度だけではなく、初稿から、国際会議、その後のジャーナルトラック（ページ数を増やしていいと許可が出る）など各段階であります。1本の論文が“学会のお墨付き”で公開されるまでに、何人もの同業者の専門家にレビューされながら、日の目を見るということになります。

　驚くなかれ、論文の査読は互助的なボランティアでなりたっているので、1本の論文が日の目をみたら、その研究者は今後、最低でも3本ぐらいは査読に付き合わねばなりません。互助的なボランティアなので。

　でもarXivの時代になったら“お願いされていない論文も読む”が日常になってしまいました。

「研究」の速度感

　アカデミックと産業の両側を経験している筆者としては、まあ企業の研究開発の方々からすると『論文なんてまどろっこしい、タイパが悪い』という印象があると思います。まあそれはそうなんですが、研究グループを指揮するレベルで推進している側からすると、実際には特許を出願したり、デモを作ったりオープンソース化したり、学会で発表したり……といった工程まで含めて人を育てているので、なかなか大変ではあります。それでも西海岸のビッグテックのインターンであれば、せいぜい3カ月程度の期間でそれを実施するのも当たり前であるし、給与待遇面も日本の新卒学生の倍ぐらいが予算だったりします（もちろんでていくお金も大きいです）。

　何がいいたいかというと、この分野の世界の研究の速度は“3カ月程度で結果を出せ”という速度感なのであります。

　本来、研究開発（R&D）のR、リサーチは最低でも3年から5年といった足の長いものです。国際会議の論文募集や査読プロセスは数カ月、長いものだと6カ月以上はザラにあるのに、この世界は『3カ月程度で結果を出せ、成果によってはプロジェクト終了解散』……ということが当たり前なのです。そのため、せめて『外に出してもいいよ』と許可をもらった成果なのであれば、arXivやGitHubに出しておきたいという、そんな状況になります。つまり公開されていない成果はその数倍、数十倍あります。

　ちょうど最近、Meta（Facebook）Reality Labsで、画像生成の高速化のプロジェクトでインターンをしていたAITuberの開発や「あき先生」（@cumulo_autumn）の体験談を動画化したので興味が有る人はどうぞご視聴ください。

⇨ ■東工大からアメリカで博士獲る！AITuber x インタラクティブ技術の未来を共有します #AICU_ACT4: https://www.youtube.com/watch?v=tOWqvKlfox0
⇨ ■AICU Magazine Vol.9: AIキャラクター新世紀 (AICUマガジン): https://j.aicu.ai/MagV9p

著者紹介

しらいはかせ ：メタバース研究開発、VRエンタメシステム、メディアアート、写真/画像工学、生成AIを専門とする博士（工学）。デジタルハリウッド大学大学院特任教授。著書に「未来のゲームデザイン」、「AI神絵師」、「Stable Diffusion スタートガイド」、「ComfyUIマスターガイド（2025年4月18日発売予定)」。インプレス「窓の杜」で「生成AIストリーム」連載。「つくる人をつくる」AICUグループCEO。AIクリエイター支援。AICU media等で情報発信。

AICU media ブログ　https://note.com/aicu

筆者のX　@o_ob

新刊書籍「画像・動画生成AI　ComfyUI マスターガイド」　https://j.aicu.ai/comfysb

新サービス「共有ComfyUI」　https://aicu.jp/comfyui/