O'Reilly(オライリー)の最新トレンドレポートによると、現在のAI業界における最も深刻な緊張は、最先端の能力を持つモデルの扱い方に関して、2つの主要開発企業が異なる選択をしたことに起因するという。Anthropicは、Project Glasswingと呼ばれる選抜的な企業向けプログラムを通じて最も高性能なモデルへのアクセスを制限することを選択し、OpenAIは高性能モデルを一般公開し、幅広いユーザー層がMythosのようなハッキングを行えるようにしたと批判されている。AIセキュリティー研究所の評価では、この能力が現実のものであり、重大な影響を及ぼすことが確認されており、脆弱性の発見から悪用までの期間がゼロに近づくにつれて、組織がどのようにリスクを管理していくのかという疑問が生じている。
O’Reillyは、AIの導入方法にも同様の変化が見られると指摘した。システムは対話型のLLMを超え、企業プロセスを自動化する運用ツールへと移行しつつある。焦点は、協調的な自動化のための統一されたツールセットを生成するエージェント型ワークフローとチーム共有エージェントに移り、単一ユーザー向けの生産性アシスタントから、耐久性のあるチーム指向の自動化プラットフォームへの移行を示している。
O’Reillyは、AI経済を再構築しつつあるモデル分野全体の動向を概説した。複数のオープンウェイトモデルのリリースとアップデートにより、クローズドな最先端モデルとのパフォーマンスの差が縮まり、価格への下方圧力が高まっている。DeepSeek、Alibaba、Google、Z.ai、Moonshotなどの新規参入企業やアップデートが、この傾向を記録したスタンフォードAIインデックスとともに紹介された。DeepSeekの最新モデルは、コーディングベンチマークにおいて、大幅に低いコストでトップティアモデルのパフォーマンスに近づいていると報じられており、現在では、コスト、移植性、サポートのトレードオフに応じて、複数のオープンファミリーが実行可能な代替手段を提供している。
O’Reillyは、注目すべきモデル開発をいくつか報告した。出力生成前に「思考」するとされる主力画像モデル、トークン化を拡張し、それによって実質的な課金方法を変更した中間マルチモーダルリリース、低ランニングコストで最先端のパフォーマンスに迫る高パラメーターオープンウェイトプレビュー、ベンチマークで賞賛を集め、幻覚率の増加について懸念を引き起こした広く公開されたGPT-5.5などである。その他のリリースでは、音声表現をきめ細かく制御できるテキスト音声変換モデル、悪用リスクのために制限された生物学調整モデル、エージェントワークフロー向けに設計されたモバイル対応推論モデルなど、特殊な機能に焦点を当てた。
O’Reillyは、モデルを社内研究や監督に活用する実験について取り上げた。あるプロバイダーは、自社のアシスタントを使ってアライメント作業に取り組み、厳選された評価可能な問題において人間の労力を上回る成果を上げたほか、能力の低いモデルでもより強力なモデルを監督できることを実証した。また、サードパーティーの推論サービスを検証するベンダーツールや、モデル固有の検証ツールも公開された。
O’Reillyは、開発者ツールとエージェントインフラストラクチャーに関する活発な動きを報告した。複数のベンダーがエージェントフレームワークを発表または拡張した。チームで使う共有ワークスペースエージェント、メモリーとスケジューリングを提供する事前構築済みのマネージドエージェントハーネス、そして耐久性の高い長時間稼働エージェントをサポートすることを目的とした分離型オープンソースエージェントハーネスなどだ。ベンダーによって移植性と耐久性に対する取り組みが異なるものの、オーケストレーション、実行、レビューの各レイヤーが主流のアーキテクチャーとなる、交換可能なモジュールからなる新たなエージェントスタックが紹介された。
O’Reillyは、開発者の嗜好とツールの変化を強調した。エージェントオーケストレーションを前面に押し出したIDEはユーザーを引き付けた一方、他の開発者中心のモデルは動作の不具合発生後に採用率が変動した。あるプロバイダーは、モデルの不具合を説明する公開事後分析を発表し、これはプロバイダーが模範とすべき透明性の好例として紹介された。エージェントメモリー用のオープンソースツールや、モデルとツール間で仲裁を行う統合エージェントは、設計から構築への移行を加速させるものとして注目された。
O’Reillyは、運用上の懸念を引き起こすいくつかのセキュリティー動向について概説した。重要なプライバシー保護ツールは、コアプロトコルではなく周辺ソフトウェアに対する攻撃を受け、プライバシーネットワーク上のユーザーの匿名性を解除するブラウザーの脆弱性は修正された。ランサムウェアグループはポスト量子暗号化を採用していると報告されており、人気のパッケージエコシステムにおけるサプライチェーンの侵害により認証情報が盗まれた。法執行機関は、パッチが適用される前にセキュアメッセージングクライアントに影響を与える環境の脆弱性を悪用し、コアプロトコルの欠陥ではなくエコシステムの弱点が悪用される可能性があることを示した。新たなマルウェアキャンペーンでは、eコマースプラットフォームを標的に、クレジットカード盗難コードを1ピクセルのSVGに埋め込んだ。
O’Reillyは、AIによる脆弱性発見の急速な進歩により、アクセス制限と防御連携が必要になったと報告した。高性能モデルの一つは一般公開から外され、Project Glasswingを通じて限られた企業グループのみに提供された。独立した分析では、このモデルは以前の最先端モデルよりも一歩進んだものだと評されている。オープンソースのセキュリティープロジェクトのメンテナーは、AIが生成するバグ報告の質が著しく向上したと報告している。広く使われているエディターにおけるゼロデイのリモートコード実行の脆弱性がモデル支援によって発見された事例や、流出したモデルソースのバリアントがマルウェアに悪用された事例も報告されている。
O’Reillyは、脆弱性管理とツール対応の変化について取り上げた。大手クラウドプロバイダーは、脅威ハンティングと検出エンジニアリングを支援するため、運用プラットフォームに複数のセキュリティー指向エージェントを追加した。標準化団体は脆弱性スコアリングの手法を調整した。また、少なくとも1つのモデルプロバイダーは、特定のケースにおいて本人確認措置を発表した。報告書によると、小規模なオープンウェイトモデルは、効果的なシステムに組み込まれれば、脆弱性発見において最先端モデルに匹敵する性能を発揮できることが示唆されており、モデルの規模だけでなく、周囲のツールにも能力が大きく左右されることが強調されている。
O’Reillyは、エージェント経済を支えるインフラストラクチャーの動きについて説明した。複数のプロバイダーがオーケストレーション、永続化、メモリー、レジストリ用のコンポーネントをリリースし、3層エージェントアーキテクチャーが事実上の標準パターンとして収束しつつあった。ハードウェア開発には、トレーニングと推論のための新しい専用アクセラレーターや、オープンソースのエージェントオーケストレーションテストベッドが含まれていた。主要なコンピューティング機器の購入が報告されたが、チップ数ではなく消費電力が明記されており、エネルギー供給が規模拡大の制約要因として扱われていることが示唆された。量子化とプラットフォーム固有の最適化が進み、大規模モデルがコンシューマーデバイスやエッジデバイスで実行可能になっていた。
O’Reillyは、技術面および保守面での課題を浮き彫りにするエコシステムとウェブ層の動向を報告した。ベテラン社員の退職に伴い、従来のウェブプラットフォームの将来的な保守について疑問が呈され、エージェント開発のためのコンテンツ管理を再考する新しいツールがリリースされた。BGP実装の正確性をテストするウェブアプリによって、インターネット規模でのプロトコル展開の正確性に関する懸念が浮き彫りになった。アプリストアでは、AIツールによる摩擦の軽減に関連して新規アプリの提出が急増し、プラットフォームベンダーは自動アプリ生成をターゲットとした規制を調整した。
O’Reillyは、チャット以外のエージェント機能を示す分野別の導入事例を挙げた。ロボット工学のユースケースとしては、移動ロボットが計器を読み取り、視覚入力に基づいて推論を行う事例や、スポーツ界で判定にロボットシステムを採用する事例などが挙げられる。生物学分野では、一般的な実験室ワークフローに合わせて調整されたモデルが、悪用の可能性を考慮して、意図的に懐疑的な設計となり、制限が設けられた。
O’Reillyは、オープンウェイト競争、エージェントツール、そして加速するセキュリティーリスクという複合的な力が、運用AIが実験段階から実運用段階へと移行する中でも、組織にオープン性と制御、コストと安全性、即時性と監視の間のトレードオフを再評価することを迫っていると指摘した。
出典:O'Reilly
この製品の詳細については、O'Reilly製品ページをご覧ください。