著名なソフトウェア企業であるLaunchDarkly(ローンチダークリー)は、リリース、実験、ガードレールを管理するAI Configsのコントロールプレーンにオンライン評価機能を導入したことを発表した。これにより、品質は、追跡する他のあらゆる指標と並んで測定可能になり、実用的な対応が可能になる。LaunchDarklyはこの機能を、まずは現在早期アクセスとして利用可能なコア評価機能から開始し、その後、段階的に展開。さらに多くの機能が追加される予定だ。
この新機能は、従来のソフトウェアテスト手法とは大きく異なる。単体テストや静的データセットとは異なり、AI Configsは品質を継続的に測定し、本番環境では通常見えないシグナルを捉える。これには、レスポンスがトピックから逸脱していないか、コンテキストに基づいているか、変更がユーザーエクスペリエンスを向上させているか、それとも静かに低下させているかなどが含まれる。
AI Configsは、LLM-as-a-Judgeと呼ばれるシステムを採用しており、大規模な言語モデルを用いて構成の出力全体を自動的にスコアリングする。早期アクセスフェーズでは、ユーザーは完了ベースの構成に、精度、関連性、有害性という3つのすぐに使用できる評価ツールをアタッチできる。これらのスコアはリアルタイムで生成され、他の指標と同様に保存されるため、チームはロールアウト、実験、ガードレールを既に管理しているのと同じ場所でこれらの指標を使用できる。
定性的なシグナルをデータポイントに変換することで、チームはエビデンスに基づいた意思決定を行い、全体的に最良のユーザーエクスペリエンスを提供するバリアントを選択できる。これにより、実験から明確なエビデンスを抽出する継続的な学習ループが構築される。LLM-as-a-Judgeを本番環境で実行することで、新しい構成によって品質が低下した場合、自動ロールバックをトリガーする精度しきい値を設定し、関連性スコアを使用して構成バリアントを比較し、有害性の急上昇や精度のドリフトを数分以内に特定し、モデルのパフォーマンスを経時的に監視することができる。
機能の詳細はこちら
出典:LaunchDarkly
この製品の詳細については、LaunchDarkly製品ページをご覧ください。