フィーチャー管理および継続的デリバリーソフトウェアのリーディングプロバイダーであるLaunchDarkly(ローンチダークリー)は、AI Configsにおけるオンライン評価の一般提供を発表した。この革新的な機能により、チームは言語モデル(LLM)を判定基準としてAI出力の品質を自動でスコアリングできるようになる。最新リリースではカスタマイズ可能な判定基準も追加され、チームは「優れた」AI出力の基準を独自に定義できるようになった。
ここで言う「優れた」とは、単に正確性、関連性、あるいは有害なコンテンツが存在しないということではない。AIがどう利用され、どんな目的で実行されるかという点が重要だ。例えば、AIによる補完は正確で関連性が高いかもしれないが、ポリシーの境界に違反したり、必要な構造を無視したり、提供された文脈やトーンから逸脱したりする場合、ユーザーエクスペリエンスに適さない可能性がある。
カスタマイズ可能な審査員は、こうした微妙な差異に対応するように設計されている。これにより、チームは一般的な指標を、自社製品固有の要件を反映した指標で補完できる。例えば、銀行のチャットボットでは、プロフェッショナルなトーンを維持することがユーザーの信頼を得る上で不可欠だ。カスタム審査員は、スラングやジョークを避ける、実際に行われていない行動を暗示しない、文脈が乏しい場合に確信を誇張しないといった特定の基準を用いて、この要素を採点するように設定できる。
カスタマイズ可能なジャッジの導入は、製品リリースにも大きな影響を与える。チームはこれらのジャッジを使うことで、ロールアウト中にAI出力の品質をリアルタイムで監視できる。プロンプトやモデルの変更によってユーザーエクスペリエンスが微妙に変化し始めた場合、カスタムジャッジのスコアは、全てのユーザーに影響が出る前に、ロールアウトを遅らせたり、停止したり、ロールバックしたりする明確なシグナルとなる。このプロアクティブな品質管理アプローチは、問題が全てのユーザーに影響を与えるのを防ぎ、ひいては全体的なユーザーエクスペリエンスの向上に役立つ。
出典:LaunchDarkly
この製品の詳細については、LaunchDarkly製品ページをご覧ください。