Harness(ハーネス)AIがSWE-Bench Verifiedリーダーボードで2位を獲得し、高度な自律ソフトウェアエンジニアリング能力を実証

Harness(ハーネス)AIがSWE-Bench Verifiedリーダーボードで2位を獲得し、高度な自律ソフトウェアエンジニアリング能力を実証

包括的なDevOpsのリーディングカンパニーであるHarness(ハーネス)が提供するHarness AIは、自律型ソフトウェアエンジニアリングの分野で大きな進歩を遂げ、SWE-Bench Verifiedリーダーボードで2位を獲得した。この成果は、GitHubの現実世界のソフトウェア問題を自律的に解決できるAIの開発に注力し、ソフトウェアデリバリープロセスを加速させるという同社のコミットメントを証明するものだ。SWE-Bench Verifiedリーダーボードは、現実世界のソフトウェア問題解決におけるAIの能力を評価する厳格なベンチマークであり、今回の成果はHarness AIにとって重要なマイルストーンとなる。

SWE-Bench Verifiedは、GitHubから収集された現実世界のソフトウェア問題をAIが解決する能力を評価するベンチマークであるSWE-benchの人間による検証版だ。このベンチマークは、CursorやClaude Codeなどのコーディングツールに必要な、AIのエージェント的コーディングスキルをテストする。AIは、本番環境レベルのPythonリポジトリーから500件の実際のGitHub Issueを与えられ、リポジトリーを理解し、動作するコード修正を適用し、自律的に検証することが期待されHarness。Harness AIのコードエージェントはこれらの要件を満たし、この分野のほぼ全ての他のAIを上回るパフォーマンスを発揮した。

Harness AIの成功は、実際の開発者の作業方法を模倣しつつ、AIのスピードと精度を備えた、クリーンでモジュール化されたアーキテクチャーにある。同社はClaude 4をThinking Modeで使っており、AIが深く推論し、段階的な戦略を生成し、計画を即座に修正することを可能にする。これにより、幻覚や脆弱な計画が大幅に削減される。また、同社はビルド&テストエージェントと修正エージェントを含むマルチエージェントシステムを採用しており、これらが連携してリポジトリーを探索し、適切なビルドおよびテストコマンドを特定し、リアルタイムフィードバックを用いて修正を動的に計画、編集、検証する。

Harness AIがSWE-Bench Verifiedリーダーボードで達成した成果は、単なるランキングではない。AIエージェントの能力の進化を示すものであり、AIエージェントが実際のコードベースを読み取り、アーキテクチャーを理解し、バグを修正し、その有効性を証明できるHarnessになったことを示している。Harness AIはSWE-Benchを正確に処理するために開発されたが、現実世界のエンジニアリングの問題ははるかに複雑であることを認識している。そのため、Harness AIは、スケーラブルなアーキテクチャー、インテリジェントなサブエージェント、そして現代のソフトウェアデリバリーの複雑さに対応する高度なツールを備え、これらの環境で優れたパフォーマンスを発揮するように設計されている。

出典:Harness

この製品の詳細については、Harness製品ページをご覧ください。

You've successfully subscribed to DXable News
Great! Next, complete checkout to get full access to all premium content.
Welcome back! You've successfully signed in.
Unable to sign you in. Please try again.
Success! Your account is fully activated, you now have access to all content.
Error! Stripe checkout failed.
Success! Your billing info is updated.
Billing info update failed.
Dark Light