Sierra(OpenAIの取締役であるBret TaylorとGoogleのAR/VRのベテランClay Bavorが設立した顧客体験AIスタートアップ)は、会話型AIエージェントのパフォーマンスを評価する新しいベンチマーク「TAU-bench」を開発した。
このベンチマークでは、エージェントが複雑なタスクを完了するために、LLM(大規模言語モデル)でシミュレートされたユーザーと複数回のやり取りを行いながら必要な情報を収集する能力をテストする。
初期の結果は、関数呼び出しやReActのような単純なLLM構造を使用して構築されたAIエージェントは、「比較的単純なタスク」においても性能が低いことを示しており、企業はより洗練されたエージェントアーキテクチャが必要であるとの見解を強調している。TAU-benchのコードはSierraのGitHubリポジトリからダウンロード可能である。
Sierraの研究チームによると、実際のユーザー対応の会話型エージェントを有効にする経験から、エージェントのパフォーマンスと信頼性を強固に測定することが、その成功的な展開には不可欠であるという。
既存のベンチマークは、エージェントの高レベルの能力を明らかにすることはできるが、実際のシナリオでエージェントが必要とする複数回の動的な交換を使用して情報を取得する能力を評価することはできない。
TAU-benchは、エージェントが人間やプログラム可能なAPIとシームレスに連携し、長期間にわたって情報を収集し複雑な問題を解決すること、タスクに特有の複雑なポリシーやルールを正確に守ること、そして大規模において一貫性と信頼性を保つことを要求する。
TAU-benchは、リアルなデータベースやツールAPIとの作業、特定のエージェント行動を指示するドメイン固有のポリシードキュメント、そして多様なシナリオの指示に従ってエージェントとのリアリスティックな会話を生成するLLMベースのユーザーシミュレーターを使用して、エージェントに複数のタスクを割り当てる。各タスクは、エージェントがルールに従い、推論し、長く複雑なコンテキストにわたって情報を保持し、リアリスティックな会話でコミュニケーションを取る能力を評価する。
TAU-benchの主な特徴には、リアリスティックな対話とツールの使用、オープンエンドで多様なタスク、忠実な目的評価、モジュラーフレームワークが含まれる。SierraはTAU-benchを使用してOpenAI、Anthropic、Google、Mistralからの12の人気のあるLLMをテストし、それらがタスクを解決するのに苦労していることを発見した。特に、OpenAIのGPT-4oからの最高性能のエージェントは、2つのドメインを横断して平均成功率が50%未満であった。また、テストされたすべてのエージェントは信頼性に関して「極めて貧弱」な結果を示し、同じタスクを再実行した際に一貫して解決することができなかった。これらの結果から、より高度なLLMが推論と計画を改善し、より複雑なシナリオを作成するために必要であると結論付けられている。
【編集者追記】用語解説
- LLM(Large Language Models、大規模言語モデル):
膨大なテキストデータを学習し、人間のような自然な文章の生成や対話ができる人工知能モデルのこと。 - Sierra AI:
カリフォルニア州サンフランシスコに本拠を置くAIスタートアップ。会話型AIエージェントの実世界でのパフォーマンスと信頼性を評価するためのベンチマーク「TAU-bench」を開発した。 - OpenAI:
イーロン・マスク氏らが設立に関わった非営利のAI研究機関。ChatGPTの開発元として知られる。
【参考リンク】
Sierra AIオフィシャルサイト(外部)
【関連記事】
AI(人工知能)ニュースをinnovaTopiaでもっと読む
【ニュース解説】
Sierra、OpenAIの取締役Bret TaylorとGoogleのAR/VRのベテランClay Bavorによって設立された顧客体験AIスタートアップは、会話型AIエージェントのパフォーマンスを評価するための新しいベンチマーク「TAU-bench」を開発しました。このベンチマークは、エージェントが複雑なタスクを完了するために、LLM(大規模言語モデル)でシミュレートされたユーザーと複数回のやり取りを行いながら必要な情報を収集する能力をテストします。初期の結果は、関数呼び出しやReActのような単純なLLM構造を使用して構築されたAIエージェントは、「比較的単純なタスク」においても性能が低いことを示しています。これは、企業がより洗練されたエージェントアーキテクチャを必要としていることを強調しています。
TAU-benchの開発は、実際のユーザー対応の会話型エージェントを有効にするためには、エージェントのパフォーマンスと信頼性を強固に測定することが不可欠であるというSierraの経験に基づいています。既存のベンチマークでは、エージェントが実際のシナリオで必要とする複数回の動的な交換を使用して情報を取得する能力を評価することができませんでした。TAU-benchは、エージェントが人間やプログラム可能なAPIとシームレスに連携し、長期間にわたって情報を収集し複雑な問題を解決すること、タスクに特有の複雑なポリシーやルールを正確に守ること、そして大規模において一貫性と信頼性を保つことを要求します。
TAU-benchの主な特徴には、リアリスティックな対話とツールの使用、オープンエンドで多様なタスク、忠実な目的評価、モジュラーフレームワークが含まれます。これにより、AIエージェントが実世界で遭遇する可能性のある多様な状況を処理する能力が試されます。SierraはTAU-benchを使用してOpenAI、Anthropic、Google、Mistralからの12の人気のあるLLMをテストし、これらがタスクを解決するのに苦労していることを発見しました。特に、OpenAIのGPT-4oからの最高性能のエージェントは、2つのドメインを横断して平均成功率が50%未満であり、テストされたすべてのエージェントは信頼性に関して「極めて貧弱」な結果を示しました。
この結果から、より高度なLLMが推論と計画を改善し、より複雑なシナリオを作成するために必要であると結論付けられています。これは、AIエージェントの開発において、単に会話の流れを追うだけでなく、実際のタスクを解決するための能力が重要であることを示しています。また、新しいベンチマークの開発は、AI技術の進化に伴い、より複雑なタスクを効率的に処理できるAIエージェントの必要性を浮き彫りにしています。このような進化は、顧客サービス、ビジネスプロセスの自動化、さらには日常生活の様々な面でのAIの応用可能性を広げることに繋がりますが、同時に、エージェントの倫理的な使用やプライバシー保護の問題など、新たな課題も提示しています。将来的には、これらの課題に対処しつつ、AIエージェントの能力をさらに向上させるための研究が重要になるでしょう。
from Sierra’s new benchmark reveals how well AI agents perform at real work.