from GPT and other AI models can't analyze an SEC filing, researchers find.
大規模な言語モデルは、SEC(米国証券取引委員会)の提出書類からの質問に対してしばしば失敗し、特に金融などの規制された産業において、顧客サービスや研究のために最先端の技術を導入しようとする大企業にとって、AIモデルのいくつかの課題を浮き彫りにしている。特にChatGPTの中心にあるような大規模な言語モデルは、SEC提出書類からの質問に対してしばしば答えを拒否したり、事実とは異なる数字や事実を「幻覚」したりすることがある。これにより、金融業界などでAIモデルを導入する際の課題が明らかになっている。Patronus AIの共同創業者であるAnand Kannappan氏は、「そのような性能率は完全に受け入れがたいものであり、自動化および本番用の運用に本当に機能するためには、はるかに高くなければならない」と述べている。Patronus AIは、金融業界における言語AIの「最低性能基準」を示すために、主要な上場企業のSEC提出書類からの質問と回答を含むデータセット「FinanceBench」を作成し、これを使用して4つの言語モデルをテストした。その結果、大規模な言語モデルは、正確な回答を提供することができないことが明らかになった。これにより、金融業界におけるAIの活用には、まだ人間の介入が必要であるという認識が示された。