生成AIの進化を支える「評価」の重要性
最近よく耳にする「生成AI」は、文章や画像などを自動で作るAIのことです。ChatGPTのような文章生成AIや、画像を自動で作るAIなど、さまざまなAIが登場し、その性能は日々進化しています。
AIを開発する際には、そのAIがどれくらい「良い」ものなのか、正しく評価することがとても大切です。しかし、この評価の段階で「自分たちで作ったAIだから、つい甘く見てしまう」「どうしてその点数になったのか、理由がわからない」といった課題がありました。
このような課題を解決するため、株式会社バオバブが、生成AIの出力結果を人間が客観的に評価する新サービス『BAO-VAL(バオバル)』の提供を開始しました。

『BAO-VAL』の3つの大きな特長
『BAO-VAL』は、生成AIの評価をより正確に、そして開発に役立つものにするための3つの特長を持っています。
1. 評価のルールをはっきり公開(再現性もバッチリ)
どのような基準でAIの出力結果を評価するのか、そのルールを「評価ガイドライン」として詳しく作り、すべて公開します。これにより、「なぜその点数になったのか」が明確になり、学術論文などで実験結果を報告する際にも、同じ条件で検証できるため、信頼性が高まります。
2. 第三者の目で公平にチェック(客観的な証拠に)
AIを開発した人が自分で評価すると、どうしても「ひいき目」で見てしまうことがあります。『BAO-VAL』では、開発とは関係ない第三者が評価を行うため、とても公平な結果が得られます。他のAIモデルと比べるときにも、客観的なデータとして活用できます。
3. 「なぜそう評価したか」の理由も伝える
単に点数を出すだけでなく、「なぜこの点数になったのか」という具体的な理由(評価根拠:Rationale)を言葉で伝えます。これにより、AIモデルのどこが苦手なのか、どこを改善すれば良いのかがはっきりわかり、AIの性能向上に直結します。
無料で試せる評価データセットとガイドライン
『BAO-VAL』の品質や評価の仕組みを実際に確認できるよう、一部の評価データセットと評価ガイドラインが無料公開されています。最新のAIモデルの出力結果に対する人の評価データや、評価者が守るべき厳格なチェック基準の抜粋を見ることができます。
無料で提供されるデータセットとガイドラインは、以下のリンクからダウンロード可能です。
※このデータセットは、研究目的および個人的な利用に限られます。
株式会社バオバブについて
株式会社バオバブは、「誰もがその人らしくいられる社会」を目指し、AI開発に必要な高品質な学習データを作るサービスを提供しています。働き方に制約がある人々に仕事の機会を提供することで、社会貢献も行っている企業です。

まとめ
生成AIの性能を客観的に評価することは、これからのAI開発においてますます重要になります。『BAO-VAL』は、その評価に透明性と信頼性をもたらし、より良いAIが生まれる手助けとなるでしょう。

