Webサイトの自動操作をAIがもっと賢く!新しい技術でテストが楽になる論文を発表

開発・プログラミング

Webサイトの自動操作をAIがもっと賢く!新しい技術でテストが楽になる論文を発表

Webサイトやアプリの開発では、ちゃんと動くかを確認するための「テスト」がとても大切です。しかし、このテストを自動で行うためのプログラム(「テストスクリプト」と呼びます)を作るのは、これまで時間も手間もかかる大変な作業でした。

そんな中、アミフィアブル株式会社と北陸先端科学技術大学院大学の研究チームが、この課題を解決するかもしれない新しいAI技術に関する論文を発表しました。この研究では、大規模言語モデル(LLM)というAIを使って、Webブラウザの操作を自動化する「Selenium(セレニウム)」というツール用のプログラムを、もっと賢く、正確に作る方法を見つけ出しました。これにより、Webアプリ開発のテストにかかる手間と時間を大幅に減らせる可能性があります。

発表論文の概要

この研究の論文タイトルは「Finetuning LLMs for Automatic Form Interaction on Web-Browser in Selenium Testing Framework」です。
北陸先端科学技術大学院大学のグエン・ミン研究室とアミフィアブルAI研究部による共同研究として発表されました。

この論文は、知識工学とシステム工学分野の最新研究に関する国際会議「KSE2025」(https://kse2025.kse-conferences.org/)で発表されたもので、論文の詳細は以下のリンクから確認できます。
https://arxiv.org/abs/2511.15168

研究の背景と目的

現代のWebアプリ開発では、たくさんのテストを効率的に行うために、Seleniumのような「Webブラウザ自動操作フレームワーク」が欠かせません。しかし、これらの自動テスト用のスクリプトは、ほとんど手作業で作られているため、作成に多くの時間と労力がかかっていました。

近年、文章やプログラムのコードを生成する能力が高い「大規模言語モデル(LLM)」というAIが注目されています。このAIを使えば、テストスクリプトの作成も自動化できるのではないかと期待されていました。しかし、実際にWebサイトの入力フォームに対して、「文法的に正しく」「ちゃんと実行できて」「入力する内容がフォームの意図に合っている」といった条件をすべて満たすSeleniumスクリプトをAIに自動で作らせるのは、実はとても難しいことでした。さらに、Webブラウザの自動操作に特化した、AIの学習に使えるデータ(「データセット」と呼びます)がほとんど存在しないという問題もありました。

本研究は、このような課題を解決するために、大規模言語モデル(LLM)がWebブラウザの自動操作に使う高品質なSeleniumテストスクリプトを自動生成できるようにするための新しい訓練方法を開発することを目的としています。特に、「文法の正確さ」「実行可能性」「入力フィールドの網羅性」という3つの大切な基準を満たすデータセットと、AIを学習させるための手順(「学習パイプライン」と呼びます)を確立することを目指しました。

トレーニングデータ生成手順

本研究のポイント

この研究は、大規模言語モデル(LLM)を使ったWebブラウザ自動操作において、これまでにない体系的なアプローチを提示し、これまでの評価基準を大きく上回る性能を示しています。

1. Webブラウザ自動操作テスト専用データセットの構築

Webブラウザの自動操作テストに特化したデータセットはこれまで存在しませんでした。この研究では、さまざまな実際のWebフォームを対象に、人間が手作業で作った例とAIが生成した例を組み合わせ、フォームに特化した「Webブラウザ自動操作テスト用の専用データセット」を世界で初めて公開しました。

2. 実行可能性を重視したデータ生成パイプライン

GPT-4oをはじめとする複数のAIを使って、テストスクリプトを生成する手順を設計しました。生成されたSeleniumコードは実際に実行してみて、もし失敗したスクリプトがあればすべて取り除きます。これにより、最終的なデータには「文法的に正しく」「実際に実行可能で」「入力フィールドの意図に適合している」といった、有効なスクリプトだけが残る仕組みになっています。

3. 既存の指標評価を大幅に上回る性能

Qwen2.5、Qwen3、Llama3.1といった最先端のオープンソースLLMに対し、独自に作成した訓練用フォームのHTMLを使って、AIの性能を向上させる「ファインチューニング」という学習を行いました。その結果、実際のフォーム画面と合成フォーム画面の両方で性能を比較したところ、この新しい手法でチューニングしたLLMは、GPT-4oを含む強力な商用LLMと比べても、「文法の正確さ」「実行可能性」「入力フィールドの網羅性」というすべての評価項目で、これまでの方法よりも約10%も高い性能を示すことが確認されました。特に、実行できないコードを排除するフィルタリング戦略が、生成されるスクリプトの信頼性を高めるのに非常に効果的でした。

今後の展望

この研究で構築された評価基準(ベンチマーク)、データセット、そして方法論は、「フォームを中心としたWeb自動化」に取り組むための大切な土台となります。これらは今後、大規模言語モデル(LLM)を使ったWebブラウザ操作自動化の応用研究をさらに進め、ソフトウェアテストが完全に自動化される未来を実現する基礎となることが期待されます。

研究者について

野村尚新氏

ヨーク大学哲学部を卒業後、東北大学大学院にて修士課程を修了。北陸先端科学技術大学院大学の博士課程を修了後、国立情報学研究所の特任研究員として、論理学や自然言語処理など幅広い研究に携わりました。2021年よりアミフィアブル株式会社に入社し、産学連携とAI研究部のリーダーとして日々研究開発に尽力しています。

Quan Minh Bui氏

北陸先端科学技術大学院大学の博士課程を修了。在学中から国立情報学研究所のアシスタントを務め、大手企業との共同研究プロジェクトを通じてAIの知識を深めました。2023年にアミフィアブル株式会社に入社し、AI研究部の中核メンバーとして野村氏と共に活躍しています。

アミフィアブル株式会社について

アミフィアブル株式会社は、「差別化されたAIテクノロジーから世界に新しい価値を提供する」というミッションを掲げ、AIを搭載したテスト工程自動化プラットフォーム「Esplat(エスプラット)」の開発と運用を手がけています。

手間のかかるソフトウェア開発のテスト工程をAI技術で自動化し、2021年6月には特許(特許第6902814号)を取得した自社開発の「Esplat」を活用して、多くの企業のソフトウェア開発の効率化と品質向上に貢献しています。

また、「Esplat」の導入によるソフトウェア品質の向上やテスト工数の削減だけでなく、QA(品質保証)チームの立ち上げ支援、テスト推進のPMO(プロジェクトマネジメントオフィス)、設計書や各種業務の標準化支援など、総合的な品質管理コンサルティングも提供しています。顧客のニーズに合わせて、ITコンサルタント、AIコンサルタント、エンジニアが協力し、さまざまな課題解決に取り組んでいます。

アミフィアブル株式会社のウェブサイトはこちらです:
https://www.amifiable.co.jp/

タイトルとURLをコピーしました