
株式会社アジラは、独自に研究開発してきた行動認識AIの技術と、VLM(Vision-Language Model:映像とテキストを一緒に理解するAIモデル)を組み合わせることで、AI警備システムの精度をさらに高める新たな挑戦を始めました。
アジラは、人がどのような姿勢をしているか、どのような行動をしているかをAIが見分ける独自の技術と、これまで現場で「誤って知らせてしまったこと」や「見逃してしまったこと」のデータをVLMに組み込みます。これにより、一般的なVLMでは難しい、実際の警備現場で本当に役立つ高い検知精度を目指しています。
この取り組みの最初の段階として、AI警備システム「AI Security asilla」で発生する誤報(間違った警報)や失報(見逃し)を減らすことに力を入れます。将来的には、現実世界で起きている出来事をAIが構造的に理解し、より高度な警備を実現する基盤を築くことを目指しています。
現場が求める「使えるAI」とVLMの課題

商業施設や駅、公共の場所など、たくさんの人が出入りする場所では、人の動きや行動が常に変化し、予期せぬ出来事が起こりがちです。事故やトラブルを未然に防ぎつつ、少ない人数で効率的に運営することが求められる中で、映像を解析するAIへの期待は高まっています。
最近、汎用的なVLMが登場し、映像と言葉を一緒に理解するAI技術が急速に進歩しました。しかし、一般的なVLMは多くのことに対応できる反面、高い精度と素早い対応が求められるセキュリティの現場では、いくつかの課題があります。
例えば、人の行動パターンや危険の兆候に対する専門的な理解が十分でなかったり、カメラの設置場所や照明の条件、施設のルールなど、それぞれの場所に合わせた調整が難しかったりします。また、AIの精度を上げるためには、何が誤報で何が見逃しだったかという実際の運用データが不可欠ですが、これまでのAIにはそのようなデータが不足していました。
アジラは、これらの課題を解決するため、自社の持つ特別な技術や知識をVLMに組み込むことで、現場で本当に使えるAIの実現を目指しています。
アジラの技術的な強み 〜行動認識AIが培った2つの資産〜

アジラが開発する独自のVLMが他と違う点は、これまでのAIにはなかった2つの技術的な強みを持っていることです。
① 行動認識の独自モデルと学習データ
アジラは創業以来、人がどのような姿勢をしているか(姿勢推定)や、どのような行動をしているか(行動認識)をAIが見分ける技術の研究開発に特化してきました。転倒、侵入、不審な行動、徘徊、混雑など、さまざまな行動パターンを正確に分類できる独自のAIモデルと、その開発で集めた大量の学習データは、一般的なVLMにはない、特定の分野に特化した知識の基盤となっています。
VLMが映像の内容を「意味」として理解する際、この行動認識の知識が、体の動きといった細かい情報も補ってくれます。これにより、単に映像を見るだけでは判断が難しい行動の意図や危険度を、より高い精度で推定できるようになります。
② 現場運用で蓄積した誤検知・失報パターンの知見
「AI Security asilla」は、商業施設、鉄道駅、オフィスビルなど、さまざまな場所で実際に使われています。その中で、どのような状況で誤報(間違った警報)が出たのか、どのような出来事を見逃してしまったのか(失報)といった、膨大な量のフィードバックデータが蓄積されています。これらの実際の運用データは、AIの精度を改善する上で最も貴重な財産です。
一般的なVLMは映像の内容を理解できますが、「セキュリティの現場でどのような間違いを起こしやすいか」という具体的な知識は持っていません。アジラは、この誤報・失報のデータをVLMの学習や判断のプロセスに組み込むことで、現場で本当に役立つAIの精度を実現します。
VLM統合がもたらす進化 〜「検知」から「状況理解」へ〜

VLM(Vision-Language Model)は、映像と自然な言葉を一緒に理解できるAIモデルです。これまでのAIは、物の検出や姿勢の判断、あらかじめ設定された基準に基づいた異常の判断が中心でした。
しかし、アジラの独自技術とVLMが融合することで、「転びそうになっている可能性がある」「いつもと違う滞在の仕方をしている」「危険な意図を含んだ行動かもしれない」「混雑が発生しつつある状況」といった、その場の状況や文脈を含めた意味をAIが理解できるようになります。
アジラは、これまで培ってきた行動認識技術とVLMを組み合わせることで、「動きを単に検出するAI」から「状況全体を理解するAI」へと進化させようとしています。
短期的な展開:誤報・失報を減らして運用の質を高める
この取り組みの最初の段階として、アジラは既存のAI警備システム「AI Security asilla」において、誤報(間違った警報)と失報(見逃し)を減らすことに取り組みます。
実際の警備現場では、警報の数だけでなく、その質も重要です。誤報が多いと、不必要な確認作業が増え、本当に対応すべき重要な出来事への判断が遅れる可能性があります。一方で、失報は検知すべき出来事を見逃してしまうことにつながり、安全確保の観点から大きなリスクとなります。
独自のVLMを組み合わせることで、検知結果を状況全体で補足・再評価し、「何が起きたか」だけでなく「何が起きつつあるのか」までを考慮した判断が可能になります。これにより、不要な警報を減らしながら見逃しを少なくし、通知の信頼性を高めることを目指します。結果として、現場での確認作業の効率化と、安全対応の確実性向上を同時に実現することを目指します。
中長期的なビジョン:現実空間を「理解する」AI基盤へ
アジラが見据えているのは、誤報・失報を減らすだけではありません。VLMを基盤とすることで、映像を単なる記録としてではなく、「状況」や「行動の意味」を捉えるデータへと進化させます。
将来的には、危険の兆候をより高度に捉えたり、行動や出来事を自動で要約したり、自然な言葉で映像を検索したり、施設全体の出来事を構造的に把握したりといった、より高度な映像活用を目指します。
これにより、事故やトラブルが起こってから対応する「事後型の運用」から、兆候を捉えて未然に備える「予防型の運用」へと転換を支援します。アジラは、現実空間で起きる出来事をAIが理解し、社会の安全と持続可能性を支える基盤を築くことに取り組んでいきます。
「AI Security asilla」について

「AI Security asilla」は、すでにある防犯カメラの映像をAIが24時間365日解析し、暴力、転倒、侵入などの異常な行動や、徘徊、混雑、体調不良などの注意すべき行動を瞬時に見つけて知らせるシステムです。
警備員の人手不足が深刻化する中で、人が監視していると見逃しやすい異変をAIが捉え、警備員や管理者にすぐに通知します。今あるカメラをそのまま使えるため、新しい設備投資は不要です。限られた人員でも高い安全性を保てる、次世代のセキュリティソリューションと言えるでしょう。
株式会社アジラ
代表者:代表取締役CEO 尾上剛
所在地:東京都町田市中町一丁目4-2
事業内容:行動認識AIをベースとした各種プロダクト・ソリューションの開発・提供
公式ウェブサイト:https://jp.asilla.com/

