Qlean Dataset、日本独自の視点と複数の情報を扱うAIのための「安全性データ」提供開始

AI倫理・社会問題

Qlean Dataset 基盤モデル向け 安全性アラインメント用データを提供開始

Visual Bank株式会社のAI学習用データソリューション「Qlean Dataset(キュリンデータセット)」は、画像や動画を含む複数の情報を扱うAI(マルチモーダルAI)が、安全に利用できるよう調整するためのデータ提供を開始しました。

これは、AIが社会で広く使われるようになるにつれて、不適切な情報や有害な内容を出力しないようにするための大切な取り組みです。特に、AIの土台となる大きなモデル(基盤モデル)を開発する段階から、安全性に配慮した設計(Safety-by-Design)が求められています。

AIの安全性がなぜ重要なのか

最近のAIは、テキストだけでなく画像や動画も理解できるようになり、私たちの生活にどんどん深く関わるようになっています。しかし、その一方で、誤った情報や差別的な表現、著作権を侵害するような内容を出力してしまうリスクも指摘されています。

これまでの対策は、AIが何かを出力した後に問題がないかチェックする方法が主流でした。しかし、この方法では、AIの創造性を損なうことなく安全性を保つのが難しいという課題がありました。そこで、AIを開発する最初から「安全であること」を組み込む考え方「Safety-by-Design」が注目されています。

特に日本でAIを運用する際には、次のような独自の課題があります。

  • 日本ならではの文脈理解の難しさ: 海外で作られたAIモデルでは、日本の文化的な背景や、著作権、肖像権といった法律への配慮が十分でない場合があります。

  • 複数の情報が合わさるリスク: 例えば、「画像」と「指示文(プロンプト)」が組み合わさることで、単体では問題なくても、組み合わせると不適切になるようなケースを見つけるのが難しいという問題です。

「Qlean Dataset」は、アマナイメージズが長年培ってきた、日本の権利やビジュアルに関する知識を活かし、日本社会に合った安全なAI設計を支援します。

Qlean Datasetが提供する安全性データの内容

「Qlean Dataset」は、AIが安全で適切な判断ができるように調整する「Safety Alignment」や「Safety-aware Model Training」のために、さまざまな種類のデータ作成や提供に対応しています。

具体的には、以下のようなデータを提供しています。

  • 日本独自の文化やルールに合わせたテキストや指示文の作成

  • 画像や動画、音声、テキストなど、複数の情報が組み合わさることで生まれる複合的なリスクに対応するデータの作成

  • 知的財産権(著作権や商標)や、人種、性別などによる偏りがないかを確認するための評価やラベル付け

安全性に関するデータを準備するには、日本独自の倫理観や法律に合わせた細かい調整や、不適切な内容を扱う際の厳格な管理体制、そして画像とテキストの組み合わせで発生するリスクを定義するといった、高度な専門知識と作業が必要です。

「Qlean Dataset」は、公的機関や大手メーカーとの実績をもとに、これらの複雑な作業を支援し、AI開発者がモデル構築に集中できる環境を提供します。

AIデータレシピ ウェブサイト

データ提供の具体的なイメージ

テキストを扱うAI(LLM)向け

日本独自の倫理観やルールに合わせたデータを提供します。

  • 海外の評価基準を日本の法律や文化に合わせて調整します。

  • AIに意図的に問題のある指示を与えて、システムの穴を探そうとする「Jailbreak」のような攻撃的な指示に対して、適切に拒否したり、安全な方向へ導いたりする応答のデータを提供します。

  • 医療や法律といった専門分野で、日本のガイドラインに違反しない回答を判断するためのラベルデータを提供します。

画像生成AIモデル向け

知的財産権の保護と日本基準の倫理観に配慮したデータを提供します。

  • 特定の作家の絵柄や作風を連想させる指示文と、それによって生成された画像の類似性を多段階で評価したデータを提供します。

  • 日本のプラットフォームの倫理基準に沿った、文脈的に不適切と判断される画像を検出するためのタグ付けデータを提供します。

  • 武器や過度な露出などの危険な要素を、安全で自然な描写に置き換えるための教師データを提供します。

複数の情報を扱うAI(VLM:Vision-Language Model)向け

画像とテキストなど、複数の情報が組み合わさることで生まれる複合的なリスクに対応します。

  • 「特定の建物」の画像と「爆破方法」を説明するテキストのように、画像とテキストの組み合わせで危険が生まれるリスクデータを収集します。

  • 画像の中にあるロゴやデザインを認識し、不適切な言及を避けるための判断ロジックを提供します。

  • 人種、性別、年齢によるAIの偏りを防ぐため、多様な属性を網羅したデータにラベル付けを行います。

  • 複数回のやり取りを通じて、AIが不適切な方向へ誘導されるシナリオに対応するデータを提供します。

AIデータレシピ サービス概要

Qlean Datasetについて

「Qlean Dataset」は、Visual Bankグループの株式会社アマナイメージズが提供する、商用利用も可能なAI学習用データソリューションです。音声、画像、動画、3D、テキストなど、あらゆる形式のデータに対応しており、研究でもビジネスでも安全に利用できる環境を整えています。

国内外のメディアやデータ提供者と協力し、最新のトレンドに合わせたデータラインナップ「AIデータレシピ」を常に更新しています。著作権などの権利処理が済んでおり、法的なリスクの心配なくAI開発に特化したデータの収集・整備を支援します。

Qlean Dataset ご提供価値

Qlean Datasetの強み

詳細情報はこちらから確認できます。

タイトルとURLをコピーしました