AIの「安全性」を守る!Qlean Datasetが日本向けに特化した学習データを提供開始

AI倫理・社会問題

AIの進化と「安全性」の重要性

近年、文章だけでなく、画像や動画も作り出せる「生成AI」が急速に進化し、私たちの生活やビジネスに広く使われ始めています。しかし、AIが不適切な内容を出力したり、誤った情報を拡散したりするリスクも同時に高まっています。特に、海外で作られたAIモデルでは、日本の文化的な背景や法律(著作権や肖像権など)に合わない出力をしてしまう可能性も指摘されています。

このような課題に対応するため、Visual Bank株式会社は、傘下のアマナイメージズが展開するAI学習用データソリューション「Qlean Dataset(キュリンデータセット)」を通じて、新しいサービスを開始しました。

Qlean Dataset 基盤モデル向け 安全性アラインメント用データ を提供開始

日本の文脈とマルチモーダルAIの複雑なリスクに対応

AIが安全に社会で使われるためには、AIを開発する段階から「安全性」を組み込む「Safety-by-Design(Responsible AI)」という考え方が重要です。Qlean Datasetの新しいサービスは、特に以下の2つの課題に焦点を当てています。

  1. 日本特有の文脈理解不足:海外のAIモデルでは、日本の文化的背景や独自の法規制(著作権・肖像権など)への配慮が不十分な場合があります。これまでの英語圏中心の基準やテキストデータに偏った対策だけでは、日本社会に即した安全性を確保できません。
  2. 複合モダリティのリスク:「画像とプロンプト(指示文)」のように、異なる種類の情報が組み合わさることで生まれる、より複雑な不適切な出力をAIが判断するのは難しいとされています。

Qlean Datasetは、アマナイメージズが長年培ってきた国内の権利やビジュアルに関する知識を活かし、これらの日本社会に適合した安全なAI設計をデータ面から支援します。

安全性を考慮した学習データの提供内容

Qlean Datasetは、AIが安全に学習するためのデータ(安全性アライメント用データ)を、さまざまな種類のAIモデルに向けて提供します。具体的には、以下のようなデータ作成・提供に対応しています。

  • 日本固有の文脈・規範に合わせたテキストやプロンプト(指示文)の設計

  • 画像・動画・音声とテキストを組み合わせた複合的なリスクデータの作成

  • 知的財産権(著作権・商標)や人種的公平性(バイアス対策)に配慮した評価・ラベル付け

モダリティ別の学習データ例

  • テキスト(LLM:文章生成AI)向け

    • 海外の有害表現評価基準を日本の法制度や文化に合うように調整したデータ。

    • AIをだますような悪意のある質問(Jailbreak)に対して、適切に拒否したり、安全な方向へ導いたりする応答のデータ。

    • 医療や法律といった専門分野で、国内のガイドラインに違反しない回答を判断するためのデータ。

  • 画像生成モデル向け

    • 特定の作家の絵柄やブランドを想起させる指示文と、それによって生成された画像の類似性を評価した著作権リスク評価データ。

    • 国内プラットフォームの倫理規範に準拠した、文脈的な不適切さを判断する画像タグ付けデータ。

  • VLM(Vision-Language Model:画像とテキストを組み合わせるAI)向け

    • 「特定の建造物と爆破方法」のように、画像とテキストの組み合わせで危険が生じるような複合リスクデータ。

    • 画像内のロゴやデザインを認識し、不適切な言及を避けるための判断データ。

    • 人種・性別・年齢による偏り(バイアス)を防ぐため、多様な属性を網羅したデータ。

Qlean Dataset AIデータレシピ あらゆる業界のAI開発に対応する、機械学習用データセットラインナップ「AIデータレシピ」を提供

AIデータレシピ Qlean Dataset あらゆる研究・商業AI開発に対応する オリジナルデータラインナップ「AIデータレシピ」を提供

Qlean Datasetの強み

Qlean Datasetは、公的機関や大手メーカーとの実績に基づいた作業設計を提供し、AI開発者がモデル構築に集中できる環境を支援します。その強みは以下の通りです。

  • 多様なデータ形式や構成に柔軟に対応:画像、動画、音声、3D、テキストなど、さまざまな形式のデータに対応します。

  • 業界固有の要件に最適化:特定の業界に特化したデータニーズにも対応可能です。

  • 権利処理済みで商用利用も安心:著作権や肖像権などの権利処理がされているため、研究から商業利用まで安心して利用できます。

  • 数百万から億単位のデータスケールに対応:大規模なデータセットの提供も可能です。

Qlean Datasetのご提供価値

Qlean Datasetの強み

まとめ

Qlean Datasetは、生成AIが社会で安全に利用されるために不可欠な「安全性」と「信頼性」を確保することを目指しています。国立研究開発法人などとのプロジェクトで培った経験を活かし、日本固有の文脈や倫理、そして画像とテキストが組み合わさるマルチモーダル領域の複雑なリスクに対応する、高品質な安全性データを提供します。

単にデータを集めるだけでなく、属性の公平性なども考慮した「効果的なデータ設計」を通じて、AI開発における安全性の確保を強力にサポートします。

『Qlean Dataset』について

『Qlean Dataset』は、株式会社アマナイメージズ(Visual Bankグループ)が提供する、商用利用可能なAI学習用データソリューションです。音声・画像・動画・3D・テキストなど全形式に対応し、研究・商用いずれも安全に利用できる環境を整備しています。

Visual Bank株式会社について

Visual Bank株式会社は、AI開発を最大化するデータインフラ事業を展開しています。漫画家の作画支援AI補助ツール『THE PEN』の提供や、AI学習用データソリューション『Qlean Dataset』を提供する株式会社アマナイメージズを運営しています。国主導の研究開発プログラム「GENIAC」にも採択され、社会実装に向けた取り組みを強化しています。

タイトルとURLをコピーしました