画像生成AI(人工知能)の精度を上げるための学習に使われる膨大な画像データの中に、国立国会図書館が「違法な児童ポルノの恐れがある」として閲覧を禁じた写真集の一部が含まれていることがわかった。データの中にはほかにも児童の裸の画像が複数あった。ネットから収集する過程で紛れ込んだとみられる。学習する際、違法画像を取り除くフィルター機能があるが、排除しきれていないという。
画像生成AIは、文章を入力すると、イラストや写真のような画像を作り出す。最も人気が高い画像生成AIの一つ「ステーブル・ディフュージョン(SD)」が学習に使うデータセット(データ群)はネット上で公開されていた。
読売新聞が昨年12月、内容を調べた結果、1993年に出版された裸の少女を写した写真集の画像データが見つかった。
出版当時は規制する法律がなかったが、18歳未満の性的画像の公開などを禁じた児童買春・児童ポルノ禁止法が施行された99年以降、こうした写真集の公開は違法になった。国会図書館は2006年、この写真集を「児童ポルノに該当する恐れがある」として閲覧を禁止していた。データセットの中にはほかにも児童の裸の画像データが複数あった。
SDを開発した英新興企業「スタビリティーAI」によると、データセットは、ドイツの非営利団体のもので、約58億点に及ぶ画像データをネットから機械的に収集している。写真集の画像などは収集過程で紛れ込んだとみられる。
データセットには、利用する際に違法画像を排除するフィルター機能があり、スタ社もこの機能を使っているとしている。しかし、スタ社の提携企業は今年2月、フィルター機能で排除できない児童の性的画像が見つかったと明らかにした。
このデータセットを巡っては、米スタンフォード大の研究チームが昨年12月、児童の性的画像の疑いがあるデータが3226点見つかったと公表。「生成する画像に影響を与えている可能性がある」と指摘した。
スタ社に違法画像を排除しきれていない可能性を尋ねたが、回答がなかった。
岸本充生・大阪大社会技術共創研究センター長(リスク学)の話「生成AIは、膨大なデータを無差別学習することで精度を上げている。現在の技術では、違法画像を完全に排除することは難しいだろう。学習データに児童ポルノが含まれていれば、被害者の人権を侵害していることになりかねない。AI開発企業は対策を講じるとともに、どのようなデータを学習しているのかを説明する社会的責任がある」
画像生成AIに関するご意見や情報を大阪社会部にお寄せください。
メール… [email protected]
LINE… https://lin.ee/FROjZBRd