from A free AI image dataset, removed for child sex abuse images, has come under fire before.
2022年3月にリリースされたLAION-5Bという大規模なオープンソースのAIデータセットには、少なくとも1,008件の児童性虐待画像が含まれており、さらに数千件の疑わしい事例があると、スタンフォード・インターネット・オブザーバトリーの新しい報告書が発見した。このデータセットは、AI製品が新しい児童虐待コンテンツを出力する可能性があると警告されている。これに対し、LAIONは「慎重を期して」一時的にデータセットを取り下げ、安全性を確認した後に再公開すると述べた。LAION-5Bデータセットは以前にも問題になっており、2022年9月には個人の医療記録写真が含まれていたことが判明している。また、LAIONはオンラインショッピングサイトからの視覚データを使用してスクレイピングされた。AIの先駆者であるAndrew Ngは、LAIONへのアクセスを制限することに批判的であり、大規模なデータセットへのアクセスが進歩にブレーキをかける可能性があると述べている。LAIONは、AI製品のトレーニングに使用するためのオープンソースデータセットを作成するために設立された。