ニュース

OpenAI、AI学習用データセットを公募する「Data Partnerships」

OpenAIは9日(米国時間)、AIモデルのトレーニングのためのパブリックやプライベートなデータセット作成に向けて各社と協力する取り組み「OpenAI Data Partnerships」を発表した。

AIの進化においては、広範な学習データセットが必要だが、利用可能な大規模なデータセットは限られている。OpenAIでは、「全人類にとって安全で有益なAGI(汎用人工知性)を作るためには、AIモデルがあらゆるテーマ、産業、文化、言語を深く理解することが必要」とし、幅広い学習データセットを集めるプロジェクトを展開する

例えば、アイスランド政府やMiðeind ehfと提携し、彼らがキュレーションしたデータセットを統合したことで、GPT-4においてアイスランド語を話す能力を向上させたという。また、Free Law Projectとの提携では、膨大な法律文書コレクションをAIトレーニングに組み込み、法律理解を向上している。OpenAI Data Partnershipsにおいて、こうした事例をより広く募っていく狙い。

このパートナーシップでは、「人間社会を反映する大規模なデータセットで、一般市民がオンラインで簡単にアクセスできないもの」を対象とし、テキスト、画像、音声、ビデオなどのフォーマットや、言語、トピックを問わず、「人間の意図を表現したデータ」を求めるとしている。データのクリーニングが必要な場合は協力して最適な形に加工する。なお、機密情報や個人情報、第三者の情報を含むデータセットは求めない。

データセットの提携方法は、オープンソースアーカイブとプライベートデータセットの2種類を用意する。

オープンソースアーカイブは、AIモデルのトレーニングに誰でも使えるように公開される。プライベートデータセットは、非公開にしたいが、OpenAIのAIモデルの学習を希望するあるいは、データの可能性を測りたいといった場合に、提供するデータセットとなる、