いざ技と知の金脈へ!
次世代テクノロジーを求むイノベーター向けメディア

強化学習AIで熟練者のPC作業が自動化される未来が来るか~OpenAI公開モデルの実力を測る~

強化学習AIで熟練者のPC作業が自動化される未来が来るか~OpenAI公開モデルの実力を測る~

はじめに

2022年6月、インターネット上にある大量のゲームプレイ動画の事前学習により、従来のAIでは実現できなかった難しい作業の自動化を成功させたことがOpenAIにより発表されました。この技術の適用先はゲームに限らず、状況に合わせた思考が必要となる我々人間の複雑なPC作業を実現できる可能性があります。

この記事では、OpenAIの発表したVPT(Video-Pre-Training)という事前学習手法の仕組みの概説、VPTで学習したモデルを試した実体験に加え、VPTが示す強化学習の未来について考えていきます。

記事内にて「マインクラフト」のゲーム画像を利用した解説を行いますが、
これらは講演者自身が実行・録画した素材を使用しており公式とは一切関係ありません
NOT OFFICIAL MINECRAFT PRODUCT.NOT APPROVED BY OR ASSOCIATED WITH MOJANG

目次

強化学習とは

はじめに、強化学習がどんなシーンで使われているかを説明します。『本質を捉えたデータ分析のための分析モデル入門』という書籍の記述を借りると、「環境と相互作用し、得られる収益を最大化する方策を見つけること」です。なにをやったらよいかはわかっているけれど、どうやったらよいかはわからない というタスクに適しています。言い換えると、お手本なしで「どんな状況でどう動けば目的達成に近づくか」を学習する方法と言えると思います。

ai02_01.png

マインクラフトとは

VPTというAIテクノロジーついて説明を始める前に、VPTを適応する題材となった「マインクラフト」について少しだけ説明をさせてください。
マインクラフトとは、世界で最も活発にプレイされているゲームの1つです。こちらの画像の様に、ランダムに生成される多様な世界があり、その中で自然を開拓して集めた素材で工作することにより、さらなる開拓のための道具を開発することができます。たとえば、木を切ることで、素材として木材を入手し、木のツルハシを作ることができます。木のツルハシがあれば、石を掘ることができます。
マインクラフトと我々のPC業務はどちらも、画面を見て多様な状況の中でマウスとキーボードを操作していくという点で同じなので、マインクラフト上で高度な自動化ができるAIテクノロジーがあれば、我々のPC業務も自動化できる可能性があります。

ai02_02.png

VPT(動画の事前学習手法)とは

事前学習

VPTとはVideo Pre Trainingの略で、強化学習モデルの事前学習のための手法です。事前学習という観点で、自然言語処理と画像処理を考えてみると、どちらも膨大な量のラベル無しデータを学習した事前学習済みモデルが一般に公開されています。自然言語処理モデルを例に説明すると、事前学習は、単語の意味や文法などの知識を大量のラベル無しテキストの事前学習で獲得したAIモデルであり、これをファインチューニングすることで、翻訳などの目的とするタスクを解きやすくなるという効果があります。利用が簡単で高精度が出しやすいことから、多くの人に当たり前のように事前学習済みモデルが利用されています。
一方、PCを操作する強化学習モデルに関しては、膨大な量のPC画面の動画に加えて、ラベルとしてその動画内で行ったキーボードやマウス操作のデータを用意し、それを事前学習する必要があります。事前学習のために大量のラベル付きデータを用意しなければならないことは、PCを操作する強化学習モデルを開発するうえでの大きな課題の1つになっています。

ai02_03.png

VPTのここがスゴイ

VPTは、少量のラベル付き動画さえあれば、インターネット上にある大量のラベル無し動画からラベル付き動画を作成することが出来る という技術です。つまり、課題の1つであった「事前学習済みモデルを作るために必要なラベル付け作業」が少なくて済むようになるということです。
OpenAIはVPTによって、従来のAIには出来なかった「人間のような臨機応変で複雑なPC操作」でPCゲーム上での作業を人間よりも高速に完了出来ることを示しました。この技術は、ゲームだけに限らずPC上で行う様々な作業を自動化するために活用できるとされています。

ai02_04.png

VPTの全体像

以下の画像はVPTの事前学習の全体像です。このフローで得られた事前学習済みモデルは、人間の振る舞いを事前知識として獲得しており、これを強化学習でファインチューニングすることで、「ダイヤモンドのツルハシを作る」などの目的を持って動くようになります。
フローの中では、まず少量のラベル付き動画を作成し、それを学習することで疑似ラベル付与モデルを作成します。次に、大量のラベル無し動画を、YouTubeなどインターネットから収集します。この疑似ラベル付与モデルを使って、ラベル無し動画に疑似ラベルを付与することで、大量の疑似ラベル付き動画が得られます。最後に、大量の疑似ラベル付き動画によって、モデルを事前学習するといった流れです。

ai02_05.png

VPT事前学習済みモデルの強化学習によるファインチューニング

大量の"マインクラフトのプレイ動画"を事前学習済みのモデルを、『ダイヤモンドのツルハシを作る』という目的設定のもと強化学習でファインチューニングする場合、以下の画像のように各種アイテムの獲得順序を考えます。
ダイヤモンドのツルハシを作るためには、木を切って原木を入手し、木材に加工して、木材から作業台を作り、作業台で木のツルハシをつくり、丸石を掘る...のように各種アイテムを順番に集めていく必要があります。
ここでいうファインチューニングでは、これら各種アイテムに報酬を設定し、報酬の累積和が大きくなるような行動を選択するように強化学習を行っています。
なお、ゲームに慣れた人間がダイヤモンドを入手するまでに必要時間の中央値は20分とのことでした。

ai02_06.png

強化学習でファインチューニング後のモデルは、以下のような「人間が良く行う操作」という事前知識を持った状態で、目的を達成するよう振舞えるようになっています。

  • 水辺を見つけると泳いで渡る
  • 目の前に木を見つけると、近寄って切り倒し、地面に落ちた木のブロックを拾う
  • 拾った木のブロックで作業台を作り、作業台上で木のツルハシを作る
  • 木のツルハシで地面を掘って鉱石を集める など

私がファイチューニング済みのモデルを実行した結果、実行の約9分後にはダイヤモンドのツルハシの作成に必要なダイヤモンドを入手することが出来ました。先ほど示したゲームに慣れた人間の中央値が20分だったことから、だいたいの人間より高速にダイヤモンドを入手できたといえるでしょう。

ai02_07.png

もし事前学習を行わなかった場合はどうなるのでしょうか?OpenAIの実験結果を見てみましょう。
事前学習ありの場合は、学習が進むにつれて報酬が多くもらえるようになっており、ダイヤモンドのツルハシ作成に近づいています。一方、事前学習無しの強化学習モデルの場合は、まったく報酬が増えていません。つまり、人間らしい振る舞いを知らない状態で強化学習を行っても、複雑なPC作業を行うのは難しいということが言えると思います。

ai02_08.png

VPTでどんなことが可能になるか

VPTによって膨大な量のデータを元に事前学習を行うことで、非常にチャレンジングなタスクが強化学習で出来るようになるかもしれません。例えば「1週間後の羽田からホノルルのフライトで飛行時間が最も短い便をExpediaで予約」するというPC作業です。
そのときVPTで行うべきことは、YouTubeなどで、なるべくExpediaに近い構造のWebサイト閲覧動画を大量に収集し、その大量の動画から「ボタンのクリック」、「プルダウンからの選択」、「画面のスクロール」などの人間らしいWebサイト閲覧操作を事前学習することです。

ai02_09.png

しかし、これができるようになったとしても、まだ人間の熟練者のような柔軟性は不足していると思います。なぜかというと、この目的で学習を行うと、「出発日」や「行き先」などが固定されており、それ以外ができないことになります。行き先を変えるために、時間をかけて再び強化学習を行わなければならないということです。
ところが、「テキスト条件付け」という技術が今よりさらに発展していくと、「明日出発の成田からバルセロナのフライトで価格が最も安い便をExpediaで予約して」というようにAIにテキストで出発日時や目的地などを命令することで、人間の熟練者の様に柔軟に目的の一部を変更して動くことができるようになります。このテキスト条件付けは、熟練者のPC作業を強化学習モデルで置き換えるための重要なカギの1つとなりそうです。

ai02_10.png

強化学習の未来を考える

2017年のTransformerの登場をきっかけとして、自然言語処理や画像処理の分野では、2018年のBERT、2020年のGPT-3、Vision Transformerなどの巨大な事前学習済みモデルが登場し、AIモデリングの敷居が下がり、様々なタスクが以前よりも簡単に解けるようになってきています。
VPTによって強化学習の事前学習に必要なラベル付けのハードルが下がることが分かりました。そう遠くない未来、強化学習の分野でも人間のような様々な振る舞いを事前学習したAIが公開され、それを強化学習で少しファインチューニングしてあげるだけで、ゲームや航空券予約に限らず、様々な人間の熟練者の作業が自動化できるという素晴らしい世界がやってくるであろうことをVPTは我々に感じさせてくれたと思います。

ai02_11.png

\本記事の内容を、動画でご視聴いただけます/

動画を見る.jpg