「ゆるい鳥」、今でも優秀で今「卓球」を習得したアルゴリズム

$config[ads_kvadrat] not found

篠崎愛☆可愛いオッãƒ'イåã

篠崎愛☆可愛いオッãƒ'イåã
Anonim

のために開拓された深い学習方法の改善 ポン, スペースインベーダーズ 他のAtariゲームでは、Stanford Universityのコンピューターサイエンスの学生、Kevin Chenが、2014年の古典的な横スクロールゲームに非常に優れたアルゴリズムを作成しました。 ゆるい鳥 。 Chenは「q-ラーニング」と呼ばれるコンセプトを活用しました。エージェントは、プレイの繰り返しごとに報酬スコアを向上させ、ほぼ不可能で不可能なほど中毒性のあるゲームを完成させることを目指しています。

Chenは、アルゴリズムが3つの報酬を追求するように最適化されたシステムを作成しました。それは、生き残った各フレームに対する小さな正の報酬、パイプを通過するための大きな報酬、そして死ぬことに対する同じくらい大きな(しかし負の)報酬です。このように動機付けられた、いわゆるdeep-qネットワークは、Chen氏が述べたレポートによると、人間を凌駕することができます。 ゆるい鳥 ピクセルとスコアから直接学ぶことによって、超人間的な結果を達成します。」

2015年に出版されたオリジナルのAtari論文 自然 は、Googleが所有するDeepMind社(現在は古代の中国のボードゲームGoの習熟で有名です)から来ました。 DeepMindの成果は、視覚的な情報、つまり少なくともピクセル単位の情報を取得し、最小限の入力で最大限の成果を上げることができたという点で画期的な成果でした。そのような報酬システムは、単純化された、脳のドーパミン作動性反応に例えられています。

アルゴリズムが羽ばたき鳥を征服したのは今回が初めてではありません。スタンフォード大学のコンピュータサイエンスの学生の初期のクラスがプログラムを作成しました。夜通しトレーニングすると、スコアは0から1,600に変わりました。

$config[ads_kvadrat] not found