DeepMindがどのようにして不気味な独学を開発したか人間を凌駕することができる

After Effects Tips & Tricks - Wiggle Text

コンピュータは、数十年の間、チェスで私たちの壊れやすい人間の評価を蹴ってきました。 1996年、IBMのDeep Blueが世界チャンピオンのGary Kasperovを倒すことができたのは初めてのことです。しかし、アルファベットのA.I.からの新しい研究DeepMindは、初期の勝利が本当に限られていた範囲の限界に焦点を当てています。

1人のために、Kasperovは右に跳ね返り、3人のゲームに勝ち、古い1人当たりの6ゲームのプレーオフで2回引きましたデイリーニュース報告書。

DeepMindの研究者Julian Schrittwieserが語ったように逆ディープブルーのようなアプリケーションも手動でプログラムされました。これは人間がA.Iを教えなければならなかったことを意味します。考えられるあらゆる緊急事態を処理する方法について知るために必要なすべてのもの。言い換えれば、それは今までそれがプログラミングしていた人々と同じくらい良いだけでありえました。そしてDeep Blueは明らかにチェスを上達させることができました。 Goのような別の似たようなゲームを手に入れると、それは無知でした。

アルファゼロは完全に異なります。本日ジャーナルに発表された新しい研究で科学著者らは、どうやってAlpha Zeroにチェスで人間を倒すことを教えることができただけでなく、どうやってAlpha Zeroに教えることができたのかを明らかにした。自分自身を教える複数のゲームを習得する。

教え方自分を教える

アルファゼロはディープ強化学習と呼ばれる手法を使って開発されました。本質的に、これはA.I.を教えることを含みます。チェスの基本的なルールのような非常に単純なもの、そしてそれが戦略やテクニックのようなもっと複雑で面白いことを学ぶまで何度も何度も何度も何度もその単純なことをすること。

「伝統的に…人間はゲームについての彼らの知識を利用し、それを規則でコーディングしようとしていました」と4年近くAlpha Zeroに取り組んできたSchrittwieserは言います。「私たちのアプローチは、私たちがランダムに初期化し、それからそれ自身に対してゲームをすることを可能にし、そしてそれらのゲーム自体からそれはどの戦略が効くかを学ぶことができます。」

すべてのアルファゼロが得ることは基本的なルールです、そしてそこからそれはそれ自身で遊ぶことによって勝つ方法を学びます。新しい発見によると、アルファゼロがチェスを習得するのに9時間、将棋を習得するのに12時間、そして囲碁を習得するには約13日かかりました。それはそれ自身で遊んでいるので、それは本質的に独学です。これは、世界のチャンピオンである人間主導のアルゴリズムすべてを最小化し、将棋での世界チャンピオンの2017年の91パーセントを破ったものです。

「ゲームに関する興味深い知識を独自に発見することができます」とSchrittwieser氏は言います。「それはより人間的に演じるプログラムにつながります。」

そのスタイルは人間的で創造的ですが、それはまた最適かもしれません、それはアルファゼロがそれがすべての利用可能な情報へのアクセスを持つほとんどどんなゲームでも支配することができるように十分にそうです。実際、Alpha Zeroは非常に洗練されています。A.I.の限界を超えないようにするためには、まったく異なるクラスのゲームに移行する必要があるかもしれません。問題を解決します。

アルパゼロはなぜそんなに良いのか

A.I.研究者たちは、これらのゲームをより洗練された形式のアルゴリズムのテスト理由として使用することをいくつかの理由で気に入っています。それらはエレガントであり、人々は何百年もの間それらをプレイしてきました、それはあなたがあなたのアルゴリズムをテストするための潜在的な挑戦者をたくさん持っていることを意味します。しかし、彼らはまた複雑で複雑でもあり、それは彼らがA.Iの足がかりとして役立つことを意味します。実世界の問題を解決することができます。 Schrittwieser氏は、次の研究分野は、Alpha Zeroのように不完全な情報でも最適な決定を下すことができるアルゴリズムを作成することであると述べています。

「これらすべてのゲームにおいて、あなたは起こっていることすべてを知っています」と彼は言います。「現実の世界では、あなたは情報の一部しか知らないかもしれません。あなたはあなた自身のカードを知っているかもしれませんが、あなたはあなたの対戦相手を知らない、あなたは部分的な情報を持っています。」

Alpha Zeroのようなアルゴリズムをこの種の課題に対応させることができるボードゲームはまだいくつかあります - Schrittwieser氏はStratego（プレイヤー同士が互いの動きを隠している）とStarcraftはDeepMindのゲーム中心の研究者にとって興味深い分野です。

「私たちが取り組む問題をますます複雑にしたいのです」と彼は言います。「しかし、それは常に一度に一つの次元です。」

同時に、Deep Mindの次世代のコンピュータ化された問題解決者は、すでにゲームの世界から現実の世界へと移行する可能性を示しています。今週初めに、AlphaFoldと呼ばれる別のアルゴリズムを発表しました。これはタンパク質配列をその3D構造の正確な予測に外挿することが可能です。それは何十年もの間科学者を悩ませてきた問題であり、アルツハイマー病から嚢胞性線維症までの範囲の病気の治療への扉を開くのを助けることができます。

$config[ads_kvadrat] not found

DeepMindがどのようにして不気味な独学を開発したか人間を凌駕することができる

After Effects Tips & Tricks - Wiggle Text

目次:

教え方自分を教える

アルパゼロはなぜそんなに良いのか