グーグルの「超人的」ニューラルネットワークは本当にどんな画像の位置も教えてくれるのか?

$config[ads_kvadrat] not found

不要嘲笑我們的性

不要嘲笑我們的性
Anonim

画像の検索はこれまでになく簡単になりました。しかし、完全には自明ではない場所(パリのエジプトのピラミッドや巨大な親指の彫刻ではない)で何かの絵を見つけようとしているのであれば、思ったより難しいです。画像の中。

Tobias Weyandという名前のGoogleエンジニアと彼の同僚のペア。ジャーナルの新しい論文によると arXiv (「アーカイブ」と発音されます)トリオは、ピクセルの分析だけに基づいて、ほとんどすべての写真の位置を正確に特定することができるディープラーニングマシンを構築しました。

機械にこのようなタスクをうまく実行させるには、視覚的な手がかりに基づいて情報を直観的に理解できるようにします。あなたはそれを人間のように考えてほしいのです。

Weyandは、人工ニューラルネットワーク、つまり脳の神経学的経路を模倣するように設計された機械システムの開発に着手しました。この新しいシステム、PlaNetは、設定がどうであれ屋内や屋外にかかわらず、画像の位置を決定し、あらゆる種類の独特の、または特徴のない視覚的な合図を特徴とする、明らかに人間を凌駕する能力があります。

PlaNetはどうやって心配しますか? Weyandと彼のチームは、世界の地図をグリッドに分割し、それらの場所で何枚の画像が撮影されたかに応じて、異なる地域に26,000以上の正方形のような形を配置しました。より多くの写真が撮られる密集した場所はより小さな正方形に収まりますが、より大きく、より遠い地域はより大きな正方形に切り取られることができます。

その後、チームは、すでに位置情報がある画像の大規模なデータベースを作成しました - 約1億2,600万枚の写真。どの画像を世界地図のどのグリッドに配置できるかをPlaNetに教える方法を教えるためのデータセットとして、約9100万が使用されました。

それから、ニューラルネットワークは、データベースから他の3,400万枚の画像をジオロケーションすることを任務としました。最後に、PlaNetはFlickrからの230万ジオタグ画像のデータセットに設定されました。

結果? PlaNetは、写真の28.4パーセント、大陸の48パーセントを原産国とすることができます。さらに、システムはFlickrの画像の3.6パーセント、街のレベルの場所を10.1パーセントの場所で特定できます。

そしてPlaNetはほとんどの人間よりもこの点で優れています - 最大の地球規模の人でさえ。 Weyandは、Google Street Viewで見つかった写真の場所をラベリングするゲームで、10人のよく旅をした人たちにPlaNetと競争するよう呼びかけました。

「合計で、PlaNetは1131.7 kmの中央局在化誤差で50ラウンドのうち28を獲得したが、中央局在化誤差は2320.75 kmであった」と研究者らは書いている。 「小規模な実験では、PlaNetがストリートビューシーンの位置を特定することで超人的なパフォーマンスを達成していることがわかりました。」

これは本当ですか? Googleのエンジニアは本当に「超人的な」A.Iを開発しただけでした。システム?

おそらく、画像の位置を特定することになるとします。それはそれほど驚くべきことではありません。A.Iのポイントです。根本的に人間の脳を真似るのではなく、いくつかの具体的な方法で人間の限界を乗り越えて、はるかに難しい仕事を成し遂げることです。その意味では、研究者が書いていることは真実です。

それでも、PlaNetを「ニューラルネットワーク」と呼ぶのは難しいことです。この種のテクノロジの理想的な形式は、画像の位置情報だけではありません。 A.I.システムはsimilesを書いて遊ぶことができます スーパーマリオ しかし、これは、バイタルを自動的に監視および維持し、輸送またはエネルギーインフラストラクチャを管理することなどができる、理想的な「マスター」システムと比べると小さいことです。

$config[ads_kvadrat] not found