G検定模擬試験set1 - 未解答
(エ)に最もよくあてはまる選択肢を 1 つ選べ.
自己符号化器はニューラルネットワークによる(ア)の代表的な応用であり,出力が入力に近づくようにニューラルネットを学習させる.主に(イ)のために利用されることが多く,活性化関数に恒等写像を用いた場合の 3 層の自己符号化器は(ウ)と同様の結果を返す.自己符号化器を多層化すると,ディープニューラルネット同様に勾配消失問題が生じるため,複雑な内部表現を得ることは困難であった.この問題に対して 2006 年頃に(エ)らは,単層の自己符号化器に分割し入力層から繰り返し学習させる(オ)を積層自己符号化器に適用することで,汎用的な自己符号化器の利用を可能とした.また,自己符号化器の代表的な応用例として(カ)がある.
(解説あり)(エ)に最もよくあてはまる選択肢を 1 つ選べ.
大規模なディープニューラルネットワーク(DNN)の学習では学習するべきパラメータ数が膨大となるため,処理の高速化が必要となる.2012 年に提案された分散並列技術である(ア)や画像処理に特化したプロセッサの(イ)は大規模なニューラルネットワークの学習を実現するために利用されてきた.また,大規模なニューラルネットワークの学習が困難となる原因の一つとして,ある層の入力がそれより下層の学習が進むにつれて変化する(ウ)がある.(ウ)を防ぐために出力値の分布の偏りを抑制する(エ)が 2015 年に提案されている.
(ア)に最もよくあてはまる選択肢を 1 つ選べ.
活性化関数とは,ニューロンの出力に何らかの非線形な変数を加える関数である.単純パーセプトロンの出力層では(ア)が用いられ,ニューラルネットワークの中間層では,はじめ(イ)などの正規化の機能を持つ関数が好まれた.しかし現在では,誤差逆伝播で勾配が消失しやすいという問題から,中間層では勾配消失問題の影響を抑えられ,かつ簡単な(ウ)などが用いられている.また,出力層では出力の総和が 1 になるため確率的な解釈が可能になる(エ)がよく用いられる.
(解説あり)(ア)に最もよくあてはまる選択肢を 1 つ選べ.
ディープラーニングでの学習を効率的に行うにあたって,共有データセットの整備が徐々に進められている.しかしながら,現在広く普及しているものには,いくつかの問題点が指摘されている. 第一は, (ア) の問題である.現在は公正な利用がなされているとされているが,企業が共有データセットを利用して学習したモデルを自社のプロダクトに転用して売り上げを上げようとした場合に問題はないのかという議論が巻き起こっている.他の問題として,これは日本にとっての問題であるが,多くのデータセットが (イ) であることが挙げられる.これにより,日本固有の食べ物を認識しようとすると,それが全く別の国の食べ物としてのみ認識されるという不具合が生じるに至っている.
(イ)に最もよくあてはまる選択肢を 1 つ選べ.
全ての欠損値が完全に生じている場合には,様々な手法を使ってこれに対処することができる.1 つは欠損があるサンプルをそのまま削除してしまう (ア) である.これは欠損に偏りがあった場合には,データ全体の傾向を大きく変えてしまうことになるので使用する際には欠損に特定の偏りがないかを確認して使用することが肝要である. 他の事例としては,欠損しているある特徴量と相関が強い他の特徴量が存在している場合は,(イ) という方法もある.
(エ)に最もよくあてはまる選択肢を 1 つ選べ.
ニューラルネットワークで用いられる活性化関数について扱う.出力層の活性化関数には,回帰では(ア)が,多クラス分類では(イ)が一般的に利用されてきた.また中間層の活性化関数として,従来は(ウ)などが一般的に利用されてきた.しかし,これらの活性化関数を利用すると勾配消失問題が起きやすいという問題があったため,近年は,入力が 0 を超えていれば入力をそのまま出力に渡し,0 未満であれば出力を 0 とする(エ)や複数の線形関数の中での最大値を利用する(オ)などが利用されている.
(解説あり)(ア)に最もよくあてはまる選択肢を 1 つ選べ.
AI が実世界における抽象概念を理解し,知識処理を行う上では,(ア) を通じた高レベルの身体知を獲得し,次に (イ)を通じて言語の意味理解を促し,抽象概念・知識処理へと至るのではないかということが議論されている.
(ア)に最もよくあてはまる選択肢を 1 つ選べ.
線形モデルとは,(ア)を含む項の線形結合で,(ア)を含んだ数式の出力値は(イ)と呼ばれる.この線形結合で,特に(ア)も(イ)も一次元のデータの場合は,y = b0 + b1 * x と表される.こういったモデルを単回帰モデルと呼んだりもする.この数式において,各項の係数(例えば b0, b1)を(ウ)と呼び,このモデルを用いてテストデータを学習し,測定した実データを推定する.注意点として,(イ)が連続の値を取り扱う場合(エ)と呼ばれるが,離散の値を取り扱われる場合は(オ)と呼ばれ,それぞれ名称が異なる.ただ,実際のデータを扱うときに,(ア)が 1 次元であることはほとんどなく,2 次元以上になることが一般的である.このような場合,(ア)の次元数分だけ,係数パラメータを増やして,モデルを拡張する必要がある.このように(ア)が 2 つ以上の場合を(カ)モデルと呼び,各項の係数パラメータを(キ)という.またモデルによって出力された値と実際の測定値の誤差を(ク)という.この(ク)を用いて係数パラメータを推定する代表的なアルゴリズムに最小二乗法と最尤推定法がある.
(解説あり)(ア)に最もよくあてはまる選択肢を 1 つ選べ.
データが少量しかないなどの理由で,対象のタスクを学習させることが困難なときに,関連する別のタスクで学習し,その学習済みの特徴やパラメータなどを利用することで効率的に対象のタスクを学習することができる.これを(ア)という.
(解説あり)(ア)に最もよくあてはまる選択肢を 1 つ選べ.
自動運転レベル 5 に至るには,2 つのアプローチが存在している.1 つは自動運転レベル 1 から徐々に運転自動化の範囲を広げていくアプローチ,もう 1 つは直接レベル 3 以上の自動運転を目指そうとするものである.この時,前者のレベル 1 から徐々に運転自動化を目指すアプローチを採っているプレイヤーは (ア) などである.他方で,後者の直接レベル 3 以上の運転自動化を目指すアプローチを採っているプレイヤーは大手IT企業である.また後者のアプローチを採る企業として著名なのは,google 社傘下の Waymo 社である.