Machine learning—機械学習

 本研究室では,機械学習における「学習」「推論」「生成」の深い理解を通して,その先の「知能」の「創発」を目指した研究を行っています.特に,人の記憶を構成する3つのプロセス「符号化(エンコード)」「保持」「取り出し(デコード)」に着目し,それぞれ機械学習に対応する概念の探求とその実証研究および理論構築を目指します.

"Without A Theory The Facts Are Silent"
      —Friedrich August von Hayek.

現在行っている具体的な研究テーマはこちらをご覧ください

論文情報はこちら


機械学習では,画像や文章のような人が理解可能で具体的な「データ」を機械が扱うのに適したある実数値ベクトルに変換します.この実数値ベクトルを基に機械は予測・判断・推論・生成を行います.「データ」を「情報」への変換プロセスは「符号化(エンコード)」に対応していると考えています.膨大な学習データにおけるこのような実数値ベクトルの情報を機械学習モデル内に「保持」するために,通常はモデルの内部パラメータとして学習アルゴリズムを通して「保持」します.「保持」した「情報」を適応的に適切な形で柔軟に「取り出す」必要があります.


実数値ベクトルに変換された個々のデータは,そのデータを表現する特徴ベクトルとしてどのような性質を持つべきかを分析することが重要です.このような研究分野は「表現学習」と呼ばれています.たとえば,学習データが512次元の実ベクトルとして表現された場合,512次元実数空間上での配置がその学習器の記憶領域における学習データの配置(保持の幾何学的構造)を表しているかもしれません.その場合には,類似した性質をもつ訓練データは類似した記憶領域に配置されていることが望ましい可能性あります.未知のデータに対して訓練データから適切な情報を想起し,適切な予測を行うことができれば未知のデータに対する推論が可能になります.また,現実世界の様々なデータ形式に対してデータの特徴を適切にとらえて学習可能ならば,少数のデータが与えられるだけで新規カテゴリや新規タスクに対して性能の良い予測が可能になるかもしれません(few-shot学習, zero-shot学習, in-context学習などと呼ばれる).さらに保持された情報を柔軟な形式で取り出すことが可能であれば,高品質の文章や画像や様々な形式のデータの生成も可能になるかもしれません.


また,生物における頑健性は種の生存のために重要な性質です。環境の変化に対応して形態・形質を変化させ対応させることで進化してきました.機械学習において頑健性は,学習データや予測対象となるデータが想定されているものとは異なった場合でも学習が適切に行われるために必要な性質です.このような性質は機械学習のシステムを実運用するうえでは重要であり,汎化にも密接に関わっています.また,深層学習ではデータの入力に対する摂動に特徴的な性質があることがわかっており,この性質は深層学習の持つ記憶の性質に関係があることも最近知られてきました.このような摂動に対する頑健性を解析することで深層ニューラルネットワークの記憶の構造や汎化の深い理解につながると考えています.