現在研究室で取り組んでいる個々のテーマについて簡単に概要を説明します

表現のdisentanblementを解析する方法を部分情報分解を基に提案

Seiya Tokui and Issei Sato. Disentanglement Analysis with Partial Information Decomposition.
ICLR2022.

  • 背景:Disentanglement は,データ間の差異を生み出すさまざまな因子を潜在変数として獲得する枠組みであり,解釈可能なデータ表現を与え,データの生成過程を制御可能にし,外挿的に汎化するモデルを構築するのに有用である.

  • 問題:: 学習された潜在表現がどの程度因子を disentangle するかを測定する従来の指標は多変数間で複雑に entangle された情報を過小評価していた.また,従来の指標は disentanglement の度合いを測ることはできるが,entanglement のより詳細な分析ができなかった.

  • 方法:多変数間の情報分配を与える部分情報量分解を用いて,各因子の情報が潜在変数間でどのように分配されるかを解析する枠組みを構築した.この枠組みを用いると,多変数間の entanglement を正しく捉え,さらにそれを redundancy と synergy に分解して詳しく分析できる.

  • インパクト:Disentanglementされた表現とはなにか,という問いに対する答えは決着がついていないが,本研究によって情報論的な観点でこの問いへの理解が一歩深まり,(dis)entanglement の背後に変数間の豊かな構造が潜んでいる可能性が示唆された.

少数データからの学習を可能にするProtopical Networksにおける汎化誤差を解析

Mingcheng Hou and Issei Sato. A Closer Look at Prototype Classifier for Few-shot Image Classification.
NeurIPS2021

  • 背景:少数データからの学習で重要な方法の1つにPrototypical Networksがある.この方法は メタ学習によりデータの特徴量を学習する表現学習とみることができ,汎化誤差の解析もされている.

  • 問題:Protopical networksの汎化誤差解析において,学習される特徴空間におけるデータの分布には強い仮定がある.

  • 方法:データの分布の仮定を緩和し,さらにデータの散らばり具合に関する統計量の性質を汎化誤差に反映させることで,特徴空間上でのデータの分布の性質と汎化誤差の関係を解明する.

  • インパクト:理論解析の結果,Protopical networksにおいてメタ学習は重要ではなく,事前学習済みモデルを利用してProtopical networksの利点をそのまま引き継ぎつつ同程度の性能を発揮することが可能になった.これは事前学習済みモデルを利用した少数データ解析における重要な初手となるアプローチとなる可能性がある.

深層学習の診断確率予測を補正する手法を開発

Takahiro Mimori, Keiko Sasada, Hirotaka Matsui, and Issei Sato. Diagnostic Uncertainty Calibration: Towards Reliable Machine Predictions in Medical Domain. AISTATS2021.

  • 背景:医療の現場では, 症例に関する識別結果よりもその症例である可能性の確率を出力することが重要視される.例えば、血液検査ではすべての細胞を肉眼で網羅的にチェックすることができないため,異常細胞をその異常確率でランキングすることは重要である.

  • 問題: 深層学習を用いると自信過剰な確率予測をすることが知られている.そもそも予測とともに出力される確率とはどのようなものが望ましいのか明確には分かっていない.

  • 方法:1つのデータに対して複数人が判断をする場合を想定し,その判断の正答率を反映し予測確率を補正するalpha-calibrationを提案した.提案手法は学習済モデルに対して補正することができるので再学習する必要はない.

  • インパクト:人の判断の不一致度も反映しているため専門家の判断が難しい症例の予測が可能となる.さらに専門家の判断により予測確率を更新することができるためセカンドオピニオンの必要性も定量化可能である.

自己教師あり表現学習における疑似的な負例の役割を解析

Kento Nozawa and Issei Sato. Understanding Negative Samples in Instance Discriminative Self-supervised Representation Learning. NeurIPS2021 https://arxiv.org/abs/2102.06866.

nozawa_2021_representation_learning.jpg
  • 背景:自己教師あり表現学習は,有用な特徴量を教師情報なしで学習でき,単純な分類器と組み合わせるだけで深層教師あり学習による分類精度に匹敵することから注目を集めている.

  • 問題: 自己教師あり表現学習では,疑似正例データと疑似負例データを作成し学習する.その際,実用的には疑似正例データよりも非常に多くの疑似負例を用いて学習すると性能が上がることが知られている.しかし,このような実験結果は、既存の理論解析とは一貫しない.

  • 方法:食玩問題を利用して、自己教師あり学習の損失関数と教師あり学習の損失関数の関係を示し,疑似負例の増加による効果を解析した.左の図はCIFAR-100に対して、負例のサンプル数(横軸) を増やしていくと、教師あり学習の 損失関数の上界 (棒グラフ)が 減少する様子を検証した図で,この結果は理論と一致する.

  • インパクト:実験的に知られている現象を解析することで,アルゴリズムの透明性が増し,予期しない挙動や不必要な試行錯誤を予防できる.

平坦性に基づく深層学習の汎化に関するスケール不変性を考慮したPAC-Bayes解析

Yusuke Tsuzuku, Issei Sato, Masashi Sugiyama. Normalized Flat Minima: Exploring Scale-Invariant Definition of Flat Minima for Neural Networks Using PAC-Bayesian Analysis. ICML2020.

tsuzuku_icml2020.jpg
  • 背景:深層学習は非常に複雑なモデルではあるものの高い予測性能(汎化能力)を有する.なぜ深層学習は汎化するのかについて,平坦性という損失関数の構造に着目した研究が注目を集めている.訓練データにおける損失関数 (Empirical loss)の平坦な局所最小解は,未知のデータにおける損失(Expected loss)が少しずれていたとして変化が少ないために汎化していると考える.

  • 問題: 既存の平坦性を用いた汎化誤差解析はニューラルネットワークの重みパラメータに対してスケール不変性を持たずスケールを変えるといくらでも汎化誤差を変化させることができてしまう.

  • 方法:PAC Bayes分析において,パラメータの事前分布の分散項を工夫することで,正規化平坦最小解という概念を提案することで,スケール不変性を持つ汎化誤差解析手法を提示した.

  • インパクト:深層学習はなぜ汎化するのか?人工知能分野の1つのオープンクエッションに向けて,1歩近づく理論を提示することができた.

深層学習における確率的勾配法による学習ダイナミクスを解析

Zeke Xie, Issei Sato, and Masashi Sugiyama. A Diffusion Theory For Deep Learning Dynamics: Stochastic Gradient Descent Exponentially Favors Flat Minim.
ICLR2021.

xie_iclr2021.jpg
  • 背景:深層学習は非常に複雑なモデルではあるものの高い予測性能(汎化能力)を有する.なぜ深層学習は汎化するのかについて,平坦性という損失関数の構造に着目した研究が注目を集めている.平坦性の高い局所解を見つけることができれば汎化能力が高いことが経験的にも理論的にも明らかになりつつある.

  • 問題: 深層学習では確率的勾配法を用いた学習が行われているが,なぜ確率的最適化によって平坦性の高い局所解に到達するのかはわかっていない.

  • 方法:確率的勾配法による深層学習の学習ダイナミクスを確率微分方程式と見なすことで解析した.退避時間 (escaping time)を解析した結果,平坦性の低い局所解からの退避時間のほうが平坦性の高い局所解に比べて非常に短いことを示した.つまり,平坦性の高い局所解周辺に長く滞在することを示した.

  • インパクト:深層学習における学習ダイナミクスの解明により,深層学習の汎化に対する理解をより深めることができる.特に,汎化に関しては学習によって得られる解(パラメータ)の性質を解析するものがほとんどであるが、この研究では学習プロセスも含めて解析している.

ニューラルネットによるアーベル群・半群のモデル化

Kenshin Abe, Takanori Maehara, and Issei Sato. Abelian Neural Networks.
https://arxiv.org/abs/2102.12232.

abe2021.jpg
  • 背景:ニューラルネットワークは、目的に応じて様々な構造が考案されてきた.例えば,画像に対する畳み込みニューラルネットワーク,系列データに対する再帰型ニューラルネットワーク,グラフ構造のデータに対するグラフニューラルネットワークなどがある.

  • 問題:ニューラルネットワークによって表現される特徴量に対して代数的な演算をすることでデータ同士の性質の足し引きを表現できることが経験的に知られているが,そのような演算が可能である理論的な裏付けや条件は分かっていない.

  • 方法: 代数的構造をニューラルネットワークに組み込むことを考える.可逆ニューラルネットワークを用いて,アーベル群・半群を構成する二項演算のモデル化を行う.群の場合については普遍近似定理を示した.

  • インパクト:多重集合に対するサイズ汎化の理論保証有するため,サイズの小さな集合で学習したニューラルネットワークをサイズの大きい集合に対して適用することができる.サイズの大きい集合データに対する教師データ作成のコストがかかる場合、小さいサイズの集合データを用いた学習を利用することでコストを抑えることができる.

ロバストなダイバージェンス推定量に基づく外れ値に頑健な近似ベイズ計算法の確立

Masahiro Fujisawa, Takeshi Teshima, Issei Sato, and Masashi Sugiyama. γ-ABC: Outlier-robust approximate Bayesian computation based on a robust divergence estimator. AISTATS2021

γ-ABC(jpn).png
  • 背景: 近似ベイズ計算 (approximate Bayesian computation, ABC) は“尤度フリー”なモデル推論法であり,シミュレーションが不可欠な様々な分野で応用されている.(例:進化生物学,経済学,天文学)

  • 問題: (1) ABCは,データ間の距離尺度を不適切に選ぶと,外れ値に敏感になり,精度が悪化する.(2) 多くの外れ値に汚染されたデータに対して理論的に頑健な距離尺度が存在しない.

  • 方法: k近傍法に基づく外れ値に頑健なγ-ダイバージェンスのノンパラメトリック推定量を構築し,ABCにおける距離尺度として利用.

  • インパクト:幅広い研究分野で,外れ値に激しく汚染された情報下においても,頑健にシミュレーションの遂行が可能になる.

不確実性二対比較から能動的に二値分類器を学習する手法を開発

Zhenghang Cui, and Issei Sato. Active Classification with Uncertainty Comparison Queries.
https://arxiv.org/abs/2008.00645.

cui_uncertainty.jpg
  • 背景: 従来の教師付き学習はデータとその明示的なラベルを必要とする.一方,データ間の二対比較は明示的なラベルよりラベリング時のユーザーの負担や間違いを軽減する場合があり用いられてきた.

  • 問題:二対比較データからの学習に対して既存法には,(1)ラベル推論のために不必要なクイックソートが行われる,(2)ソートにはノイズの多いフィードバックをそのまま使うため実用的な性能に悪影響を及ぼす.

  • 方法: 通常の二対比較に対して不確実性二対比較を組み合わせることを提案し,理論保証のある能動学習アルゴリズムを提案した。実際のユーザ評価実験によりその有効性を示した.

  • インパクト:人の嗜好など最初からカテゴリが明示的に分からないようなデータに対しても二対比較(AよりもBのほうが好き)を用いることで識別器(人の嗜好の判別)を学習することが可能となる.

人とAIをつなぐ対話的デザインギャラリーを開発

Yuki Koyama, Issei Sato, and Masataka Goto. 2020. Sequential Gallery for Interactive Visual Design Optimization.
SIGGRAPH 2020

siggraph2021.jpg
  • 背景:ビジュアルデザインにおいて複数のパラメータを同時に調整してより良いデザインを模索するプロセスは何度も試行錯誤する必要がある.

  • 問題: 複数のデザイン候補を同時に比べることでデザインを模索しやすくなるデザインギャラリーという方法があるが、ユーザ毎に嗜好は異なるため配置の仕方を予め決めることができない.

  • 方法:ベイズ最適化により過去のデザイン選択履歴から学習し複数のデザインを配置する空間をユーザに合わせて提示できるようにする.

  • インパクト:複数候補の中から好みのデザインの選択(クリック)を繰り返すだけの簡単なインターフェースなので,仮想現実空間でAIとの対話的ビジュアルデザインも可能になる.