2021 年度研究室紹介特設ページ
最終更新日: Sun Nov 29 15:42:59 JST 2020
 
 
森本研究室とは
  統計科学全般を研究しています. 特に, 金融データの解析を専門としていますが, データなら何でも良いです. 登山家が「なぜ山に登るのか?」と問われて「そこに山があるから. 」と答えるのと同様(同じか!?), 統計家は「そこにデータがあるから」, 「データを分析する」のです.
 
データサイエンスについて

intro_ads_2021_DS_slides.pdf

[主要参考文献]
  • 濱田 悦生, 狩野裕 (編集) (2019) データサイエンスの基礎, 講談社
 
P 値について

intro_ads_2021_PV_slides.pdf

[主要参考文献]
  • 柳川 堯 (2018) P値:その正しい理解と適用, 近代科学社
  • 豊田 秀樹 (2020) 瀕死の統計学を救え!, 朝倉書店
 
研究室の様子
Laboratory scenery 1
Laboratory scenery 2
Laboratory scenery 3
 
過去の修論紹介
様々な推定方法によるバリュー・アット・リスクの比較分析
ファイナンスにおける定量的なリスク管理であるバリュー・アット・リスク (Value at Risk, 以下 VaR) の推定方法に対する比較分析を行った. VaR の定義は確率密度関数の分位点であると言うことが出来る.そして, VaR を推定するための方法としては何種類も報告されている.そこで, 色々な推定方法を簡単に説明した後, データが単変量, 多変量のそれぞれの事象に対して, シミュレーション及び日米の株価日次データを用いた実証分析の各手法による精度の比較を行った.
 
 
多変量確率的ボラティリティモデルの MCMC による推定
金融や株価という言葉を聞くときにリスクという言葉も一緒に耳にすることがある. リスクとは金融においては不確実性を指す. その不確実性を予測する方法として時系列分析をこの研究では行う. ファイナンスにおいて``株価ボラティリティ''というものが重要なものとされている. 株価ボラティリティとは, 簡単にいうと株価変化率の分散ないしは標準偏差のことであり, 上がるか下がるかは別にして株価がどれだけ変動するか (不確実か) を表すものである. 株価ボラティリティを推定することがこの研究の主な目的である. ノーベル賞を取った Black and Scholes (1973) など初期の研究ではボラティリティは一定と仮定されていたが, ボラティリティは一定ではなく時間変化しており, ボラティリティは過去の影響を受けていると考えた. ボラティリティが変動していることをボラティリティ変動モデルとよび, そのモデルは大きく分けて 2 つある. 1 つは Engle (1982) の ARCH モデルや Bollerslev (1986) がこれを拡張した GARCH モデルである. そしてもう 1 つが確率的ボラティリティ変動モデル (SV モデル) である. 今回の内容として ARCH モデルを紹介し, SV モデルとの違いを考え, SV モデルをさらに発展させて多変量確率的ボラティリティモデル (MSV モデル) について Ishihara and Omori (2010) の内容を参考にし, 追加でシミュレーションを行った.
 
 
時系列トピックモデルを用いた株式市場の分析

[研究概要] 時間情報を考慮したトピックモデル (Online Multiscale Dynamic Topic Model[5]) を用い, 時間情報を持ったニュース記事に対してトピックを割り当て, 記事集合内のトピックの時間発展を推定する. 推定したトピックの時系列変化と東証株価指数 (TOPIX) のボラティリティとの関連を調べる.

[研究背景と目的] 近年, 情報科学や経済学において, 検索指数やオンラインニュース記事, ブログなどのウェブ上の情報を用いた実世界の動向分析が盛んに研究されている. 経済に関する研究としては Google Search Volume Index (SVI) を用いて車や家の売上の予測をおこなったVarian らの研究 [3], ニュースのヘッドラインや Google SVI を株価のボラティリティ予測に用いた Vlastakis らの研究 [8] などがある. [3], [8] を含む, これまでのウェブ上の情報を用いた経済分析では, 特定のキーワードの検索頻度や出現頻度を用いていた. しかしこの手法ではキーワードとして選ぶ単語に大きく結果が左右される場合があるほか, 表記ゆれにも弱い. また複数の意味を持つ単語をうまく扱うことができない. これらを踏まえ, 本研究ではキーワードではなく, トピック (話題) を用いた分析を試みる. 本研究では分析対象として東証株価指数 (TOPIX) の日次ボラティリティを用いる. ある資産のボラティリティとはその資産の収益率の分散で定義され, 値動きの激しさを表す指標である. ボラティリティはリスクを計る重要な指標であり, ボラティリティを推定, 予測する研究は金融工学, 計量ファイナンス分野において盛んに研究されている. ただし, ボラティリティは潜在変数であり直接観測することはできないので, 本研究では真のボラティリティの代理として高頻度データから算出したリアライズドボラティリティを用いる. 本研究ではオンラインニュースを日次単位でトピック分析し, 各トピックの時間変化と, TOPIX のリアライズドボラティリティの関係を調査する. 具体的にはリアライズドボラティリティの時系列モデルの外生変数として, 各トピックのスコアを用い, 時系列モデルの予測力が向上するかどうかをみる.

[参考文献] [3] Hyunyoung Choi and Hal Varian. Predicting the Present with Google Trends. Technical report. [5] Tomoharu Iwata, Takeshi Yamada, Yasushi Sakurai, and Naonori Ueda. Online multiscale dynamic topic models. In Proceedings of the 16th ACM SIGKDD international conference on Knowledge discovery and data mining, KDD ’10, pages 663–672, New York, NY, USA, 2010. ACM. [8] Nikolaos Vlastakis and Raphael N. Markellos. Information demand and stock market volatility. Journal of Banking Finance, 36(6):1808-1821, 2012.

 
 
多変量 Realized GARCH モデルによるボラティリティの予測
株価のボラティリティとは株価変化率の分散ないし標準偏差のことであり, 上がるか下がるかは別にして株価がどれだけ変動するかを表すものである. その変動特性を明らかにすることは, 金融資産のリスク管理を行ううえで不可欠なことである. こうした理由から, 株価の時系列分析では, 近年, ボラティリティの変動を定式化するボラティリティ変動モデルに注目が集まっている. 本論文では ARCH(Autoregressive Conditional Heteroskedasticity) 型モデルに Realized Volatility を加えた Realized GARCH モデル (Hansen et al. [2011]) をさらに多変量に拡張した多変量 Realized GARCH モデル (Balter [2015]) を用いて株価のボラティリティを予測することを目的にする.
 
 
時変パラメータ VAR モデルによる原油価格が株式市場に与える影響について
日本は原油などのエネルギーをほぼすべて海外からの輸入に頼っているので, 原油価格が上昇することにより, 日本経済に悪影響を与えると言われている. 原油価格と株価の因果関係を分析した論文として, Apergis and Miller (2009), Barsky and Kilian (2002,2004), Killian (2008) といったものがあり, 分析手法として VAR (Vector AutoRegressive) モデルを用いている. ここで, 日々変化している株価において, パラメータが時間を通じて一定である VAR モデルでは, 推定値にバイアスが生じるのではないかと考えた. そこで, 係数と構造ショックの分散を時間によって変動する時変パラメータVAR モデルの先行研究として, Primiceri (2005) , 中島, 渡部 (2012) があり, 時変パラメータ VAR モデルを用いることによって, 株価の変動をうまく捉えることができるのではないかと考え, この研究を始めようと考えた.
 
 
MATLABStan を用いた ST-GARCH モデルのベイズ推定
21 世紀になり, 統計学における多くの著名な学術雑誌の論文が, ベイズ統計学を利用している. 迷惑メールのメールフィルタ等にも使われており, ベイズ統計学は日々の私たちの生活も支えてくれている. ベイズ理論が様々な分野で活用されている今, ベイズ統計なしではデータ分析を語ることができない. もともとベイズ統計学は簡単なモデルしか実行できなかったが, 高次分積分を近似する数値的方法が次々と利用されるようになり, 複雑な統計モデルの事後分布をシミュレートすることが可能になった. 例としてマルコフ連鎖モンテカルロ法, ハミルトニアンモンテカルロ法などが挙げられる. これらはどう解くかの数式を考えなくて良いため, 適用分野のモデル構成に集中できるようになり, 統計学が専門でないデータ分析者にとって, 大きなメリットがあった. さらに, 確率的プログラミングの進歩や, 大規模なデータの入手が可能になったことなどから, ベイズ統計を扱うプログラムが多く作られた. その中でも R や Python, Matlab 等, 様々な統計ソフトに対応していること, 推定したいパラメータの数が多くても, 効率的にサンプリングできる事などから今人気が上がっている, Stan というフリーソフトに注目した. Stan はハミルトニアンモンテカルロ法が使われており, ベイズ統計モデリングをしたり, 回帰分析や階層モデル, 状態空間モデルなどの高度なモデルにも対応している. さらに, ユーザーがそれらのカスタマイズをすることも可能である. この Stan を Matlab で動かし, AR モデル, STAR モデル, GARCH モデル, ST-GARCH モデルと段階を踏んで推定していく.
 
 
ファクターモデルを用いた株式実証分析
本研究では様々な資産クラスの中から最も豊富なデータが得られる株式に絞って取り扱う. ファクターの算出方法については確立された手法は存在しないが, 日米間において比較可能性を保持するために Famaand French (2015) に倣い, ファクターモデルを取り扱うために必要となる各種ファクターの算出した. 次に, Fama and French (2015) における 5 ファクターモデルに加えて Jagadeesh and Titman (1993) らが提唱した MOM ファクターを加えた計 6 つのファクターを用いて日本株, 米国株それぞれについてファクターモデルを用いてモデリングし検証を行う. 検証方法については代表的株価指数である日経 225 と S&P500をそれぞれ日本株ポートフォリオ, 米国株ポートフォリオと見立て 6 つのファクターをどのように組み合わせれば説明力の高いモデルを構築することができるのかについて Gibbons, Ross and Shanken らによるマルチファクターモデルの妥当性を調べるための仮説検定である GRS 検定を用いて検証を行い. 日本株 (日経 225) , 米国株 (S&P500) がどのようなファクターによって説明が可能であるのか考察する.
 
 
地震データ解析における統計モデル
数理統計学において地震データを解析するためには, 確率点過程 (Stochastic Point Process) の考え方が不可欠である. 確率点過程は, 不規則かつ突発的で極めて稀にしか発生しない事象の生起時刻を確率的に表現する数学モデルである . その中でも , 条件付き強度関数 (Conditional Intensity Function) \(\lambda(t|H_{t})\) が中心的な概念として幅広く扱われている. これは地震が発生する逼迫度を表しており, 地震の確率予測の実用化には条件付き強度関数の具体的なモデル化を進めることが最も重要であると考えられている.
 
 
ミツバチの行動分析-主成分分析・ベイジアンネットワーク-
研究の目的は, ミツバチに最も適した環境を数理統計の分析手法を駆使して推定することにある. 近年ミツバチは減少する傾向にあるとされ, 絶滅の危機が迫っているという危惧までされている. ミツバチの減少については蜂群崩壊症候群 (CCD) と呼ばれる現象が発端とされ, 現在では大きな問題となっている. また, 原因としてネオニコチノイド系農薬, ダニや寄生虫, 温暖化など様々な説が浮上していているが, 未だに具体的な結論が出ていない状況である. 本課題では, 直接的な対策ではなくミツバチの数を増やしていくといった観点から, ミツバチがより繁栄しやすい環境について, 主成分分析・ベイジアンネットワークという分析手法により推定している. データはミツバチの外出時間, 平均気温, 日照時間, 降水量, 湿度を要素として用い, 2 つの分析手法を通して, 要素間の相関関係や因果関係について結果を残した.
 
 
ヴァインコピュラを用いたリスク管理
本研究では国内株式と海外株式から構成される株式ポートフォリオを対象に, リスクファクターとして主要株価指数を取り扱う. ポートフォリオの構成には適切な分散効果を把握することが不可欠であるため, 資産間の依存構造を捉えるモデルを導入することでリスク管理に繋げたいと考える. コピュラは, 依存構造を扱うツールとして注目を集めている関数である. 本研究はヴァインコピュラと呼ばれるペアごとに依存関係を定める手法を用いた収益率のシミュレーションを行う中で, 各時点でのヴァインコピュラの構造に焦点をあてることによってヴァインコピュラの有用性を考察する.
 
 
日経新聞を用いた LDA と Word2Vec の比較分析
自然言語処理で多く用いれられる Latent Dirichlet Allocation [Blei+ 2003] (潜在ディレクレ配分モデル, 以下, LDA) と Word2Vec [Mikolov+ 2013] をテキストデータに適用する. 日本経済の動向が記載された記事に対して, それぞれの特徴を生かし, LDA ではトピック分布を用いて特徴抽出する. Word2Vec では単語間の相関を考慮し, 特徴抽出することで日経平均株価の値動きの識別サポートベクターマシン [Vapnik+ 1992] を用いて行うことで両者の比較を行う.
 
 
Dependency Structure Analysis of the Japanese Stock Market Based on a Graphical Model
Estimating the covariance is a fundamental element in financial practices like asset allocation and risk management. In recent years, many researchers have tackled the estimation of high-dimensional covariance using high-frequency data. The graphical lasso is one of the procedure. The graphical lasso, which was proposed by Friedman et al. (2008), is a high-speed algorithm. Brownlees et al. (2018) proposed realized networks that applied to high-frequency financial data. The estimator can estimate nonzero partial correlation among daily log prices. Then, the set of nonzero partial correlations can be described as networks. The purpose of this paper is to analyze the dependency structure between stocks in the Japanese stock market based on the estimated network.
 
 
金融資産収益率の共分散行列の予測において半正定値性を保証したモデル
金融資産収益率の共分散行列予測モデルを新たに提唱し, 日本の株式データを用いた実証分析により既存のモデルと予測力を比較する. 金融資産収益率の共分散行列予測モデルには, 予測される行列が対称性と半正定値性を持つこと, 収益率の分散および共分散がそれらの過去の値に強く依存するという現象を説明する機能を備えること, の 2 つの要件を満たすことが求められる. Golosnoy et al. (2012) による Conditional Autoregressive Wishart (CAW) モデルはこれらの要件を満たす予測モデルである. 本研究では, CAW クラスの新たなモデルを提唱し, 提唱したモデルと既存の予測モデルとを予測力に基づいて比較する.
 
 
整数値時系列モデルによる株価収益率におけるジャンプの推定
株価収益率の突発的な変動 (ジャンプ) はリスクを回避するという意味において計量経済学における重要な概念である. 実際, 今まで金融時系列におけるジャンプに関する先行研究は数多く出版された. しかし, これまでの先行研究は過去のジャンプの検出及び推定に主眼が置かれたものが多かった. つまり, ジャンプそのものの推定や予測を取り扱った文献は少ない. そのため, ジャンプを計測し時系列モデルに当てはめられないかと考えた. 実際にジャンプをモデル化するにあたって考えられるモデルに整数値を扱う点過程モデルが挙げられる. そして, 点過程モデルの中で最も基本的であり一般的なモデルとしてはポアソン分布を用いたモデル化である.
 
過去の博論紹介
Extension of Realized Stochastic Volatility Model: Using Generalized Student's t-Error Distributions and Power Transformations

This dissertation studies extensions of realized stochastic volatility model with leverage effect (LRSV model) in two ways. First, the conditional distribution of returns given the latent volatility process is assumed to accommodate flexible skewness and heavy-tailedness such as non-central Student-t (NCT) and generalized hyperbolic skew Student-t (SKT) distributions. Second, the volatility process is specified as a non-linear function on the basis of the exponential, modulus, and Yeo-Johnson transformations to the lagged log volatility.

To overcome a problem of computational efficiency, this dissertation first analyzes the computational efficiency of multi-move Metropolis-Hastings (MM-MH), Hamiltonian Monte Carlo (HMC), and Riemann manifold HMC (RMHMC) samplers using computational experiments on Tokyo Stock Price Index (TOPIX) data for the leveraged stochastic volatility model. In terms of autocorrelation time, the empirical results show that the RMHMC sampler is slightly more efficient than the MM-HMC sampler, which is slightly more efficient than HMC sampler. An advantage of HMC and RMHMC samplings is that these samplers update the entire latent volatility at once.

This dissertation applies the RMHMC sampler to the LRSV model with generalized Student’s t-error distributions. The computationally RMHMC procedures are developed to update latent variables and parameters that are unable to be sampled directly. Empirical studies on daily returns and four realized variance (RV) estimators of the TOPIX over 4-year and 8-year periods demonstrate that Bayes factor criterion favors the proposed LRSV model against both LRSV models with normal distribution and heavy-tailed distribution for all four RVs in each period. In particular, the LRSV model with SKT distribution outperforms the LRSV model with NCT distribution.

In the second extended LRSV model, the HMC sampling procedures are developed to update the latent volatility and transformation parameter, whereas the other parameters that could not be sampled directly are updated by the RMHMC sampler. Empirical results using TOPIX data show that the Bayes factor criterion indicates that the non-linear version of LRSV model outperforms the linear version of LRSV model. In particular, the modulus transformation best fitted the returns data having a very high kurtosis and worst fitted the returns data having a small kurtosis. Additionally, the performance of model with modulus transformation showed considerable robustness for priors with very diffused distributional behaviour.


Valid HTML 4.01 Strict