研究概要
競馬は馬に騎手が乗り順位を競う競争競技を同時に、国や地方自治体によって経営されている公営賭博である。競馬ファンは競馬のレースの着順を予想しそれにお金をかけることにより楽しんでいる。この予想方法とは、過去のレース結果を見て予想するファンもいれば、当日の馬や騎手の状態、競馬場の特徴、または当日のオッズ変動を見て予想するファンもいる。近年では人工知能を用いて競馬予想するソフトも存在しており、中央競馬を開催している日本中央競馬会(JRA)も競馬予想ソフトを提供している。本研究では人工知能の一種である機械学習を使用し的中率を100%に近づけることを目標とし競馬予想を行なっていく。
研究方法
本研究では2019年から2021年の3年間の中央競馬のレース結果を対象とし、この3年間のデータを学習させることによって、馬券に関係してくる1着になる馬、2着になる馬、3着になる馬と、馬券には関係してこない4着以下になる馬を予想する。以下の画像が今回使用したデータだ。

今回の予想を行うに至って使用した機械学習手法として、ロジスティック回帰分析を選択した。ロジスティック回帰分析はPythonを用いて行う。目的変数は着順のデータを1着馬は1、2着馬は2、3着馬は3、4着以下の馬は全て4と加工したrank、説明変数は、枠番、馬番、斤量、タイム、単勝、人気、年齢、体重、前走との体重変化、馬名、騎手、性別を使用した。また目的変数として使用しているrankには4が約8割存在して予想に偏りが出ると考え、アンダーサンプリングを行った。機械学習を行う際、使用データを訓練データとテストデータに分けて学習させた。
研究結果
結果としてテストデータの的中率は56%となった。また以下の画像は予想された各着順の実際の着順と的中率を示している。

この画像からわかるように4着以下と予想された馬の的中率は93%と高いが、1着と予想された馬の的中率は20%、2着と予想された馬の的中率は11%、3着と予想された馬の的中率は8%と馬券に関係する着順の的中率は低かった。
考察とまとめ
競馬予想として的中率が56%なのはかなり優秀な方だった。しかし予想の内容を見たところ的中しているのは4着以下と予想された馬で、1着2着3着と予想された馬の的中率は悪く、馬券を買うための予想としては不向きだとわかった。また的中率をあげようと説明変数にレース距離、天気、コースの種類、馬場状態を追加して再度学習させたが、的中率は48%と的中率が下がってしまった。より的中率を上げるのであれば、ロジスティック回帰分析とは別の機械学習手法で試みる必要がある。
コメント