競馬予想モデルを開発する際の最も重要なことの一つに「何を予想するのか?」という目的変数設定の問題があります。これは流行りの機械学習であれば、何が良くて何が悪いかを学習させるのかという問題です。
競馬予想における一般的な目的変数としては下記のものが挙げられます。
- 単勝・複勝
- 着順
- 単複回収率
- 着差
- タイム
何を予想するのかの設定によって、競馬予想モデルの優劣は大きく変わり、またその予想モデルの特徴を大きく決定づけることになります。
そのため、それぞれの目的変数のメリット・デメリットをよく理解したうえで、競馬予想モデル開発を行なっていく必要があります。
この記事では、この競馬予想モデル開発における「何を予想するのか?」という目的変数の設定について、その第一弾として単勝・複勝を予想することについて考えていきたいと思います。
この記事はこんな人向けです。
- 競馬予想AIを開発したいと思っている方
- 競馬予想AIや統計に関心のある方
- 他の人が作ったAI予想を利用しているが,その中身が気になる方
単勝・複勝の予想モデル
最も単純な競馬予想モデルとしては、単勝・複勝を目的変数が挙げられます。変数の構築としては、単勝の場合「1着であれば1、それ以外は0を取るダミー変数(1, 0)」、複勝の場合「3着以内であれば1、それ以外であれば0を取るダミー変数(1, 0)」という形です。
ざっくり言えば、この単勝・複勝の変数が1をとるサンプルであればそれを評価し、0をとるサンプルであれば評価しないという形です。
目的変数が(0, 1)の2値変数をとるので、重回帰分析であればlogitモデルやprobitモデル、機械学習であれば2値変数の決定木モデルを使うことが一般的です。
メリット・デメリット
単勝・複勝予想のメリット
単勝・複勝予想のメリットは、いくつかあるとは思いますが、一番大きいメリットは「予想勝率・複勝率という形で予測値を出せる」ということだと思います。
競馬予想における回収率をアップさせるためには、過大人気馬・過小人気馬を見つけ出すことが重要ですが、そのためにはいわゆる「真の確率(勝率・複勝率)」を推定し、そこから計算された推定オッズそれと実際のオッズを比較するのが最もな正攻法です。その後、推定オッズ>実際のオッズであれば過大評価馬として買わない、推定オッズ<実際のオッズであれば過小評価馬(期待値のある馬)として買うという戦略が取れます。
単勝・複勝を予想する場合、その予測値は基本的には、(推定された)勝率・複勝率として算出されるため、そこから推定オッズを計算することができます
推定単勝オッズ=(1−0.2)/ 予想勝率
※ここで0.2は控除率です。
従って、この単勝・複勝予想は競馬予想における王道ということができるでしょう。
単勝・複勝予想のデメリット
一方で、この王道の予想には、多くのデメリットも存在します。
- 上記のオッズの比較は「真の確率(単勝・複勝率)」を高精度で予想できていることを前提としているので、予想モデルの精度が高くなければあまり意味はない。
- 2値変数の予想モデルは、統計的に正規分布に近い連続変数を予測するOLS(最小二乗法)などのモデルに比べて精度が低い。
- それぞれのレースにおける相対的な強さ予想する必要があるため、レースごとの説明変数の標準化が必要。また、レースレベル(G1と未勝利戦)をごっちゃに予想するのはあまり良くない。
- (0, 1)の2値変数にすることで情報量が低下する。
統計的には、特に3つ目と4つ目の情報量に関するデメリットが最も問題です。何を言っているのかというと、単勝のダミー変数であれば、例えば、下記の2頭が同じ評価になってしまいます。
・単勝オッズ1.5倍で順当に1着になった馬
・単勝オッズ100倍で大穴を開けて1着になった馬
他にも、
・G1レースで10馬身差つけて圧勝した馬
・未勝利戦でハナ差の僅差で勝った馬
目的変数上、上記の例はすべて勝ちであり、1をとることになりますが、回収率の高低や強さの程度に関する情報がこの目的変数からは抜けてしまっています。
競馬予想モデル特に機械学習(AI)においては、情報量が最も多くなるようにチューニングされるため、この情報量の低下は非常に問題になります。
デメリットを改善するための工夫
この情報量に関するデメリットをある程度改善するための工夫の一つとしては、単勝ダミーの場合「着差が0秒の2着ならば順位を繰り上げる」というやり方があります。複勝ダミーの場合は「3着馬との着差がなければ3着以内とする」という感じです。
それでも、回収率に関する情報やレースレベル等に関する情報は欠落してしまうので、回収率や着差のような他の目的変数と組み合わせて予想していくしかありません。
また、1と2のデメリットとも関連しますが、とにかく予想モデルの精度を上げていくことが重要です。予想精度を限りなく高め「真の確率(単勝・複勝率)」を推定し、それを実際のオッズと比較することができればすべての問題は解決します。
そのため(統計的に問題がない程度に)さまざまな予想ファクターを使って予想していくことが重要でしょう。ただし、非常に険しく長い道のりになることは間違いありません。
単勝・複勝予想まとめ
単勝・複勝の予想は競馬予想モデルの王道です。目標は実際のオッズから導かれる勝率を超える精度の予想モデルを開発することにあります。ただし,いくつかの欠点によりその道のりは長く険しいです。様々な予想ファクターを工夫しながら活用し,地道にモデルを改善していくことが必要になります。