sklearn.model_selection, train_test_split で、やっていることがわからなくて、
つまづいた。
sklearnの公式ドキュメント (https://scikit-learn.org/stable/modules/generated/sklearn.model_selection.train_test_split.html) を見ても、イメージが掴めず。
その後、PyQ の日本語ドキュメントを発見し、図入りの説明で少し安堵。
1つのデータセットを、訓練データ(x_train, t_train)と検証用(x_val, t_val)データに分割するってことがわかった。割合は、test_size で%テージで決められる。
1 2 |
from sklearn.model_selection import train_test_split x_train, x_val, t_train, t_val = train_test_split(x, t, test_size=0.3, random_state=0) |
↑の場合は、30%が検証用、70%が訓練用となる。
何も指定しない場合は、default: 0.25 が検証用として設定される。