사이킷런 머신러닝 - 붓꽃데이터, feature&label개념, train_test_split, 교차검증(K fold, straighted Kfold)
|2023. 2. 8. 20:03
K폴드 실습코드
from sklearn.tree import DecisionTreeClassifier
from sklearn.metrics import accuracy_score
from sklearn.model_selection import KFold
import numpy as np
iris = load_iris()
features = iris.data
label = iris.target
dt_clf = DecisionTreeClassifier(random_state=156)
# 5개의 폴드 세트로 분리하는 KFold 객체와 폴드 세트별 정확도를 담을 리스트 객체 생성.
kfold = KFold(n_splits=5)
cv_accuracy = []
print('붓꽃 데이터 세트 크기:',features.shape[0])
n_iter = 0
# KFold객체의 split( ) 호출하면 폴드 별 학습용, 검증용 테스트의 로우 인덱스를 array로 반환
for train_index, test_index in kfold.split(features):
# kfold.split( )으로 반환된 인덱스를 이용하여 학습용, 검증용 테스트 데이터 추출
X_train, X_test = features[train_index], features[test_index]
y_train, y_test = label[train_index], label[test_index]
#학습 및 예측
dt_clf.fit(X_train , y_train)
pred = dt_clf.predict(X_test)
n_iter += 1
straighted K fold 실습코드
'머신러닝 기초 > 파이썬 머신러닝(인프런)' 카테고리의 다른 글
사이킷런 머신러닝 - 데이터 전처리, 인코딩, 스케일링 (0) | 2023.02.14 |
---|---|
사이킷런 머신러닝 - cross_val_score(), GirdSearchCV(), 하이퍼 파라미터 (0) | 2023.02.13 |
pandas 개념 : Index, 인덱싱과 필터링, loc iloc 불린, groupby, 결손데이터, nunique, replace, 람다식 (0) | 2023.02.04 |
pandas 개념 : list, dic, 넘파이ndarray 상호변환 & 칼럼 데이터셋 수정 (0) | 2023.01.28 |
pandas 개념 : value_counts() (0) | 2023.01.28 |