2일 차에는 Designer을 이용한 Regression(회기 분석)과 Classification(분류) 두 가지 실습을 했다.
Regression(회기 분석) 실습
Microsoft 인공지능 교육 2일차(1) (22.01.11)
교육 2일 차에는 Microsoft 측에서 제공해주는 VM을 가지고 실습을 진행했다. Microsoft Azure Machine Learning Studio Azure : Microsoft에서 제공하는 클라우드 서비스 이름 Machine Learning Studio : 머신 플..
young-library.tistory.com
이어서 Classification(분류) 알고리즘을 이용해 타이타닉 데이터 자료로 생존 여부를 예측하는 실습을 기록하겠다.
Classification(분류) 계열의 다양한 알고리즘
MultiClass : 여러 개 中 하나를 맞추는 알고리즘
Two-Class : 2개 中 하나를 맞추는 알고리즘
Classification(분류) 알고리즘을 이용해 타이타닉 데이터 자료로 생존 여부를 예측하는 실습
주어진 타이타닉 데이터 파일을 이용하여 어떤 조건을 가진 사람이 살고 어떤 조건을 가진 사람이 죽는지 예측하는 실습을 했다.
위와 같은 손님 데이터 파일이 있다고 하면
Label(생존 여부)를 예측하기 위해 전체 데이터를 다 사용하는 것이 아니라 생존 여부에 영향을 직접적으로 미치는 컬럼들만 선별해야 한다.
1. 새로운 Datasets 만들기
From local files를 선택해 local 컴퓨터에서 파일을 가져와 데이터를 만든다.
- Delimiter - 데이터는 무엇으로 구분되어있는가?
불필요한 컬럼들을 끌 수가 있다.
위와 같은 작업들을 마치면 아래와 같이 Titanic Dataset이 생성된 것을 확인할 수 있다.
2. Titanic
3. Select Columns in Dataset
필요한 데이터만 선택할 수 있게 한다.
4. Clean Missing Data
데이터에 Null 값이 있을 때 해당 값을 가진 row를 삭제하거나 다른 Tool을 사용하여평균값으로 채운다.
- Remove entire row : row 단위로 삭제한다. (데이터 자체가 영향을 미치지 못하도록 빈 값이 있으면 삭제)
- Replace with mean : 평균치로 채운다.
※ 삭제 전 (Rows : 891)
※ 삭제 후 (Rows : 714)
5. Split Data
모든 데이터를 전부 학습시키지 않고 일부는 Train Data(학습용 데이터) 나머지는 Test Data(테스트용 데이터)로 사용하기 위해 나누는 작업
- Fraction of rows in the first output dataset = 0.8
80%는 TrainData, 20%는 TestData로 나눈다는 의미
- Randomized split = True
입력한 순서대로 정렬하여 자른다면 테스트하든 학습하든 한쪽으로 편향될 확률이 높다.
따라서 랜덤으로 정렬을 한 번 해준 다음 나누는 작업을 실시할 수 있도록 True로 설정했다.
6. Two-Class Decision Forest
Classification 계열의 알고리즘
7. Train Model
Train Model의 왼쪽 동그라미에는 알고리즘(Two-Class Decision Forest)을 연결하고 오른쪽 동그라미에는 Train Data(Split Data의 왼쪽 동그라미)를 연결해야 한다.
Label column : Survived(최종적으로 예측할 목표)
8. Score Model
점수를 측정하기 위한 모델
거의 예측을 잘했음을 알 수 있다. (높은 성공률)
9. Evaluate Model
실제 데이터가 너무 많을 때는 눈으로 확인하는 것이 불가능하기 때문에 Evaluate Model을 사용하여 학습 결과를 바탕으로 전체적인 평가를 한다.
Accuracy(정확도) : 0.902 -> 90%의 확률로 예측 성공
노란색으로 표시된 대각선이 예측을 성공한 부분이다.
1을 1로(46번), 0을 0으로(83번) 예측 성공
0을 1로 예측한 경우는 4번
1을 0으로 예측한 경우는 10번이다.
'AI' 카테고리의 다른 글
Microsoft 인공지능 교육 2일차(1) (22.01.11) (0) | 2022.03.07 |
---|---|
Microsoft 인공지능 교육 1일차 (22.01.10) (0) | 2022.01.12 |
[AI] 기계학습(Machine Learning) (0) | 2022.01.12 |
댓글