교육 2일 차에는 Microsoft 측에서 제공해주는 VM을 가지고 Azure의 Designer을 이용한 Regression(회기 분석)과 Classification(분류) 두 가지 실습을 했다.
- Microsoft Azure Machine Learning Studio
Azure : Microsoft에서 제공하는 클라우드 서비스 이름
Machine Learning Studio : 머신 플로우

Azure Designer
코딩 작업 없이 머신 러닝 솔루션을 개발할 수 있는 데이터 준비에서 모델 배포로 끌어서 놓기 인터페이스

위 사진에 있는 다양한 Designer 中 Easy-to-use prebuilt modules을 이용했다.

Easy-to-use prebuilt modules에 들어가면 다음과 같은 화면이 나온다.

왼쪽 빨간 박스 표시가 되어있는 부분은 머신러닝에 사용되는 TOOL들이 있고 오른쪽 파란색 박스 표시가 되어있는 부분은 디자인을 할 수 있는 Canvas 부분이다. Tool들을 canvas에 끌어와 원하는 디자인을 만들면 된다.
Regression(회기 분석)
Train Data를 토대로 연속된 값(그래프)을 예측하는 문제로 값을 예측할 때 사용된다. (통계학에서도 많이 쓰임)
즉 답이 1, 0처럼 딱 떨어지지 않고 어떤 수나 실수로 예측될 수 있다.
Canvas에 아래와 같이 Tool을 나열하여 Regression(회기 분석)을 실습했다.

1. Enter Data Manually
데이터를 수동으로 입력

2. splitdata
모든 데이터를 전부 학습시키지 않고 일부는 Train Data(학습용 데이터) 나머지는 Test Data(테스트용 데이터)로 사용하기 위해 나누는 작업


- Fraction of rows in the first output dataset = 0.8
80%는 TrainData, 20%는 TestData로 나눈다는 의미
- Randomized split = True
입력한 순서대로 정렬하여 자른다면 테스트하든 학습하든 한쪽으로 편향될 확률이 높다.
따라서 랜덤으로 정렬을 한 번 해준 다음 나누는 작업을 실시할 수 있도록 True로 설정했다.
- Train Data
split data에서 왼쪽 동그라미는 80%의 Train Data를 의미한다.

- Test Data
split data에서 오른쪽 동그라미는 20%의 Test Data를 의미한다.

3. Linear Regression, Train Model
Regression 계열의 알고리즘 (회기 분석 중 제일 단순한 알고리즘)
Train Model의 왼쪽에 Linear Regression(회기 분석) 알고리즘을 연결하고 오른쪽에 데이터를 연결한다.

4. Train Model
Train Model의 왼쪽 동그라미에는 알고리즘을 연결하고 오른쪽 동그라미에는 Train Data(Split Data의 왼쪽 동그라미)를 연결해야 한다.

※ Train Model 옆에 주의 표시가 나타난 이유
컬럼 중 어떤 것이 Label인지, Feature인지 알 수 없어서 주의 표시가 나타난다.
따라서 Label column을 작성해주면 된다.

입력한 Dataset을 확인하면 다음 사진과 같이 입력한 데이터들을 확인할 수 있다.

히스토그램 - 데이터의 분포를 볼 수 있도록 시각화를 해준다.
학습을 하였으니 제대로 학습이 되었는지 확인하기 위해서 Score Model을 사용하여 점수를 측정해보고, Evaluate Model을 통해 전체적인 평가를 한다.
5. Score Model
점수를 측정하기 위한 모델

6.7년 동안 일한 사람의 연봉은 5400인데 테스트 결과는 7012가 나왔으니 결과가 높게 나왔다.
8.3년 동안 일한 사람 또한 6700인데 테스트 결과는 8385가 나왔다.
따라서 이 모델은 오차가 생각보다 큰 모델임을 알 수 있다.
5. Evaluate Model
실제 데이터가 너무 많을 때는 눈으로 오차들을 확인하는 것이 불가능하기 때문에 Evaluate Model을 사용하여 학습결과를 바탕으로 전체적인 평가를 한다.

- Mean Absolute Error(MAE; 절대 평균 오차)
전체 에러들을 다 합친 다음 평균값을 구하는 것

Mean absolute error - Wikipedia
In statistics, mean absolute error (MAE) is a measure of errors between paired observations expressing the same phenomenon. Examples of Y versus X include comparisons of predicted versus observed, subsequent time versus initial time, and one technique of m
en.wikipedia.org
- Mean Squared Error(MSE; 평균 제곱 오차)
오차의 제곱에 대해 평균을 취한 것(값이 작을수록 원본과의 오차가 적은 것 -> 정확도가 높음)
오차가 너무 작아서 모아도 잘 안 보일 때가 있다 따라서 오차를 크게 만들어 오차를 더 잘 보이게 한다.

Mean squared error - Wikipedia
From Wikipedia, the free encyclopedia Jump to navigation Jump to search Measure of the error of an estimator In statistics, the mean squared error (MSE)[1] or mean squared deviation (MSD) of an estimator (of a procedure for estimating an unobserved quantit
en.wikipedia.org
- Root Mean Squared Error(RMSE)
MSE의 문제점 : 다른 오차들을 다 작은데 한 개의 오차만 클 때 해당 오차를 제곱해버리면 숫자가 너무 커버려 ERROR가 난다. 따라서 루트를 하나 씌워 너무 숫자가 커져 오류가 생기는 것을 방지 -> RMSE
내용이 많은 관계로 두 번째 실습은 다음 게시물에서,,,
'AI' 카테고리의 다른 글
Microsoft 인공지능 교육 2일차(2) (22.01.11) (0) | 2022.03.08 |
---|---|
Microsoft 인공지능 교육 1일차 (22.01.10) (0) | 2022.01.12 |
[AI] 기계학습(Machine Learning) (0) | 2022.01.12 |
댓글