지난 시간까지 "파이썬"에 대한 기초 학습 및 여러 모듈을 사용할 수 있는 시간을 보냈었고, 이번주부터 "머신러닝"에 대한 학습을 시작하였습니다. 프로그래밍보다는 이론 학습이 중요해 학습하는데 어려움이 있었지만 중간에 실습 과제를 통해 이해하고 사용하는데 많은 도움이 되었습니다. 어려운 내용인 만큼 학습하는데 오랜 시간이 투자되었습니다.
Liked
이전 학습의 미니 프로젝트에서 시중에 공유된 데이터 셋을 가지고 Streamlit 을 통해 해당 데이터 셋을 시각화하는 활동을 진행했었는데, 그때 당시 비어 있는 데이터들, 공통되지 않은 데이터들을 어떻게 처리할 지에 대한 고민이 있었습니다. 그래서 그때는 그러한 데이터들을 제외시킨 후 진행했었는데, "머신러닝" 수업 첫 시작에서 데이터 전처리 와 관련된 수업을 들을 수 있었고, 각 데이터 타입에 맞게 전체 데이터 셋에 영향을 미치지 않고, 결과를 가져다 줄 수 있는 다양한 전처리에 대해 배울 수 있어 좋았습니다. 또한 수업 중간 중간에 TODO 가 있었는데 이 부분은 직접 한 다음 정답을 이후에 받는 부분으로 수업 내용에 이끌리는 것만이 아닌 스스로 생각해보고 접근할 수 있어서 좋았습니다. 이렇게 직접 하면서 "데이터 분석" 이란 것이 어떤 것 인지 경험할 수 있어 좋은 시간이었던 것 같습니다.
Lacked
TODO 부분을 직접 하면서 아쉬운 부분들이 많았습니다. 수업 시간에 배운대로 하려고 했지만 생각보다 그렇게 하는 것이 쉽지 않았고, 하면서 제대로 한 것이 맞는 지 틀린 지에 대한 확신이 없어서 더욱 힘들었던 것 같습니다. 하면서 느낀 바로는 프로그래밍 할 때 각종 모듈, 메서드 활용도 중요하지만, 실행하는 전체 순서에 대한 중요성 도 크게 느껴졌습니다. 데이터를 조작하다보니 순서에 맞지 않게 한다면 결과가 나오더라도 틀린 정답을 갖고 있다는 것을 알 수 있었습니다.
또한, 이번 주차에서는 컨디션 관리가 매우 안좋았습니다. 매일 피곤함을 느꼈고, 7.7에는 아침부터 감기에 걸려 수업에 빠지기도 했습니다. 중요한 시기인 만큼 건강관리에 대한 필요성도 느껴졌습니다.
Learned
지난 시간 결측치 처리에 이어 이상치 처리에 대해 배웠습니다.
박스플롯을 통해 이상치를 데이터셋에서 확인하는 법을 배웠습니다.
데이터셋의 Feature 타입별 전처리를 배우고 관련 예제문을 직접 코딩하였습니다. 또한 이전 시간에 배운 데이터 학습-모델링을 통해 지난 내용을 복습할 수 있었습니다.
# 범주형 데이터 전처리 : 레이블 인코딩(Label Encoding), 원핫 인코딩(One-Hot Encoding)
# 연속형 데이터 전처리 (Feature Scaling) : Standard Scaling, MinMax Scaling
Pickle 모듈을 통해 학습 모델 파일 물리 저장
평가지표 중 Accuracy의 허점, 문제점 파악
- 다양한 분류모델의 평가 지표에 대해 배웠습니다.
1. 정확도 (Accuracy) 2. 정밀도 (Precision)
3. 재현률 (Recall)
4. F1점수 (F1 Score)
5. PR Curve, AP score
6. ROC Curve, AUC score
해당 지표들을 만드는 과정과 사용되는 메서드, 사용법 등에 대해 학습하였습니다.
혼동 행렬, Confusion Matrix 를 통해 시각화 하는 내용을 학습하였습니다.
TODO 과제 풀이를 통해 분류 모델의 평가 지표들을 복습할 수 있었습니다.
회귀모델의 평가 지표들을 학습하였습니다.
1. MSE (Mean Squared Error)
2. RMSE (Root Mean Squared Error)
3. R^2(결정계수) (R-squared)
- 과적합과 일반화의 개념을 학습하였습니다.
- Graphviz를 통해 DecisionTreeClassifier의 동작들을 확인할 수 있었습니다.
Longed for
- 빠진 수업 부분에 대해 학습할 예정입니다.
- 알고리즘 학습을 꾸준히 할 예정입니다.
- 학습하면서 몰랐던 내용, 궁금했던 내용들을 검색을 통해 알아가면서 해당 내용들을 정리해 블로그에 업로드 할 예정입니다.
블로그 바로가기
지난 시간까지 "파이썬"에 대한 기초 학습 및 여러 모듈을 사용할 수 있는 시간을 보냈었고, 이번주부터 "머신러닝"에 대한 학습을 시작하였습니다. 프로그래밍보다는 이론 학습이 중요해 학습하는데 어려움이 있었지만 중간에 실습 과제를 통해 이해하고 사용하는데 많은 도움이 되었습니다. 어려운 내용인 만큼 학습하는데 오랜 시간이 투자되었습니다.
Liked
이전 학습의 미니 프로젝트에서 시중에 공유된 데이터 셋을 가지고 Streamlit 을 통해 해당 데이터 셋을 시각화하는 활동을 진행했었는데, 그때 당시 비어 있는 데이터들, 공통되지 않은 데이터들을 어떻게 처리할 지에 대한 고민이 있었습니다. 그래서 그때는 그러한 데이터들을 제외시킨 후 진행했었는데, "머신러닝" 수업 첫 시작에서 데이터 전처리 와 관련된 수업을 들을 수 있었고, 각 데이터 타입에 맞게 전체 데이터 셋에 영향을 미치지 않고, 결과를 가져다 줄 수 있는 다양한 전처리에 대해 배울 수 있어 좋았습니다. 또한 수업 중간 중간에 TODO 가 있었는데 이 부분은 직접 한 다음 정답을 이후에 받는 부분으로 수업 내용에 이끌리는 것만이 아닌 스스로 생각해보고 접근할 수 있어서 좋았습니다. 이렇게 직접 하면서 "데이터 분석" 이란 것이 어떤 것 인지 경험할 수 있어 좋은 시간이었던 것 같습니다.
Lacked
TODO 부분을 직접 하면서 아쉬운 부분들이 많았습니다. 수업 시간에 배운대로 하려고 했지만 생각보다 그렇게 하는 것이 쉽지 않았고, 하면서 제대로 한 것이 맞는 지 틀린 지에 대한 확신이 없어서 더욱 힘들었던 것 같습니다. 하면서 느낀 바로는 프로그래밍 할 때 각종 모듈, 메서드 활용도 중요하지만, 실행하는 전체 순서에 대한 중요성 도 크게 느껴졌습니다. 데이터를 조작하다보니 순서에 맞지 않게 한다면 결과가 나오더라도 틀린 정답을 갖고 있다는 것을 알 수 있었습니다.
또한, 이번 주차에서는 컨디션 관리가 매우 안좋았습니다. 매일 피곤함을 느꼈고, 7.7에는 아침부터 감기에 걸려 수업에 빠지기도 했습니다. 중요한 시기인 만큼 건강관리에 대한 필요성도 느껴졌습니다.
Learned
지난 시간 결측치 처리에 이어 이상치 처리에 대해 배웠습니다.
박스플롯을 통해 이상치를 데이터셋에서 확인하는 법을 배웠습니다.
데이터셋의 Feature 타입별 전처리를 배우고 관련 예제문을 직접 코딩하였습니다. 또한 이전 시간에 배운 데이터 학습-모델링을 통해 지난 내용을 복습할 수 있었습니다.
# 범주형 데이터 전처리 : 레이블 인코딩(Label Encoding), 원핫 인코딩(One-Hot Encoding)
# 연속형 데이터 전처리 (Feature Scaling) : Standard Scaling, MinMax Scaling
Pickle 모듈을 통해 학습 모델 파일 물리 저장
평가지표 중 Accuracy의 허점, 문제점 파악
1. 정확도 (Accuracy)
2. 정밀도 (Precision)
3. 재현률 (Recall)
4. F1점수 (F1 Score)
5. PR Curve, AP score
6. ROC Curve, AUC score
해당 지표들을 만드는 과정과 사용되는 메서드, 사용법 등에 대해 학습하였습니다.
혼동 행렬, Confusion Matrix 를 통해 시각화 하는 내용을 학습하였습니다.
TODO 과제 풀이를 통해 분류 모델의 평가 지표들을 복습할 수 있었습니다.
회귀모델의 평가 지표들을 학습하였습니다.
1. MSE (Mean Squared Error)
2. RMSE (Root Mean Squared Error)
3. R^2(결정계수) (R-squared)
Longed for
블로그 바로가기