Q : 분석을 시작할려고 언어를 배우는데 R하고 Python 중에서 어떤 언어를 배워야 할지 모르겠습니다. 어떤 것을 선택해야 하죠?

A : 많은 분들이 분석을 시작할 때 같은 고민을 할 것입니다. 아마도 빅데이터가 유행하면서부터 시작된 논쟁일 것입니다. 우리나라뿐만 아니라 해외에서도 R하고 Python에 선택에 대한 많은 글들이 있는 것을 보면 세계 공통인거 같습니다. 그럼 간단하게 R과 Python의 장단점을 적어보겠습니다. 우선 R에 대해서 이야기 해보죠
R의 장점
1. 데이터 시각화하는 ggplot등 같은 라이브러리가 좋다
2. 전세계 통계를 하는 분들이 통계 패키지를 무료로 개발해서 공개하고 있다.
R의 단점
1. 컴퓨터 최적화보다 통계에서 사용할 목적이었기 때문에 속도가 느리다.
2. 통계 언어인 S의 태생이기 때문에 통계적 지식이 있어야지 R을 효과적으로 사용할 수 있다.
Python의 장점
1. 분석 이외의 생태계가 넓게 존재한다.
2. 언어적인 난이도가 쉽다.
3. deep learning를 쉽게 사용할 수 있다.
4. 데이터 전처리를 쉽고 신속하게 할 수 있다.
Python의 단점
1. 시각화가 R보다 못하다는 평가가 많다. 물론 Python도 matplotlib, Seaborn, Bokeh등 시각화 라이브러리가 있지만 아직까진 R이 시각화쪽으로 더 좋다는 의견이 많습니다.
2. 대중적인 Machine Learning 알고리즘같은 것들은 Python 또한 쉽게 제공하고 있지만 R만큼 통계 패키지가 존재하지 않습니다.
간단하게 필자의 생각을 이야기 하면, 둘 다 배워야 경쟁력이 있지 않을까 하는 생각입니다. 각각 필요할 때마다 좋은 언어를 선택하는게 가장 최선의 방법일거 같습니다. 예를 들면 데이터 전처리는 Python에서 처리하고 Machine Learning은 R, 시각화도 R, RestAPI는 Python등 각각의 장점을 둘 다 활용한다면 최선일 거 같습니다. 물론 쉽지는 않겠지만요.