인도네시아 School Dataset
캐글에서 구한 이 데이터셋은, 인도네시아 내에 있는 학교의 정보를 갖고 있다.
딱히 피쳐가 많지 않고, 유의미한 데이터가 없어 어떠한 EDA를 할 수 있을까 고민해봤는데, 결론 역시 뭐 특별한게 떠오르지는 않았다.
일단, data의 피처는 다음과 같다.


피처의 항목을 자세히 보면, id와 name이라는 컬럼은 서로 다른 데이터를 갖고 있지만, 의미적으로 보면 중복되는 컬럼이다. 데이터의 shape이 13개의 컬럼을 갖고 있다 할지라도 결국엔, 10의 컬럼이라 보는게 맞다.
province_name 별로 학교의 수를 파악해 봤다. 특정 지방에서 압도적인 학교의 수가 몰려 있음을 확인할 수 있다. 아마도 이 지방에서의 인구 수 역시 많지 않을까 한다. 세군데의 province를 뽑아보자면, 'Jawa Barat', 'Jawa Tengah', 'Jawa Timur' 였다.

stage라는 컬럼은, 초등학교, 중학교 등의 레벨을 의미하는 것이었다. 데이터셋의 요약에서 언급된 내용 보다 SMLB, SMP, SMPLB 등이 더 있어 당혹스러웠다. 초등학교를 의미하는 SD가 역시 제일 많음을 확인했다.

세 province 에 대해서 같은 비율로 학교의 stage 들이 분포하고 있는지를 확인해 봤다. Jawa Tengah 라는 지방에서는 다른 두 지방에 대비해 SD의 비율이 훨씬 더 많은 것을 알 수 있었다. 이쪽에 어린 친구들이 더 많이 사는 걸까?





Status 컬럼은, N(공립), S(사립)을 의미하는 데이터로 기록되어 있다. 파이 그래프를 보면 알 수 있듯이, 공립의 경우 초등학교에 많은 비중이 몰려 있는 반면, 사립의 경우에는 Stage가 올라가도 비슷한 비율을 갖고 있는 것을 확인할 수 있었다. 사립 출신은 계속 사립을 통해 진학한다고 보면 될까? 인도네시아의 평균 학력이 어떻게 되는지는 모르겠지만 공립으로 초등학교를 나온 경우 학업을 계속적으로 이어나가지는 않다는 의미로 봐도 될까?



마지막으로 위도와 경도의 데이터로 산포도를 그려, 지도와 비슷한 느낌을 내보려 했다. 인도네시아의 위도는 -11에서 6 사이에 위치하고 경도는 95에서 141 사이에 위치한다. 그런데, 이상치들 있는 것을 확인할 수 있었다. 경도가 10000에 가깝다니?, 위도가 100이 넘는다니?

이상치를 갖고 있는 데이터들을 수를 헤아려 봤더니 얼마 되지 않았다. 그래서 삭제하고 다시 그려보기로 했다.

지도의 느낌을 내보려 가로축을 경도, 세로축을 위도로 놓고 그려봤다. 확실히 지도느낌이 난다?

구글에서 인도네시아 지도를 다운받아 그걸 바탕으로 깔고 다시 그위에 산포도를 찍어봤다. 확실히 지도와 거의 일치한다. 여러 지역의 네임 중 확실히 산포가 많이 된 부분과 그렇지 않은 부분이 눈에 뛴다.
