본문 바로가기

EDA2

인도네시아 School Dataset 캐글에서 구한 이 데이터셋은, 인도네시아 내에 있는 학교의 정보를 갖고 있다. 딱히 피쳐가 많지 않고, 유의미한 데이터가 없어 어떠한 EDA를 할 수 있을까 고민해봤는데, 결론 역시 뭐 특별한게 떠오르지는 않았다. 일단, data의 피처는 다음과 같다. 피처의 항목을 자세히 보면, id와 name이라는 컬럼은 서로 다른 데이터를 갖고 있지만, 의미적으로 보면 중복되는 컬럼이다. 데이터의 shape이 13개의 컬럼을 갖고 있다 할지라도 결국엔, 10의 컬럼이라 보는게 맞다. province_name 별로 학교의 수를 파악해 봤다. 특정 지방에서 압도적인 학교의 수가 몰려 있음을 확인할 수 있다. 아마도 이 지방에서의 인구 수 역시 많지 않을까 한다. 세군데의 province를 뽑아보자면, 'Jawa Bar.. 2022. 11. 23.
데이터사이언티스트 연봉 분석 오늘도 역시나 캐글에서 얻은 데이터셋. 잠이 안올때마다 하나씩 내려받아서 이리저리 분석해보고 있다. 하다 보면 시간이 정말 빠르게 지나간다. 10개의 피처들로 이뤄져 있으며, Data Scientist 를 위주로 알아보고자 한다. 피처별로 Null 값은 없어 보인다. 피처 중에 Salary_In_Rupees 는 Dtype이 int 또는 float 이어야 할 것 같은데 object 로 되어 있다. 이는 int로 바꿔줘야 할 것 같고, 루피에서 한화로 변경하여 보고자 한다. 20년부터 수집된 데이터인데, 해가 지날 수록 DS에 연관된 종사자들의 수가 증가하는 것을 알 수 있다. 3년만에 4배 이상 늘어났으니, DS가 과연 열풍이긴 한가보다. DS에 연루된 종사자들의 Designation을 보면 역시나 Dat.. 2022. 11. 23.