코로나19(상반기) 분석해보기

코로나 19를 대비한 정책의 개수와 확진자 수의 관계


[의도]

* 코로나가 늘어남에 따라 정책의 개수가 어떻게 변화하는지에 대해 알아본다.
* 코로나 유형에 따른 정책 제도가 어떻게 변화하는지를 살펴본다.


먼저 코로나 확진자의 정보를 알 수 있는 데이터를 불러온다.


  • 칼럼들 중 상황에 필요없는 칼럼은 제거한다.

patient_id ,country, city, infected_by, contact_number, symptom_onset_date, released_date, deceased_date, state 삭제

co_data.drop(['patient_id','country', 'city', 'infected_by', 'contact_number', 'symptom_onset_date', 'released_date', 'deceased_date', 'state'], axis=1, inplace=True)


  • confirmed_date 열에서 몇 월인지를 추출한다.
  • confirmed_date이 object 타입이므로 datetime 으로 변환을 해준다.
  • 그 다음에 ‘month’라는 새로운 열을 만들어준다.
  • 편의를 위해서 ‘month’ 열을 맨 앞으로 옮겨준다.
co_data['new_date'] = pd.to_datetime(co_data['confirmed_date'])
co_data['month'] = co_data['new_date'].dt.month

co_data.set_index('month')


  • 필요없어진 ‘confirmed_date’ 와 ‘new_date’를 제거한다.
  • 각 월별로 집계하면 월별 확진자 수를 알 수 있다.
1.0      11
2.0     906
3.0    1958
4.0     532
5.0     640
6.0    1115

  • 2월과 3월의 확진자 증가가 상당한 것을 알 수 있다.


정책의 수를 알아보기 위해 정책관련 데이터를 불러온다.


  • 마찬가지로 무의미한 열을 제거한다.

policy_id,country, end_date 제거

policy.drop(['policy_id','country', 'end_date'], axis=1, inplace=True)

  • start_date 열에서 몇 월인지를 추출한다.
  • start_date열 역시 object 타입이므로 datetime 으로 변환을 해준다.
  • 그 다음에 ‘month’라는 새로운 열을 만들어준다.
  • 편의를 위해서 ‘month’ 열을 맨 앞으로 옮겨준다.


  • 2월에서 3월의 확진자 수가 증가함에 따라 같이 정책의 수도 증가함을 알 수 있다.
  • 3월과 5월의 확진자 수를 비교했을 때, 줄어든 것을 알 수 있으므로 이에 따라 정책의 수도 감소하고 있다.
  • 3월달에 어떤 정책이 시행됐는지 살펴본다.

정책 내용

policy[policy['month']==3][['gov_policy','detail']]

정책 개수

policy[policy['month']==3]['gov_policy'].value_counts()
Special Immigration Procedure                    10
School Opening Delay                              4
Drive-Through Screening Center                    1
Emergency Use Authorization of Diagnostic Kit     1
Social Distancing Campaign                        1
Self-Quarantine Safety Protection App             1
Open API                                          1
School Closure                                    1
Mask Distribution                                 1
  • 출입국에 대한 정책이 10개로 가장 많은 수를 차지한다.
  • 3월 확진자의 감염 경로를 보면 감염자 접촉 다음으로 높은 비율을 차지한다.




[결과]

코로나 확진자가 늘어남에 따라 정책의 수도 같이 늘어나는 인과관계를 가진다.
또한 확진자의 감염 종류에 따른 정책의 변화도 확인할 수 있었다. 



[미흡한 점]

기본적으로 데이터 분석의 기획이 잘못됐다고 느꼈다.
모델을 정하고 예측을 하기 위한 분석을 실행해야 하지만 이미 있는 데이터를
확인한 것 밖에 하지 못했다.

또한 평소 kaggle에서 주어진 데이터는 target이 확실히 주어져서 분석 방향을 확실히 정할수 있었다.
하지만 이번에는 target도 스스로 정하고 데이터를 조작해서 만들어야 하기 때문에, 
그 과정을 제대로 해내지 못했다.

계속해서 분석 기획을 시도해보며, 익숙해져야 할 것 같다. 아직 데이터를 들여다보며, 더욱 생각해 볼 시간을 가져야 할 것 같다.