프로그래머스 데브코스-데이터 엔지니어/TIL(Today I Learned)

05/01 16일차 프로젝트 1일차

usiohc 2023. 5. 1. 22:50

크롤한 웹데이터로 만들어보는 웹사이트

프로젝트 시작 전에 미리 팀원들과 얘기를해 미리 주제를 선정했다.

주제는 지하철 유동인구 시각화 였고, 서울시를 기준으로 작업하기로 했다.

팀원분들이 결과물에 집중하기 보다는 경험에 초점을 두고 프로젝트를 진행하자고 얘기되었다.

첫날에는 모두가 크롤링해보는 작업을 각자 진행해보기로 했고, 저녁 코어타임이 끝나고 공유하기로 했었다.

다들 1개의 호선을 선택해 크롤링을 진행하기로 했었기에 그냥 제일 가까운 1호선을 선택했다.

작성했던 코드는 링크에 남겨뒀다.

driver.page_source 는 페이지의 모든 html을 가져온다.
pandas의 read_html(html)은 페이지의 테이블들을 가져온다. 해당 사이트에서는 sheet가 6번째 테이블로 존재했기 때문에 [5]로 선언하여 sheet만 가져올 수 있었다.

지금 생각해 보면 크롤링 코드를 작성할 때, 아무 생각없이 비동기적으로 .implicitly_wait()만 사용했었는데 이게 아주 큰 실수 였다. (이 당시에는 문제가 없었으나 추후에 발생한 issue)

위 이미지를 보면 알 수 있지만 1호선을 검색했을 때 공항철도 1호선도 같이 나오는 issue가 있었는데, 초기에는 모두 다 크롤링해 DataFrame에서 수정하는 작업을 진행했었다.

사실 크롤링 하는 과정 자체가 노가다 라고 생각한다...

openAPI를 사용하지 않고 직접 sheet를 크롤하려고 하다보니 페이지 자체를 조금 이해해야 XPATH를 이해하기 쉬울 것 이다. 처음 시작에 있어서 이 맥락을 파악하기가 조금 힘들었다.