후기
7주차 데이터 웨어하우스 관리와 고급 SQL과 BI 대시보드, 8주차 프로젝트, 9주차 Airflow 를 진행했다.
7주차에는 Redshift, Snowflake 등 웨어하우스 서비스들을 사용했고 Superset 등 BI 대시보드 툴을 사용했다.이 당시에는 수업을 제대로 이해하지 못했던 것 같다. raw_data 이나 analytics 테이블 등 왜 이런 테이블들이 필요한지 등에 대해서 의문을 가졌었고 뭔가 개념만 아 그렇구나 하고 넘어갔던 것 같음.
8주차 세미 프로젝트에서 정말 많은 것을 경험한 것 같다. 먼저 지금까지 배워왔던 스킬들을 사용할 수 있었는데, 기존에 ETL, ELT, 아키텍처 등에 대한 추상적인 개념만 가지고 있었지 이게 뭐냐고 물어보면 설명하기 어려운? 느낌으로 이해하고 있었다.이렇게 추상적으로 이해한 개념들을 프로젝트를 진행하면서 직접 작성하고 트러블 슈팅하는 과정에서 왜 이게 필요하다고 했구나 여기에서는 ETL보다는 ELT가 맞겠구나 등을 경험했다.
9주차 Airflow에서는 ETL, ELT, 스케줄링 를 보다 확실하게 이해했다. 다만 Airflow의 동작하는 방식은 더 공부할 필요가 있을 듯 하다.8주차에서 진행했던 프로젝트에서 openAPI를 Data Lake에 적재하는 작업을 진행했다. 해당 작업을 ETL로 작성해 ubuntu 서버에서 crontab을 사용했었고, 이를 serverless 아키텍처에 맞는 Cloud Functions으로 배포했는데 이렇게 데이터 소스를 가져오는 작업이 많아졌을때 Cloud Functions만으로 관리할 수 있을까? 라는 의문이 들었는데 관리하기 위한 툴이 Airflow 임을 9주차 수업에서 Airflow DAGs나 Task 등을 쉽게 이해하는데 큰 도움이 되었다. 또, ETL이나 ELT 등 직접적으로 코드리뷰를 해주셔서 flow를 더 쉽게 이해할 수 있었다.
8주차에서 진행했던 작업들을 블로그에 포스팅도 해보고 팀 미팅때 발표도 진행해봤는데, 해당 문제를 완벽하게 해결하지 못하고 발표를 진행했더니 내 머리속에서도 정리가 제대로 안되어있다는 생각이 들었다. 해당 오류들을 다시 한 번 짚어봐야 겠다.
Google Cloud Functions로 공공데이터 openAPI를 사용해 Cloud Storage로 적재 (Python)
'프로그래머스 데브코스-데이터 엔지니어 > 회고록' 카테고리의 다른 글
[회고록] 프로그래머스 데브코스-데이터 엔지니어, 6주차를 마치고 (0) | 2023.05.23 |
---|---|
[회고록] 프로그래머스 데브코스-데이터 엔지니어, 4주차를 마치고 (0) | 2023.05.07 |
[회고록] 프로그래머스 데브코스-데이터 엔지니어, 2주차를 마치고 (0) | 2023.04.22 |