미래내일 일경험 인턴 기록16
Intro
이 글은 미래내일 일경험 인턴십에서 근무하면서
겪거나 배우고 느낀 것을 기록하고자 작성한 포스트입니다.
크롤링 코드 수정 작업
그동안 어떤 작업을 했냐고 묻는다면, 크롤링 코드 수정 작업을 했다고 말하고 싶다.
아직 수정 작업이 다 이루어지지 않아서 골치 아픈 일이지만 말이다.
일단 기존의 코드에서 문제점이 발생했다. 사실 코드 자체에서 에러가 발생했다기 보다는,
크롤링 정보가 매일 오전 10시 반 쯤에 업데이트 되는데, 어르신 중에 10시 반 이후에 오시는 분이 계셔서 이 분의 데이터는 계속해서 제외되는 문제점이 생기는 것이다.
이 부분에 대해서 나름의 해결책이 몇 가지 제시되었다.
- 오전, 오후에 한 번씩. 즉 하루에 두 번 크롤링을 진행해서 크롤링 과정에서 제외되는 어르신이 없게 만든다.
- 오후에 그냥 한 번 크롤링 해서 하루에 한 번 크롤링 하되, 제외되는 어르신이 없게 만든다.
- 매일 오전에 크롤링을 하되 그 다음날 크롤링 과정에 전날에 제외된 어르신까지 같이 크롤링에 포함되도록 하자.
이런 제시안 중에서 기존 코드를 그나마 덜 수정하는 방안은 1번이었지만, 이걸 대표님께서는 하루에 두 번 컴퓨터를 켜야 한다는 점에 만족을 못하시는 것 같았고, 2번에 대해서는 매일 갱신되는 데이터 속에서 이상치 알림이 빨리 떠야 건강 이상을 빨리 파악할 수 있다고 거절하셨다.
그래서 대표님은 3번 제시안을 진행하는 것을 생각하셨다. 그런데 문제는 3번을 만들기 위해서는 꽤 많은 코드 수정이 이루어져야 할 것 같다는 문제점이 예측되었다.
오라클 인스턴스에 mysql 올리기
그래서 내가 생각한 방법은 insert ignore 기능을 제공하는 mysql을 오라클 클라우드 인스턴스에 올려서 매일 크롤링을 할 때마다 중복되는 것은 제외되고 수정되거나 늦게 기록된 데이터만 업로드 되게 하는 것이었다.
그래서 오라클에 mysql올리기 위해 참고한 글 을 보고 오라클 클라우드에 인스턴스를 생성하고 mysql을 설치해서 워크벤치와 연결해 로컬에서 클라우드에 올라간 데이터베이스에 접속할 수 있는 환경을 만들었다.
그리고 그동안의 측정 데이터가 기록된 csv파일을 import해서 데이터베이스를 만들려는 순간…
계속되는 한글 깨짐 오류
계속해서 한글이 깨져서 나오는 오류가 발생했다. 이 오류에 대해서 많은 블로그 글을 찾아보았지만,
상황이 해결되지는 않았다. 후후….
csv 파일을 메모장에서 열어서 utf-8로 인코딩을 다시 하거나,
엑셀에서 열어서 ‘CSV(쉼표로 구분)’이라는 형식으로 다시 저장하는 등…
다양한 방법을 시도해봤지만, 아직 해결이 되니 않았다……
일단 이 부분에 대해서 해결책을 더 찾아봐야 한다. 이거 땜에 머리가 아프다.