매일 반복되는 업무, 웹(web)에서 필요한 데이터를 자동으로 가져올 수 있는 방법은 없을까요?
직장인이라면 누구나 매일 반복하는 단순 업무를 쉽게 처리할 수 있는 방법에 대해서 고민해 본 적이 있을 거예요. 예를 들면, 매일 아침 팀장님께 보고드리기 위해 웹사이트 여기저기를 찾아다니며 경제지표(환율, 금리, 주가 등)와 같은 데이터를 수집하고, Ctrl + C와 Ctrl + V를 여러 번 반복해서 엑셀(Excel) 시트(Sheet)에 옮겨본 경험이 있으실 거라 생각합니다.
오늘 실전 예제는 파이썬 데이터 분석에서 가장 즐겨 사용되는 판다스(pandas) 모듈을 활용하여, 네이버 환율정보를 가져와서 엑셀로 저장하는 것입니다. 환율정보 웹스크래핑(Web scraping)은 네이버 블로그에도 한번 소개한 적이 있는 내용인데요. 이 주제를 먼저 소개하는 이유는 코딩을 접하는 초보 직장인들도 쉽게 따라해보고 바로 실무에 적용할 수 있다는 판단 때문입니다.
판다스(pandas) 모듈은 직장인들이 사무실에서 자주 사용하는 엑셀(Excel) 프로그램과 같이 2차원 배열의 데이터 형식을 다루는데 최적화되어 있습니다. 즉, 마이크로소프트 엑셀과 파이썬 판다스 모듈은 행과 열로 데이터의 위치와 속성을 표시한다는 점에서 거의 비슷합니다.
그럼, 환율정보를 웹사이트에서 가져오는 과정을 단계별로 따라가 보겠습니다.
판다스(pandas) 모듈
웹 페이지(html)에 표(talbe) 형식으로 정리된 자료를 웹스크래핑(Web scraping)할 때는, 판다스(pandas) 라이브러리를 먼저 시도하면 좋습니다. 판다스(pandas)의 read_html 함수를 사용하면 html 페이지에 <table> tag로 구성된 부분을 모두 가져와서 표로 만들어진 목록(list)를 만들어 주기 때문입니다. (다만, 자바스크립트로 만들어진 동적 웹페이지에서는 작동하지 않는 경우가 많습니다.)
오늘 판다스(pandas) 모듈로 데이터를 수집하려는 네이버 환율조회(
https://search.naver.com/search.naver?where=nexearch&sm=top_hty&fbm=1&ie=utf8&query=%ED%99%98%EC%9C%A8%EC%A1%B0%ED%9A%8C) 화면을 살펴보면, 아래와 같이 웹 페이지 중간에 미국 달러 환율 그래프가 있고 하단에 미국, 일본 등 8개 국가 통화에 대한 원화 환율(매매기준율)이 표(table) 형식으로 정리되어 있습니다.
Step 1: pandas 라이브러리를 불러와서 pd라는 이름으로 설정합니다.
import pandas as pd
Step 2: 네이버 환율조회 링크를 url이라는 변수에 지정합니다.
url ='https://search.naver.com/search.naver?where=nexearch&sm=top_hty&fbm=1&ie=utf8&query=%ED%99%98%EC%9C%A8%EC%A1%B0%ED%9A%8C'
Step 3: pandas.read_html 함수에 url을 인자로 전달하고, 실행한 결과를 tables 변수에 지정합니다.
tables = pd.read_html(url)
테이블(tables) 내용 확인하기
판다스(pandas)로 웹에서 가져온 표를 확인하기 위해, tables 변수 내용을 확인합니다. 리스트(list)를 나타내는 [ ] 안에 콤마(,)로 구분된 2개의 표가 있습니다.
리스트(list)에 몇 개의 요소(표)가 있는지 확인하려면 len 함수를 사용합니다. 2개의 요소(표)가 있는 것을 알 수 있습니다.
우리가 수집하려고 하는 환율정보는 2번째 표이기 때문에 리스트(list) 인덱싱(indexing)을 사용합니다. tables[1]이라고 입력하면 2번째 표를 나타냅니다. (파이썬에서는 순서를 셀 때 1이 아니라 0부터 시작합니다.)
엑셀(Excel) 파일 저장하기
환율 조회표를 엑셀 파일로 저장하는 코드를 추가하겠습니다. 편의상 tables[1]에 들어 있는 표(dataframe 타입으로 저장되어 있음)를 df 변수에 지정합니다.
df = tables[1]
판다스(pandas) 모듈의 to_excel 함수를 사용하면, dataframe 타입의 표를 엑셀 파일로 바로 저장할 수 있습니다.
df.to_excel('exchange rate.xlsx')
엑셀 파일을 열면 아래와 같이 표 형태로 저장됩니다.
요약하며...
코드를 모아서 정리하면 모두 5줄입니다. 간단하게 환율 정보 정리가 가능하지 않나요? 직장인 렙업(level-up)을 위해 사무환경에서 자동화할 수 있는 작업들에 대하여 계속 연구하고 내용을 공유하겠습니다.
'파이썬 데이터 분석 > 웹 스크래핑' 카테고리의 다른 글
[6] 파이썬 웹 스크래핑 - 로봇 배제 표준(robots.txt) (0) | 2019.08.02 |
---|---|
[5] 파이썬 웹 스크래핑 - requests 모듈, HTML 소스코드 확인 (0) | 2019.08.01 |
[4] 상장사 재무제표 수집 (pandas) (0) | 2018.08.16 |
[3] 네이버 주식 시세 (주가 정보) 스크래핑(scraping) 예제 (0) | 2018.07.02 |
[2] KOSPI 주식 종목 리스트 가져오기 -pandas.read_csv (5) | 2018.06.27 |