초보의, 초보에 의한, 초보를 위한 파이썬 코딩!

 

복잡한 코딩은 피하겠습니다. 간단하게 따라하면서 바로 업무에 적용할 수 있는 알고리즘을 찾아서 소개하겠습니다. 포기하지 마시고 직접 따라하시다보면 파이썬 언어도 자연스럽게 이해가 될 수 있도록 말이죠.

 

 

 

오늘은 상장기업 재무제표(제무정보) 수집 업무 자동화를 해보겠습니다.

 

 

Step 1: 데이터를 수집할 소스를 정한다.

 

이번 예제에서는 KISLINE(http://media.kisline.com/highlight/mainHighlight.nice?nav=1&paper_stock=005930) 사이트에서 삼성전자(005930)의 재무정보를 가져와 보겠습니다. url 마지막 부분에 "paper_stock=005930"에서 숫자 6자리가 주식종목코드입니다. 이 부분을 바꿔주면 원하는 상장회사의 재무정보가 있는 KISLINE 웹페이지를 호출할 수 있습니다.

 

 

Step 2: 데이터 수집을 위한 코드를 작성한다.

 

코드는 아주 간단하죠?^^ pandas 라이브러리와 dataframe을 설명하고 이해하려면 상당히 많은 시간이 필요하지만, 직장인들이 업무에 적용할 때는 엑셀의 내장함수를 사용하 듯 그냥 따라하는 것도 괜찮다고 생각합니다. 일단 업무에 적용하고, 세세한 작동원리와 이론에 대해서는 차근차근 보충해 나가는 방법을 권장합니다. 이런 게 실사구시의 정신 아닐까요? ^^

 

import pandas as pd

 

#html 객체의 표(table)를 pandas dataframe으로 가져온다
url = 'http://media.kisline.com/highlight/mainHighlight.nice?nav=1&paper_stock=005930'
tables = pd.read_html(url)

 

#엑셀로 저장하기
df = tables[4]    #개별IFRS 연간 재무제표
df.to_excel('output.xlsx')

 

 

 

Step 3: 데이터를 원하는 형태로 정리한다. 

 

저장된 엑셀 파일을 열어서 확인해 보면, 불필요한 셀들이 있는데요. 이런 부분을 제거해서 필요한 부분만 남기는 것을 데이터 클린징이라고 부릅니다. 이 부분도 자동화할 수 있지만, 난이도가 꽤 있는 작업이라서 오늘은 다루지 않겠습니다.

 

저는 아래와 같이 불필요한 셀을 삭제해서 정리하였습니다. 각자 필요한 양식으로 만들어서 사용하시면 되겠습니다.

 

 

 

 

 

 

네이버 등 포털 사이트에서 제공하는 주식시세(주가정보) 데이터를 가져와서, 그래프로 간략하게 그려보는 예제를 만들어 봅니다. 처음에는 코드 한줄 한줄 전부 이해하는 것보다는 예제 코드를 최대한 타이핑해보면서 실행 결과를 확인해 보면서 흥미를 갖는 것이 중요합니다.

 

지난 포스팅에서 설명드린 pandas.read_html 함수를 사용해서 네이버 주식 시세 테이블을 dataframe으로 가져옵니다. 아래 그림처럼 주식시세가 웹페이지 여러 페이지에 걸쳐 있기 때문에, 페이지를 한장씩 넘어가면서 pandas.read_html 함수를 사용하여 표를 여러 번 나누어서 읽어야 합니다.

 

 

 

 

 

우선, 필요한 패키지(pandas, datetime)를 불러온다. 네임스페이스를 사용하여 pd, dt 등 약칭으로 부른다

 

 
 import pandas as pd 
# 데이터프레임을 다루는 패키지

 import datetime as dt  # 시간을 다루는 패키지

 import matplotlib.pyplot as plt  # 그래프 시각화 패키지
 from matplotlib import style 

 

 

 

이제 본격적으로 웹 스크래핑을 처리하는 함수(function)을 정의합니다. url 주소에 들어 있는 종목코드(6자리)와 주식시세 페이지 번호(page)를 유의해서 살펴보시기 바랍니다.

 

 

 
 def read_stock_price_page(stock_code, page_num):
    '''
    네이버 주식시세 페이지에 접속하여 table을 dataframe으로 가져와서 정리
    '''
    target_url = ('http://finance.naver.com/item/sise_day.nhn?code='+ stock_code + '&page=' + str(page_num))
    data = pd.read_html(target_url)
    data = data[0]
    data.columns = ['날짜', '당일종가', '전일종가', '시가', '고가', '저가', '거래량']
    price_data = data.dropna(axis=0, how='any')
    price_data = price_data.drop(price_data.index[0])
    price_data = price_data.reset_index(drop=True)
    price_data['날짜'] = pd.to_datetime(price_data['날짜'], format='%Y/%m/%d')
    return price_data

 

 

 

오늘부터 과거로 소급해서 일정한 기간 동안의 주가 정보만을 가져오는 기능을 추가해 봅니다. days_limit이라는 변수를 함수 인자로 받아서, datetime 시간 클래스를 활용하여 기간을 계산합니다. 앞서 정의한 read_stock_price_page( ) 함수를 사용하여 매 페이지의 주가 정보를 가져 옵니다.

 

 

 
 def stock_price_pages_to_df(code, days_limit=30):
    '''
    오늘부터 days_limit 일수 만큼 이전 날짜 주가를 가져온다.
    '''
   
    df_list_price = []
    page = 1
    while True:
        try:   
            data = read_stock_price_page(code, page)
            time_limit = dt.datetime.now() - data['날짜'][0] 
            if time_limit.days > days_limit: break  
            df_list_price.append(data)                    
            page = page + 1
   
        except: break
    df_price = pd.concat(df_list_price)
    df_price = df_price.reset_index(drop=True)

    return df_price

 

 

 

앞서 정의한 stock_price_pages_to_df( )함수에 종목코드와 기간(날짜)을 인자로 입력해서 dataframe 형태로 정리된 데이터를 return값으로 전달받습니다.

 

 

 
 # 함수를 실행하여 KH바텍(060720)의 과거 30일 주가정보를 가져온다.    
 stock_code = '060720'
 days_limit = 30
 df = stock_price_pages_to_df(stock_code, days_limit)

 

 

 

df 변수에 할당된 데이터프레임을 아래와 같이 잘 정리가 되었습니다.

 

 

날짜

당일종가

전일종가

시가

고가

저가

거래량

0

2018-07-02 0:00:00

10100

600

10850

10900

10000

137977

1

2018-06-29 0:00:00

10700

300

10550

10900

9990

170253

2

2018-06-28 0:00:00

10400

500

10900

10950

10150

155769

3

2018-06-27 0:00:00

10900

100

10800

11050

10500

133548

4

2018-06-26 0:00:00

10800

350

10900

11000

10700

63039

5

2018-06-25 0:00:00

11150

150

11400

11450

11000

55519

6

2018-06-22 0:00:00

11300

100

11250

11450

10750

134805

7

2018-06-21 0:00:00

11200

350

11350

11750

11200

133002

8

2018-06-20 0:00:00

11550

250

11200

11600

10900

308596

9

2018-06-19 0:00:00

11300

700

11850

11950

11300

180656

10

2018-06-18 0:00:00

12000

1400

13400

13400

12000

309787

11

2018-06-15 0:00:00

13400

50

13600

13600

12900

201376

12

2018-06-14 0:00:00

13450

250

13200

13700

13150

347451

13

2018-06-12 0:00:00

13200

1250

12200

13300

12050

558148

14

2018-06-11 0:00:00

11950

0

12000

12250

11950

62293

15

2018-06-08 0:00:00

11950

0

11950

12200

11800

59258

16

2018-06-07 0:00:00

11950

200

12200

12300

11900

49088

17

2018-06-05 0:00:00

12150

250

11800

12250

11800

42485

18

2018-06-04 0:00:00

11900

0

11900

12200

11700

25171

19

2018-06-01 0:00:00

11900

100

11800

12100

11750

32062

 

 

 

 

matplotlib 패키지를 사용하면, 그래프를 쉽게 그릴 수 있습니다. ggplot 스타일을 지정하고, 날짜를 x축으로 하고 당일종가 그래프를 그리게 됩니다.

 

 

 
 # 주식 시세(당일종가) 그래프를 그린다.
 style.use('ggplot')   #그래프 스타일 지정
 plt.plot(df.날짜, df.당일종가.astype(int))  
 plt.show()

 

  

 

필요한 패키지(pandas, datetime)를 불러온다. 네임스페이스 pd, dt, plt등 약칭으로 간단하게 부른다.

ggplot 스타일로 그래프가 그려집니다. KH바텍은 6월 한 달 동안 주가가 급등 후에 급락하는 패턴을 보이네요.

 

늘은 인터넷에서 CSV 파일을 다운로드받아서, 필요한 정보만을 추출해서 정리하는 작업을 해보겠습니다.

 

코딩을 이제 배우기 시작하는 직장인의 입장에서 파이썬 문법 기초부터 차근차근 배워나가는 것도 필요하지만, 당장 실무에 적용할 수 있는 파이썬 라이브러리 위주로 집중 학습하는 것도 좋은 방법이라고 생각합니다.

 

이런 관점에서 지난 번 포스팅(http://pydata.tistory.com/1)에서 사용했던 판다스(pandas) 모듈을 계속 활용합니다. 지난 번에는 판다스(pandas) 모듈의 read_html 함수를 사용하여 html 웹 페이지에 있는 모든 표를 가져오는 방법을 배웠는데요. 이번에는 read_csv 함수를 사용하여 CSV 파일을 읽어들이는 과정을 만나보겠습니다.  

 


 

CSV 파일 다운로드

  

오늘 활용할 데이터는 KOSPI 상장 주식 종목 리스트입니다. 한국증권거래소(KRX) 홈페이지에 들어가면 상장종목현황(http://marketdata.krx.co.kr/mdi#document=040601)을 제공합니다. KOSPI와 KOSDAQ 종목을 구분하고 있고, 다운받을 컬럼 항목을 선택할 수도 있습니다. 파일 형식은 Excel과 CSV를 지원하는데 우리는 CSV 부분을 클릭해서 CSV 파일을 PC에 저장합니다. 이때 파일명을 'kospi_stock_code.csv'로 바꾸고 파이썬(Python) 실행파일이 위치한 폴더에 저장합니다. 

 

 

<KRX 한국거래소 상장종목 현황>

 

 

<'kospi_stock_code.csv' 파일>

 


 

 

파이썬 실행 코드 작성

다운로드한 CSV 파일을 살펴 보면, 위와 같이 표(table) 형식으로 정리된 자료입니다. 파이썬에서 CSV 파일의 데이터에 접근하기 위해서는 파이썬이 인식할 수 있는 자료형으로 변환해주어야 합니다. 판다스(pandas)에서는 데이터프레임(dataframe)이라는 자료형을 주로 사용하기 때문에, read_csv 함수로 CSV 파일을 읽어 오면 데이터프레임(dataframe)으로 저장됩니다. 실행코드는 주석을 제외하고 세 줄이면 충분합니다.

 

# 판다스 모듈 불러오기 (편의 상, pd라는 이름으로 사용)
import pandas as pd

 

# csv 파일을 해석하여 dataframe으로 변환하고, stock_data 변수에 저장
stock_data = pd.read_csv('kospi_stock_code.csv')

 

#종목코드 컬럼만 선택하여 stock_code 변수에 저장
stock_code = stock_data[['종목코드', '기업명']]

 

 

결과(stock_code) 확인하기

 

 

 

 

stock_code 변수에 저장된 데이터프레임(dataframe) 내용을 확인합니다. 제일 왼쪽 컬럼(column)의 숫자는 인덱스(index)라고 부르며, '종목코드'와 '기업명'은 컬럼(columns)명이라고 합니다. 

 

데이터프레임에서 컬럼(열)을 선택할 때는 데이터프레임['컬럼명'] 형식으로 지정하는데, 종목코드만 선택하고 싶을 때는 stock_code['종목코드']라고 입력합니다. 로우(행)을 선택하려면 데이터프레임.iloc[인덱스]라고 입력합니다. stock_code.iloc[1]라고 입력하면 AJ렌터카에 대한 정보만을 선택해서 볼 수 있습니다.    

 

 

 

 

요약하며...

 

코드를 모아서 정리하면 모두 3줄입니다. 다음 포스팅에서는 종목코드를 이용하여 개별 주식 종목에 대한 정보를 가져오는 방법에 대해서 알아보겠습니다. 
일 반복되는 업무, 웹(web)에서 필요한 데이터를 자동으로 가져올 수 있는 방법은 없을까요?

직장인이라면 누구나 매일 반복하는 단순 업무를 쉽게 처리할 수 있는 방법에 대해서 고민해 본 적이 있을 거예요. 예를 들면, 매일 아침 팀장님께 보고드리기 위해 웹사이트 여기저기를 찾아다니며 경제지표(환율, 금리, 주가 등)와 같은 데이터를 수집하고, Ctrl + C와 Ctrl + V를 여러 번 반복해서 엑셀(Excel) 시트(Sheet)에 옮겨본 경험이 있으실 거라 생각합니다. 

오늘 실전 예제는 파이썬 데이터 분석에서 가장 즐겨 사용되는 판다스(pandas) 모듈을 활용하여, 네이버 환율정보를 가져와서 엑셀로 저장하는 것입니다. 환율정보 웹스크래핑(Web scraping)네이버 블로그도 한번 소개한 적이 있는 내용인데요. 이 주제를 먼저 소개하는 이유는 코딩을 접하는 초보 직장인들도 쉽게 따라해보고 바로 실무에 적용할 수 있다는 판단 때문입니다. 

판다스(pandas) 모듈은 직장인들이 사무실에서 자주 사용하는 엑셀(Excel) 프로그램과 같이 2차원 배열의 데이터 형식을 다루는데 최적화되어 있습니다. 즉, 마이크로소프트 엑셀과 파이썬 판다스 모듈은 행과 열로 데이터의 위치와 속성을 표시한다는 점에서 거의 비슷합니다.  

그럼, 환율정보를 웹사이트에서 가져오는 과정을 단계별로 따라가 보겠습니다.


판다스(pandas) 모듈

웹 페이지(html)에 표(talbe) 형식으로 정리된 자료를 웹스크래핑(Web scraping)할 때는, 판다스(pandas) 라이브러리를 먼저 시도하면 좋습니다. 판다스(pandas)의 read_html 함수를 사용하면 html 페이지에 <table> tag로 구성된 부분을 모두 가져와서 표로 만들어진 목록(list)를 만들어 주기 때문입니다. (다만, 자바스크립트로 만들어진 동적 웹페이지에서는 작동하지 않는 경우가 많습니다.) 

 

 

오늘 판다스(pandas) 모듈로 데이터를 수집하려는 네이버 환율조회(https://search.naver.com/search.naver?where=nexearch&sm=top_hty&fbm=1&ie=utf8&query=%ED%99%98%EC%9C%A8%EC%A1%B0%ED%9A%8C) 화면을 살펴보면, 아래와 같이 웹 페이지 중간에 미국 달러 환율 그래프가 있고 하단에 미국, 일본 등 8개 국가 통화에 대한 원화 환율(매매기준율)이 표(table) 형식으로 정리되어 있습니다.  

 

 
Step 1: pandas 라이브러리를 불러와서 pd라는 이름으로 설정합니다. 


import pandas as pd

Step 2: 네이버 환율조회 링크를  url이라는 변수에 지정합니다.  

url ='https://search.naver.com/search.naver?where=nexearch&sm=top_hty&fbm=1&ie=utf8&query=%ED%99%98%EC%9C%A8%EC%A1%B0%ED%9A%8C'

Step 3: pandas.read_html 함수에 url을 인자로 전달하고, 실행한 결과를 tables 변수에 지정합니다. 

tables = pd.read_html(url)


 

테이블(tables) 내용 확인하기

 
판다스(pandas)로 웹에서 가져온 표를 확인하기 위해, tables 변수 내용을 확인합니다. 리스트(list)를 나타내는 [  ] 안에 콤마(,)로 구분된 2개의 표가 있습니다. 

 

 

 


리스트(list)에 몇 개의 요소(표)가 있는지 확인하려면 len 함수를 사용합니다. 2개의 요소(표)가 있는 것을 알 수 있습니다.

 

 

 

 

 

우리가 수집하려고 하는 환율정보는 2번째 표이기 때문에 리스트(list) 인덱싱(indexing)을 사용합니다. tables[1]이라고 입력하면 2번째 표를 나타냅니다. (파이썬에서는 순서를 셀 때 1이 아니라 0부터 시작합니다.)

 




엑셀(Excel) 파일 저장하기

 

환율 조회표를 엑셀 파일로 저장하는 코드를 추가하겠습니다. 편의상 tables[1]에 들어 있는 표(dataframe 타입으로 저장되어 있음)를 df 변수에 지정합니다. 

df = tables[1]

 


판다스(pandas) 모듈의 to_excel 함수를 사용하면, dataframe 타입의 표를 엑셀 파일로 바로 저장할 수 있습니다. 

df.to_excel('exchange rate.xlsx')

 


 

엑셀 파일을 열면 아래와 같이 표 형태로 저장됩니다. 

 

 

 

 

요약하며...

 

코드를 모아서 정리하면 모두 5줄입니다. 간단하게 환율 정보 정리가 가능하지 않나요? 직장인 렙업(level-up)을 위해 사무환경에서 자동화할 수 있는 작업들에 대하여 계속 연구하고 내용을 공유하겠습니다.

+ Recent posts