초보의, 초보에 의한, 초보를 위한 파이썬 코딩!

 

복잡한 코딩은 피하겠습니다. 간단하게 따라하면서 바로 업무에 적용할 수 있는 알고리즘을 찾아서 소개하겠습니다. 포기하지 마시고 직접 따라하시다보면 파이썬 언어도 자연스럽게 이해가 될 수 있도록 말이죠.

 

 

 

오늘은 상장기업 재무제표(제무정보) 수집 업무 자동화를 해보겠습니다.

 

 

Step 1: 데이터를 수집할 소스를 정한다.

 

이번 예제에서는 KISLINE(http://media.kisline.com/highlight/mainHighlight.nice?nav=1&paper_stock=005930) 사이트에서 삼성전자(005930)의 재무정보를 가져와 보겠습니다. url 마지막 부분에 "paper_stock=005930"에서 숫자 6자리가 주식종목코드입니다. 이 부분을 바꿔주면 원하는 상장회사의 재무정보가 있는 KISLINE 웹페이지를 호출할 수 있습니다.

 

 

Step 2: 데이터 수집을 위한 코드를 작성한다.

 

코드는 아주 간단하죠?^^ pandas 라이브러리와 dataframe을 설명하고 이해하려면 상당히 많은 시간이 필요하지만, 직장인들이 업무에 적용할 때는 엑셀의 내장함수를 사용하 듯 그냥 따라하는 것도 괜찮다고 생각합니다. 일단 업무에 적용하고, 세세한 작동원리와 이론에 대해서는 차근차근 보충해 나가는 방법을 권장합니다. 이런 게 실사구시의 정신 아닐까요? ^^

 

import pandas as pd

 

#html 객체의 표(table)를 pandas dataframe으로 가져온다
url = 'http://media.kisline.com/highlight/mainHighlight.nice?nav=1&paper_stock=005930'
tables = pd.read_html(url)

 

#엑셀로 저장하기
df = tables[4]    #개별IFRS 연간 재무제표
df.to_excel('output.xlsx')

 

 

 

Step 3: 데이터를 원하는 형태로 정리한다. 

 

저장된 엑셀 파일을 열어서 확인해 보면, 불필요한 셀들이 있는데요. 이런 부분을 제거해서 필요한 부분만 남기는 것을 데이터 클린징이라고 부릅니다. 이 부분도 자동화할 수 있지만, 난이도가 꽤 있는 작업이라서 오늘은 다루지 않겠습니다.

 

저는 아래와 같이 불필요한 셀을 삭제해서 정리하였습니다. 각자 필요한 양식으로 만들어서 사용하시면 되겠습니다.

 

 

 

 

 

 

+ Recent posts