초보의, 초보에 의한, 초보를 위한 파이썬 코딩!
복잡한 코딩은 피하겠습니다. 간단하게 따라하면서 바로 업무에 적용할 수 있는 알고리즘을 찾아서 소개하겠습니다. 포기하지 마시고 직접 따라하시다보면 파이썬 언어도 자연스럽게 이해가 될 수 있도록 말이죠.
오늘은 상장기업 재무제표(제무정보) 수집 업무 자동화를 해보겠습니다.
Step 1: 데이터를 수집할 소스를 정한다.
이번 예제에서는 KISLINE(http://media.kisline.com/highlight/mainHighlight.nice?nav=1&paper_stock=005930) 사이트에서 삼성전자(005930)의 재무정보를 가져와 보겠습니다. url 마지막 부분에 "paper_stock=005930"에서 숫자 6자리가 주식종목코드입니다. 이 부분을 바꿔주면 원하는 상장회사의 재무정보가 있는 KISLINE 웹페이지를 호출할 수 있습니다.
Step 2: 데이터 수집을 위한 코드를 작성한다.
코드는 아주 간단하죠?^^ pandas 라이브러리와 dataframe을 설명하고 이해하려면 상당히 많은 시간이 필요하지만, 직장인들이 업무에 적용할 때는 엑셀의 내장함수를 사용하 듯 그냥 따라하는 것도 괜찮다고 생각합니다. 일단 업무에 적용하고, 세세한 작동원리와 이론에 대해서는 차근차근 보충해 나가는 방법을 권장합니다. 이런 게 실사구시의 정신 아닐까요? ^^
import pandas as pd
#html 객체의 표(table)를 pandas dataframe으로 가져온다
url = 'http://media.kisline.com/highlight/mainHighlight.nice?nav=1&paper_stock=005930'
tables = pd.read_html(url)
#엑셀로 저장하기
df = tables[4] #개별IFRS 연간 재무제표
df.to_excel('output.xlsx')
Step 3: 데이터를 원하는 형태로 정리한다.
저장된 엑셀 파일을 열어서 확인해 보면, 불필요한 셀들이 있는데요. 이런 부분을 제거해서 필요한 부분만 남기는 것을 데이터 클린징이라고 부릅니다. 이 부분도 자동화할 수 있지만, 난이도가 꽤 있는 작업이라서 오늘은 다루지 않겠습니다.
저는 아래와 같이 불필요한 셀을 삭제해서 정리하였습니다. 각자 필요한 양식으로 만들어서 사용하시면 되겠습니다.
'파이썬 데이터 분석 > 웹 스크래핑' 카테고리의 다른 글
[6] 파이썬 웹 스크래핑 - 로봇 배제 표준(robots.txt) (0) | 2019.08.02 |
---|---|
[5] 파이썬 웹 스크래핑 - requests 모듈, HTML 소스코드 확인 (0) | 2019.08.01 |
[3] 네이버 주식 시세 (주가 정보) 스크래핑(scraping) 예제 (0) | 2018.07.02 |
[2] KOSPI 주식 종목 리스트 가져오기 -pandas.read_csv (5) | 2018.06.27 |
[1] 환율 정보 데이터 수집 -pandas.read_html (4) | 2018.06.27 |