[4] 상장사 재무제표 수집 (pandas)

2018. 8. 16. 20:38

초보의, 초보에 의한, 초보를 위한 파이썬 코딩!

복잡한 코딩은 피하겠습니다. 간단하게 따라하면서 바로 업무에 적용할 수 있는 알고리즘을 찾아서 소개하겠습니다. 포기하지 마시고 직접 따라하시다보면 파이썬 언어도 자연스럽게 이해가 될 수 있도록 말이죠.

오늘은 상장기업 재무제표(제무정보) 수집 업무 자동화를 해보겠습니다.

Step 1: 데이터를 수집할 소스를 정한다.

이번 예제에서는 KISLINE(http://media.kisline.com/highlight/mainHighlight.nice?nav=1&paper_stock=005930) 사이트에서 삼성전자(005930)의 재무정보를 가져와 보겠습니다. url 마지막 부분에 "paper_stock=005930"에서 숫자 6자리가 주식종목코드입니다. 이 부분을 바꿔주면 원하는 상장회사의 재무정보가 있는 KISLINE 웹페이지를 호출할 수 있습니다.

Step 2: 데이터 수집을 위한 코드를 작성한다.

코드는 아주 간단하죠?^^ pandas 라이브러리와 dataframe을 설명하고 이해하려면 상당히 많은 시간이 필요하지만, 직장인들이 업무에 적용할 때는 엑셀의 내장함수를 사용하 듯 그냥 따라하는 것도 괜찮다고 생각합니다. 일단 업무에 적용하고, 세세한 작동원리와 이론에 대해서는 차근차근 보충해 나가는 방법을 권장합니다. 이런 게 실사구시의 정신 아닐까요? ^^

import pandas as pd

#html 객체의 표(table)를 pandas dataframe으로 가져온다
url = 'http://media.kisline.com/highlight/mainHighlight.nice?nav=1&paper_stock=005930'
tables = pd.read_html(url)

#엑셀로 저장하기
df = tables[4] #개별IFRS 연간 재무제표
df.to_excel('output.xlsx')

Step 3: 데이터를 원하는 형태로 정리한다.

저장된 엑셀 파일을 열어서 확인해 보면, 불필요한 셀들이 있는데요. 이런 부분을 제거해서 필요한 부분만 남기는 것을 데이터 클린징이라고 부릅니다. 이 부분도 자동화할 수 있지만, 난이도가 꽤 있는 작업이라서 오늘은 다루지 않겠습니다.

저는 아래와 같이 불필요한 셀을 삭제해서 정리하였습니다. 각자 필요한 양식으로 만들어서 사용하시면 되겠습니다.

저작자표시 비영리 변경금지

'파이썬 데이터 분석 > 웹 스크래핑' 카테고리의 다른 글

[6] 파이썬 웹 스크래핑 - 로봇 배제 표준(robots.txt) (0)	2019.08.02
[5] 파이썬 웹 스크래핑 - requests 모듈, HTML 소스코드 확인 (0)	2019.08.01
[3] 네이버 주식 시세 (주가 정보) 스크래핑(scraping) 예제 (0)	2018.07.02
[2] KOSPI 주식 종목 리스트 가져오기 -pandas.read_csv (5)	2018.06.27
[1] 환율 정보 데이터 수집 -pandas.read_html (4)	2018.06.27

내 블로그 - 관리자 홈 전환	`Q` `Q`
새 글 쓰기	`W` `W`

글 수정 (권한 있는 경우)	`E` `E`
댓글 영역으로 이동	`C` `C`

이 페이지의 URL 복사	`S` `S`
맨 위로 이동	`T` `T`
티스토리 홈 이동	`H` `H`
단축키 안내	`Shift` + `/` `⇧` + `/`

Pandas Studio 블로그

[4] 상장사 재무제표 수집 (pandas)

'파이썬 데이터 분석 > 웹 스크래핑' 카테고리의 다른 글

+ Recent posts

티스토리툴바

단축키

내 블로그

블로그 게시글

모든 영역