BeautifulSoup 예제

Computer/Python 2015. 1. 11. 17:37

이전에 지인이 각 금융사가 ELS 금융상품을 출시하는데, 

이를 모아 일목요연하게 볼 수 있으면 좋겠다라고 했던 기억이 나서, 테스트 삼아 금융권 웹사이트 파싱을 시도.

Active X 등으로 도배된 게 국내 금융사 웹사이트 특성이라 crawling이 쉽지 않겠다고 생각하고 시작했으나 간단하게 끝났다.


id로 데이터 속성값이 분류도 안되어있고, 상당히 지저분한 html이었는데...

아무튼 'strong' tag의 class attribute가 name인 값을 찾아 리스트로 출력하는 코드. 

파싱 대상 문서는 url 참고.


import requests as rq
import bs4

def getELSNames():
url = 'http://www.truefriend.com/main/mall/openels/EdlsInfo.jsp?cmd=TF02ca000002_List'
response = rq.get(url)

navigator = bs4.BeautifulSoup(response.text)
# for searching tags like <strong class = 'name'>
html_names = navigator.find_all('strong', attrs={'class':'name'})

for tag in html_names:
print (tag.text.strip())

getELSNames()


'Computer > Python' 카테고리의 다른 글

네이버 지도 상호검색 결과 파싱  (0) 2015.01.07
파이썬으로 개미수열 찍기  (5) 2014.12.03