# 파이썬 웹 크롤링

안녕하세요 코드사기꾼입니다.

오늘은 파이썬 urllib을 이용하여 웹상에서 사진을 가져오는 방법에대한 설명을 드리도록 하겠습니다.

 

 


1. 이미지 다운로드 하기

 

크롤링을 하기 전에 알아야 할것은 이미지가 웹상 특정 경로에 존재하는지에 관한 유무입니다. 저는 사진을 크롤링하기 위하여 네이버 영화의 마약왕 영화 리뷰 사이트를 참고하였습니다.

사이트 링크:

https://movie.naver.com/movie/bi/mi/basic.nhn?code=157297

 

마약왕

“애국이 별게 아니다! 일본에 뽕 팔믄 그게 바로 애국인기라!”마약도 수출하면 애국이 되던 1970년대 ...

movie.naver.com

 

사이트에 접속하시면 보이는 바와 같이 사진이 노출되는데요

 

 

왼쪽상단 빨간색 박스에 사진이 존재함

 

개발자 도구를 통하여 저 사진의 URL을 알아보도록 하겠습니다. 먼저 inspect 도구를 켜서 사진을 클릭해줍니다.

 

img 태그에 src에 사진의 url이 담겨있다.

 

그러면 사진과 같이 img태그안에 src 항목에 사진의 원본 url이 담겨있는것을 확인할 수 있습니다.

저 URL을 복사하시고 아래와 같은 소스 코드를 작성합니다.

 

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
import urllib.request
from bs4 import BeautifulSoup
 
print('Beginning file download with urllib2...')
 
url = 'https://movie.naver.com/movie/bi/mi/basic.nhn?code=157297'
req = urllib.request.Request(url)
res = urllib.request.urlopen(url).read()
 
soup = BeautifulSoup(res,'html.parser')
soup = soup.find("div",class_="poster")
#img의 경로를 받아온다
imgUrl = soup.find("img")["src"]
 
#urlretrieve는 다운로드 함수
#img.alt는 이미지 대체 텍스트 == 마약왕
urllib.request.urlretrieve(imgUrl, soup.find("img")["alt"]+'.jpg')
cs

 

위 코드를 실행하면 실행된 스크립트가 있는 폴더에 아래와 같이 사진이 생성됩니다!

 


2. 실행 결과

 

사진이 스크립트가 실행된 경로에 저장되었습니다.

 

사진파일 실행 결과

 

사진이 좀 작네요 ㅋㅋㅋ 그래도 확실하게 이미지를 받아올 수 있었습니다.

+ Recent posts