# 파이썬 웹 크롤링


안녕하세요 코드사기꾼입니다.

오늘부터 웹 크롤링을 주제로 글을 작성해보도록 하겠습니다.

그럼 먼저 개념에 대해서 알고 시작해야겠죠? 크롤링이란 무엇일까요?


크롤링(Crawling)은  사전적으로 기어다니는 것을 뜻합니다. IT쪽에서는 웹페이지를 순회하면서 정보를 수집하는 행위를 말합니다. 크롤링은 스크래핑(Scraping) 또는 데이터 긁기등 다양한 단어로 불리우고 있고, 원하시는 용어를 사용하시면 됩니다.


1. BeautifulSoup


BeautifulSoup는 우리의 크롤링을 도와줄 파이썬 오픈소스 라이브러리 입니다. 정규표현식을 사용해서 크롤링한 데이터(html, xml등)내에서 원하는 부분을 추출할 수 있도록 도와줍니다.


공식사이트 링크:

https://www.crummy.com/software/BeautifulSoup/bs4/doc/#the-keyword-arguments



2. BeautifulSoup 설치


이 글은 파이썬 3.x 버전으로 진행하도록 하겠습니다. pip이 설치되어 있다는 가정하에 커맨드라인 프롬프트(cmd)에 아래와 같이 입력합니다.


1
pip install bs4
c
s



3. HTTP Request/Response


먼저 데이터를 크롤링하기 위해서는 웹소켓을 이용하여 원하는 웹사이트에 연결요청을 진행하여야 합니다. 연결요청을 하면 그에 대한 응답으로 웹서버는 Response를 보내는데요 이 데이터는 일반적으로 html이나 json형식을 띄고 있습니다. 이렇게 받아온 html, json데이터를 Beautiful Soup로 파싱 하는것을 크롤링이라고 하는것 입니다.


웹소켓에 대한 대표적인 라이브러리로는 requests, urllib이 있으며 제 블로그에서 일전에 requests에 관한 글을 작성해 놓았던게 있기 때문에 이번에는 urllib으로 진행하도록 하겠습니다.

urllib은 파이썬 기본 라이브러리입니다. 파이썬 2.x버전에서는 urllib, urllib2로 나누어져 있었는데 이것이 3.x버전에 들어서면서 통합되고 코드가 개선되었습니다.


1
2
3
4
5
6
# urllib을 사용한 Request 보내기
import urllib.request
 
url = "http://www.naver.com/"
req = urllib.request.urlopen(url) # url에 대한 연결요청
res = req.read() # 연결요청에 대한 응답
cs







4. 데이터 크롤링


지금 부터 본격적으로 데이터를 크롤링 해보도록 하겠습니다.

아까 설치한 bs4를 코드 최상단에 import하고 response로 받아온 html파일을 태그(tag)기준으로 크롤링 하겠습니다.

네이버 인기검색어를 크롤링 하도록 할텐데 먼저 어떤 태그안에 인기검색어가 저장되어있는지, 또 그 태그는 어떤 클래스로 정의되어 있는지를 파악해야 합니다. 그러기 위하여 크롬(Chrome)브라우저의 개발자도구를 이용하도록 하겠습니다.(f12를 누르면 개발자도구에 진입합니다.)




인기급상승 검색어는 sapn태그에 ah_k클래스를 사용하고 있다는 것을 확인하였습니다. 그러면 본격적으로 소스코드를 작성해 보겠습니다.(2번째 사진에서 빨간색 박스부분을 클릭한 후 원하는 곳을 클릭하면 해당 태그를 찾아줍니다. )


1
2
3
4
5
6
7
8
9
10
import urllib.request
from bs4 import BeautifulSoup
 
url = "https://www.naver.com/"
req = urllib.request.urlopen(url)
res = req.read()
 
soup = BeautifulSoup(res,'html.parser'# BeautifulSoup 객체생성
keywords = soup.find_all('span',class_='ah_k'# 데이터에서 태그와 클래스를 찾는 함수
print(keywords)
cs




크롤링해온 데이터는 html 태그에 쌓여진 리스트 형태로 리턴된다는 것을 알았습니다. 이번에는 코드에 함수하나를 추가해서 각 태그의 텍스트만 뽑아오도록 변경해 보겠습니다.


1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
import urllib.request
from bs4 import BeautifulSoup
 
#여기에 함수를 구현해봅시다.
url = "https://www.naver.com/"
req = urllib.request.urlopen(url)
res = req.read()
 
soup = BeautifulSoup(res,'html.parser')
keywords = soup.find_all('span',class_='ah_k')
#get_text() == 데이터에서 문자열만 추출
#strip() == 데이터의 양옆 공백제거
#[:20]의 이유? 인기검색어의 중복을 막고 20위까지만 출력하기 위함
keywords = [each_line.get_text().strip() for each_line in keywords[:20]]
print(keywords)
cs



결과를 보시면 깔끔하게 검색어가 뽑혀있는것을 확인할 수 있습니다.

# 파이썬 제어문



제어문이란 프로그래밍 언어에서 실행순서를 변경시키거나 또는 조건에 따라 실행해야 할 명령문을 제어하는데에 사용되는 구문입니다. 일반적으로 프로그램은 위에서 아래로 순차적으로 실행되지만, 어떤 조건에 대해서만 실행해야 하는 경우나 특정 부분을 반복하여 실행해야 하는 경우 등이 있습니다.

python에서는 if, for, while문을 사용하여 흐름을 제어할 수 있습니다.



1. while 문


특정작업을 반복하여 실행해야 할 경우 반복문을 사용하면 간단히 해결할 수 있습니다. while문은 반복문의 일종으로 조건문이 참일 경우 반복을 계속합니다. 


1
2
3
while 조건:
    수행할 작업
    ...
cs


while이라는 키워드를 먼저 적고 그 뒤에 조건을 적어주면 됩니다. 앞선  if문 강의에서 배웠던 비교, 논리연산자가 쓰일 수 있습니다.


2. while 문 사용예제


glass라는 변수의 값을 0으로 초기화 하고 while문의 조건으로 glass가 10보다 작을 경우를 설정합니다. 이렇게 하면 while문의 조건이 참이니 동작을 시작하겠죠? 하지만 glass 의 값을 while문 안에서 늘려주지 않는다면 while은 무한히 실행될 것입니다. 고로 glass의 값을 +=을 통해 1씩 늘려주기로 하겠습니다. 또 while 문안에 print문을 넣어 한잔 마셨습니다. 를 출력해 보도록 하겠습니다. 그리고 glass의 값이 10이 되었을 때 취했으니 집에 돌아가요. 라는 문구를 출력해보도록 하겠습니다.



1
2
3
4
5
6
7
8
glass = 0
#10번 반복
while glass < 10:
    glass+=1
    print("한잔 마셨습니다.")
    if glass == 10:
        print("취했으니 집에 돌아가요.")
    
cs




3. while문 이스케이프(escape)


while문은 조건문이 참인 동안 계속해서 하위 구문을 반복적으로 실행합니다. 하지만 중간에 while문을 빠져나가고 싶을 경우에는 break문을 넣어 즉시 while문을 빠져나갈 수 있습니다.


1
2
3
4
5
6
7
8
9
number = 77
counter = 2
while counter < number:
    if number%counter == 0:
        print("소수가 아닙니다.")
        break
    counter += 1
    if counter == number
        print("소수 입니다.")
cs


'Dev > python' 카테고리의 다른 글

[python] 제어문(if, for, while) - 3  (0) 2019.03.23
[python] 시퀀스 자료형과 이터러블  (1) 2019.03.23
[python] 제어문(if, for, while) - 1  (0) 2019.02.15
[python] 튜플과 Immutable  (0) 2019.02.14
[python] 딕셔너리(dictionary)  (0) 2019.02.13

# 파이썬 튜플



튜플은 몇 가지 특성을 빼면 리스트와 거의 동일하다고 볼 수 있는 자료구조입니다.

인덱싱, 슬라이싱이 가능하고 튜플끼리의 연산 또한 가능하죠.


차이점이 있다면, 리스트는 '[]'을 이용하여 선언하는 반면 튜플은 '()'을 이용해서 감싸줍니다.


1
2
3
4
tup1 = () # 빈 튜플 선언
tup2 = tuple() # 빈 튜플 선언
tup3 = (1,2,3# tup3 == (1,2,3)
tup4 = 1,2,3 # tup4 == (1,2,3)
cs


1. Immutable


튜플은 한번 정의되는 순간 그 요소를 변경하거나, 삭제하는것이 불가능해집니다.

이러한 특성을 영어로는 Immutable하다고 이야기합니다. Immutable한 자료형은 데이터의 오염이 적기 때문에 데이터 분석에서 원시데이터를 저장할 때 자주 쓰입니다.


그렇다면, 한번 테스트를 안해볼 수 없겠죠?


1
2
myTup = ('python',['anaconda','spyder'])
myTup[1= ['man']
cs


이 코드를 실행시키면 인터프리터는 에러를 출력할 것 입니다.


tuple 객체는 새로운 요소의 할당을 지원하지 않는다면서 TypeError가 출력되었습니다. 그러면 진짜로 tuple에서는 값을 전혀 못바꾸는게 확정이네요??  결론부터 말하자면 그렇지 않습니다.


우리는 리스트에서 배웠던 Shallow Copy를 떠올려보셔야 합니다. Shallow Copy는 레퍼런스를 그대로 가져오는 반면 Deep Copy는 값만 복사해 오기 때문에 실질적으로 같은 객체가 아닙니다. 즉 아래와 같은 식이 성립됩니다.


1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
origin = ('python', ['anaconda''spyder'])
clone = ('python', ['anaconda''spyder'])
 
# 값이 같기 때문에 True
origin == clone
 
# 같은 객체가 아니기 때문에 False
origin is clone
 
# Shallow Copy
clone = origin
 
# 같은 값, 같은 객체이기 때문에 True
origin == clone
origin is clone
cs


origin과 clone을 같은 값으로 설정하면 == 에서는 true를 보이지만 is 연산에서는 false를 보입니다. 둘의 레퍼런스 id가 다르기 때문입니다. 하지만 clone에 origin을 대입하면 레퍼런스를 그대로 가져오기 때문에 ==, is 둘 다에서 true를 보이죠? 이 방법을 이용하면 튜플안의 값을 변경할 수 있습니다.

파이썬에서 Immutable이라는것은 어디까지나 레퍼런스가 변경되지 않는다는 의미로만 동작합니다. 즉, 레퍼런스가 변하지 않으면 값이 변해도 상관이 없다는 의미겠죠?


그러면 바로 테스트 해보도록 하겠습니다.


1
2
3
4
5
6
myTup = ('python',['anaconda','spyder'])
myTup[1].append("pig")
print(myTup)
 
# 결과 값
# ('python', ['anaconda', 'spyder', 'pig'])
cs


myTup의 1번째 인덱스에 있는 리스트의 내용이 바뀐것을 확인할 수 있습니다. append는 레퍼런스가 변경되지 않는 대표적인 함수이기 때문에 레퍼런스를 유지 하면서 값을 바꿀 수 있었습니다.


하지만 위에서 처럼 myTup[1]에 = 연산자를 통해 값을 대입하려는 순간 레퍼런스가 변경되기 때문에 TypeError가 발생한 것입니다. 

'Dev > python' 카테고리의 다른 글

[python] 제어문(if, for, while) - 2  (0) 2019.03.23
[python] 제어문(if, for, while) - 1  (0) 2019.02.15
[python] 딕셔너리(dictionary)  (0) 2019.02.13
[python] 리스트 함수  (0) 2019.02.11
[python] 리스트와 Shallow Copy  (0) 2019.02.10

# 파이썬 딕셔너리



딕셔너리란 대응되는 데이터를 Key:Value 형식으로 저장할 수 있는 자료구조입니다. 타 언어에서는 연관배열이나 해시맵이라고 하죠?


딕셔너리는 리스트처럼 순차적으로 요소에 접근하는 시퀀스 자료형이 아닙니다. 반드시 Key를 통하여 Value값을 얻습니다. 예를 들어 language라는 KeyPython이라는 Value가 저장되어있을 경우 language를 통해 Python이라는 값을 얻을 수 있습니다.



1. 딕셔너리 선언


딕셔너리의 각 요소는 Key:Value 형태로 이루어져 있고 쉼표(",")로 데이터를 구분 짓습니다. 그리고 Key와 Value가 같은 자료형일 필요는 없습니다. Key가 문자열이고 Value가 숫자나 리스트나 딕셔너리여도 상관이 전혀 없습니다.

하지만 만약 중복되는 키를 입력시에는 데이터가 무시 되기 때문에 필수적으로 중복검사를 실시해야 합니다.


1
2
3
dic ={} # 빈 딕셔너리 선언
dic = dict() # 빈 딕셔너리 선언
dic = {"Key":"Value","number":1234#여러데이터 저장 가능
cs



2. 딕셔너리 값 추가 및 수정


딕셔너리의 값을 수정하기 위해서는 먼저 요소에 키를 통하여 접근할 필요가 있습니다. 만약 수정하려는 값의 key가 2일 경우에는 2로 접근하시면 됩니다.

값을 추가하고 싶은 경우에도 마찬가지입니다. 딕셔너리 이름이 dic일 경우에 dic["newKey"] 처럼 새로운 키를 설정해주고 값을 대입하면 됩니다. newKey라는 키는 제가 임의로 만든것이며 어떤 값이여도 상관없습니다. 


1
2
3
4
5
6
dic = {1:"a"}
dic[2= "b"
# dic == {1:"a",2:"b"}
 
dic[2= "c"
# dic == {1:"a",2:"c"}
cs



3. 딕셔너리 데이터 접근


리스트에서는 요소 값에 접근하기 위하여 인덱싱을 사용하였지만 딕셔너리는 인덱싱이아니라 Key이름을 기반으로 데이터에 접근합니다.


1
2
3
dic = {"apple":500,"banana":1000}
#dic["apple"] == 500
#dic["banana"] == 1000
cs



# 딕셔너리 내장함수



1. keys


딕셔너리 모든 Key를 객체로 리턴합니다. key만을 추출할 때 사용합니다.


1
2
3
4
dic = {"apple":500"banana":1000}
dic.keys()
 
#dict_keys(['apple', 'banana'])
cs



2. values


딕셔너리 모든 Value를 객체로 리턴합니다. Value만을 추출할 때 사용합니다.


1
2
3
4
dic = {"apple":500"banana":1000}
dic.values()
 
# dict_values([500, 1000])
cs


3. items


items 함수는 딕셔너리의 모든 데이터를 객체로 리턴합니다.


1
2
3
4
dic = {"apple":500"banana":1000}
dic.items()
 
# dict_items([('apple', 500), ('banana', 1000)])
cs


4. get


get함수는 키를 알고 있을 데 value를 추출할 때 사용합니다.


1
2
3
4
dic = {"apple":500"banana":1000}
dic.get("apple")
 
# 500
cs



'Dev > python' 카테고리의 다른 글

[python] 제어문(if, for, while) - 1  (0) 2019.02.15
[python] 튜플과 Immutable  (0) 2019.02.14
[python] 리스트 함수  (0) 2019.02.11
[python] 리스트와 Shallow Copy  (0) 2019.02.10
[python] 문자열 함수  (0) 2019.02.09

# 파이썬 리스트



리스트란 여러가지 데이터를 저장하는 자료구조입니다. 리스트를 이용하면 숫자나 문자열 등의 데이터를 다량의 변수를 선언하지 않고도 간단하게 표현할 수 있습니다.

무엇보다 Python에서의 리스트는 자료형에 구애받지 않고 자료형에 상관없이 한개의 리스트에 혼합하여 저장할 수 있는 장점이 있습니다.


1. 리스트의 생성 및 데이터 저장


1
2
3
4
5
6
arr1 = [1,2,3,4,5# ok
arr2 = ["a","b","c","d"# ok
arr3 = ["1",2,"3",4,"babo"# ok
arr4 = [1,2,[3,4,5,6]] # ok
arr5 = [] # 빈 리스트 생성
arr6 = list() # 빈 리스트 생성
cs



2. 인덱싱


리스트는 문자열과 같이 인덱싱을 적용하는것이 가능합니다. 리스트의 첫번째 요소를 0번 인덱스로 지정하고 마지막요소에 리스트의 크기-1 인덱스를 지정합니다.

- 참고 : 마지막 인덱스는 -1로 표현하고 1씩 감하여 이전 인덱스를 표현합니다.


1
2
3
4
5
arr = [1,2,3,4,5]
# a[0] == 1
# a[4] == 5
# a[-1] == 5
# a[-2] == 4
cs


만약, 리스트안에 다중으로 리스트가 들어있는 경우에는 인덱싱을 두번하여 중첩 리스트안에 있는 데이터에 접근할 수 있습니다.


1
2
3
arr = [1,2,[1,2,3]]
# arr[-1] == [1,2,3]
# arr[-1][-1] == [3]
cs



3. 슬라이싱


리스트는 문자열과 마찬가지로 인덱싱 뿐만아니라 슬라이싱 또한 가능합니다.  범위를 지정하여 시작 인덱스의 요소부터 마지막 인덱스의 요소로 구성된 리스트로 분할합니다.


1
2
3
arr=[1,2,3,4,5]
# arr[0:2] = [1,2]
# arr[2:] = [3,4,5]
cs


4. 리스트 요소 수정


리스트의 데이터를 변경하고 싶을 경우에는 해당 인덱스에 대입연산자를 사용하여 데이터를 삽입하면 됩니다.


1
2
3
arr = [1,2,3,4,5]
arr[0= 5
# arr == [5,4,3,2,5]
cs




# 객체의 복사


파이썬에서는 리스트도 객체에 해당하기 때문에 복사를 하게되면 바로보는 객체가 동일하기 때문에 두개의 리스트 중 하나만 변경해도 나머지 하나가 동일하게 수정되는 현상이 발생합니다.


1. shallow copy(얕은 복사)


1
2
3
4
5
6
7
8
9
10
11
= [1234]
= a
print(b)
b[2= 5
print(b)
print(a)
 
#결과값
[1234]
[1254]
[1254]
cs


a라는 변수를 선언하고 리스트를 만들어 a에 할당하면 a는 리스트객체의 주소가 저장된 변수가 됩니다.

그럼 a라는 변수의 값을 b라는 인자에 할당하였을 경우, b는 a와 같은 객체의 주소가 저장된 변수가 되는걸까요? 정답은 예,그렇습니다. b를 불러와 인덱스 2번의 값을 5로 변경하면, a에도 똑같이 적용되어 a의 값이 1,2,5,4가 되는 것을 위의 코드를 통하여 알 수 있습니다.



리스트는 값을 대입하면 값에 대한 메모리가 새로이 할당되는 것이 아닌 기존 값의 메모리 주소를 공유하기 때문에 발생하게 됩니다. 리스트 같은 경우 리스트 자체뿐만 아니라 리스트 내 요소들도 같은 주소를 공유하고 있습니다. 이를 Shallow Copy(얕은 복사)라고 부릅니다.



2. Deep Copy(깊은 복사)


이러한 현상을 방지하기 위해서는 Deep copy를 사용하여 복사하면 됩니다. 방법은 간단합니다. 기본라이브러리인 copy를 사용하는 방법이 있지만 더욱 간단한 사용을 위해 다른방법을 설명드리겠습니다.


1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
#1번 방법
= [1234]
= a[:]#리스트 슬라이싱
print(b)
b[2= 5
print(b)
print(a)
 
#2번 방법
= [1234]
= list(a)#리스트 내장함수사용
print(b)
b[2= 5
print(b)
print(a)
 
#결과값(1번과 2번 동일)
[1234]
[1254]
[1234]
cs


간단하게 리스트를 슬라이싱하여 대입하면 shallow copy가 일어나지 않습니다. 또 list 내장함수를 사용하면 Deep copy가 진행되어 리스트 복사문제를 해결 할 수 있습니다.

'Dev > python' 카테고리의 다른 글

[python] 딕셔너리(dictionary)  (0) 2019.02.13
[python] 리스트 함수  (0) 2019.02.11
[python] 문자열 함수  (0) 2019.02.09
[python] 문자열  (0) 2019.02.07
[python] 기본자료형 - 숫자  (0) 2019.02.07

# 파이썬 문자열 함수



안녕하세요 코드사기꾼입니다.

저번 강의에 이어서 오늘은 문자열 클래스의 함수에 관하여 알아보도록 하겠습니다.

문자열 클래스란, 따옴표로 감쌓여 있는 값을 의미하며 통상적으로 str이라고 표현합니다. python에서는 강력한 기능의 문자열 함수를 제공하고 있는데요 한번 그 것들에 관하여 알아보도록 하겠습니다.


1. 접근방법


문자열 클래스의 함수에 접근하기 위해서는 먼저 문자열 객체가 있어야겠죠? python은 모든 것을 객체로 인식하기 때문에 문자열 변수나 상수도 객체로 인식합니다. 객체 내부에 있는 함수에 접근하기 위해서는 점(.)을 사용하여 접근합니다.

즉, 객체 내부에있는 함수나 변수에 대한 접근은 객체.함수, 객체.변수로 표현됩니다.


예를 들어 python이라는 클래스에 short이라는 함수가 있다면 이와같이 접근할 수 있습니다.


1
2
myClass = python() # python클래스 객체의 선언
myClass.short() # 객체 내부의 함수에  
cs

 

class를 만들어 놓았으면 먼저 그 클래스를 담는 객체를 선언을 해야겠죠? 그것을 myClass라는 임의의 이름을 가진 변수에 할당합니다. 이렇게 되면 myClass는 python의 인스턴스이니 내부에 있는 변수나 함수에 접근하는 것이 가능해지겠죠? 그래서 myClass.short()라는 구문이 성립하게 되는 것입니다.


문자열클래스도 똑같습니다. 문자열.함수이름 으로 접근하시면 됩니다. 실제 코드를 보면서 이해를 해보도록 하죠.


1
2
3
4
5
6
7
8
9
10
11
myStr = "I love python" # 문자열 선언
 
print(myStr.upper()) # 문자열 클래스의 upper 메소드 사용
 
print("I love python".upper()) # 문자열 클래스의 upper 메소드 사용
 
 
#결과값
 
I LOVE PYTHON
I LOVE PYTHON
cs


1번 라인에 I love python이라는 문자열 변수 myStr을 선언하였습니다. 그렇다면 myStr은 문자열 클래스의 인스턴스나 다름없겠죠? 그렇기 때문에 upper라는 문자열 클래스의 메소드를 사용할 수 있는 것 입니다.(upper는 소문자를 대문자로 변경해주는 메소드입니다.)


5번라인에 보면 I love python을 변수에 할당하지않고 그냥 .upper를 붙여서 사용했는데요, 이 방법 또한 사용 가능합니다. 결과는 보시는 것과 같이 I LOVE PYTHON으로 동일합니다.




# 문자열 함수의 종류


python에는 강력한 성능의 문자열 함수가 다수 포함되어 있습니다. 그것들에 관하여 한번 알아보도록 하죠.


1. find


find 함수는 검색문자나 문자열이 처음나온 위치를 반환하는 함수입니다. 만약 검색한 대상이 문자열에 존재하지 않을 경우 -1을 리턴합니다.


1
2
3
4
5
6
7
8
9
10
"abc".find("a")
"abc".find("ab")
"abc".find("bc")
"abc".find("d")
 
# 결과값
0
0
1
-1
cs



2. join


join 함수는 인자로 받은 문자열으 각 문자사이에 문자열을 삽입하는 함수입니다. 예를 들어 Rekt라는 문자열에 /을 삽입하면 R/e/k/t가 되는 것이죠.


1
2
3
4
"/".join("Rekt")
 
# 결과값
"R/e/k/t"
cs



3. upper & lower


upper는 소문자를 대문자로 변경해주는 함수이며 lower는 대문자를 소문자로 변환합니다.


1
2
3
4
5
6
7
"life is short you need python".upper()
"LIFE IS SHORT YOU NEED PYTHON".lower()
 
# 결과값
 
"LIFE IS SHORT YOU NEED PYTHON"
"life is short you need python"
cs



4. replace


기존 문자열을 원하는 새 문자열로 치환해주는 함수입니다. 문자열에서 일괄적으로 수정할 내용이 있을 경우에 유용하게 사용됩니다.


1
2
3
4
5
"my name is rekt77".replace("rekt77","python")
 
# 결과값
 
"my name is python"
cs



5. split


구분자를 기준으로 문자열을 나눠 리스트로 반환하는 함수입니다. 여기서 리스트라는 것은 python에서 배열같은 자료구조입니다.

제가 생각하기에 가장 많이 쓰는 문자열함수 top 3 에 들어갈것 같습니다. 정말 기능자체가 너무 강력합니다.


1
2
3
4
5
6
"hello python".split()
"010-7607-4401".split("-")
 
# 결과값
["hello","python"]
["010","7607","4401"]
cs


1번 라인에는 아무인자를 넣어주지 않았는데 공백을 기준으로 문자열이 잘린 것을 볼 수 있습니다. 그 이유는 split의 기본 인자가 공백이기 때문입니다. 따라서 공백을 기준으로 나눌 때에는 아무 것도 넣어주시지 않으셔도 무방합니다.



6. count


count함수는 인자로 입력받은 문자열이 문자열내에 몇번 출현하는지 숫자로 반환해주는 함수입니다. 예를 들어 어떤 기사에서 아이언맨이란 단어가 몇 번 출현하였는지 궁금할때에는 기사.count("아이언맨") 하시면 되겠죠? 


1
2
3
4
5
6
7
8
9
10
article = """
The US Military Is Chopping Up Its Iron Man Suit For Parts
It’s no wonder Stan Lee had to invent a power-source that defied
the laws of physics to make Iron Man feasible even as a comic-book.
"""
 
article.count("Iron Man")
 
# 결과값
2
cs


7. startswith


startswith 함수는 어떤 문자열이 특정 단어로 시작하는지 체크할 때 쓰이는 함수입니다. 예를 들어 a로 시작하는 단어만을 검사하고 싶을 때가 있죠? 이런 경우에 사용하면 굉장히 유용한 함수입니다. 결과값은 참/거짓으로 리턴됩니다.


1
2
3
4
"apple".startswith("a")
 
# 결과값
True
cs


'Dev > python' 카테고리의 다른 글

[python] 리스트 함수  (0) 2019.02.11
[python] 리스트와 Shallow Copy  (0) 2019.02.10
[python] 문자열  (0) 2019.02.07
[python] 기본자료형 - 숫자  (0) 2019.02.07
[python] 파이썬 설치하기  (0) 2019.02.07

# 파이썬 기본자료형



먼저 Python의 자료형에 관하여 알아보겠습니다. 자료형이란 프로그래밍시 사용되는 모든 자료 형태입니다. Python에는 기본적으로 숫자, 문자열, 리스트, 딕셔너리, 튜플, Bool 그리고 Set의 자료형이 존재하는데요, 타언어에서는 변수를 선언할 때 int num, String alpha 등 처럼 자료형을 명시해줘야함과 다르게 Python은 변수 선언시 자료형을 명시하지 않아도 되는 특징을 갖고 있습니다. 


a = 123

b = "Hello Python"


즉, 위와 같이 입력해도 python은 찰떡같이 알아먹습니다. qutation("")으로 감싸여진 것은 str, 일반 숫자로 쓰여 있는것은 int형으로 인식합니다. 변수를 선언함과 동시에 자료형을 입력해주지 않아도 되는 편리함 때문에 문법이 더욱 간결해집니다.


하지만 이것은 무조건 좋은 것만은 아닙니다. 요즘 3.7버전의 python에서는 type hint 라는것이 등장했는데요 함수의 인자 값으로 들어갈 형을 지정해 주는 것입니다. 기존의 python은 함수의 인자에 자료형을 명시해 주지않아 가독성이 떨어지는 경향이 있었습니다. 이는 사용자의 불편함을 초래하였고 이를 해결하려는 노력이 지속되고 있습니다.


그렇기 때문에 변수를 선언할 때에는 변수 이름만 봐도 어떤 것인지 알게끔하는 능력이 정말 중요합니다.




# 숫자


Python에서 숫자란 1, 2, 3, -3 과 같이 정수와, 1.45, 0.11과 같이 실수로 표현되는 수를 의미합니다. 추가적으로 기수 체계가 다른 16진수, 8진수, 2진수도 인식합니다.


 자료형

 선언방법

 정수형

 num = 123

 실수형

 num = 1.45

 16진수

 num = 0x0d

 8진수

 num = 0o07

 2진수

 num = 0b1010


먼저 정수, 16진수, 8진수, 2진수 형태로 변수를 선언하면 python내에서 해당 변수의 자료형을 int로 인식합니다. 즉 0x0d를 입력한다고 해서 0x0d가 저장되는 것이 아니라, 0x0d의 10진수값인 13이 변수에 저장되는 것이죠.


하지만 실수형으로 변수를 선언하였다면 해당 변수의 자료형은 float형이 됩니다. 한 번 확인해 볼까요?



1
2
3
4
5
6
7
8
9
10
11
12
13
14
num = 123
print(type(num))
 
num = 1.45
print(type(num))
 
num = 0x0d
print(type(num))
 
num = 0o07
print(type(num))
 
num = 0b1010
print(type(num))
cs


type()함수는 해당 변수의 자료형을 확인하는 내장함수입니다.



해당 코드를 실행한 결과값 입니다. 제가 말한 대로 실수형을 제외한 모든것은 int형으로 저장이 되었죠?




# 연산자


컴퓨터는 성능좋은 계산기입니다. 그렇다면 당연히 우리는 컴퓨터로부터 수학적인 계산능력을 끌어와 이용해야 할 것입니다. 다른 언어를 배우고 오신 분들이라면 다른언어에는 연산자라는게 있다는 것을 이미 알고 계실 겁니다. 당연히 Python도 타 언어와 동일하게 계산 연산자가 존재합니다. 사칙연산뿐만아니라, 제곱연산자 등 편리한 연산자들이 있습니다.


 연산자

설명

 +

더하기 연산자 

 -

 빼기 연산자

 *

 곱하기 연산자

 /

 나누기 연산자(소수점 반환, 자동 형변환, 3버전기준)

 **

 제곱 연산자

 //

 나눗셈 후 몫 반환

 %

 나눗셈 후 나머지 반환


그렇다면 이번에는 위의 연산자를 이용하여 실제로 변수의 값들을 연산해 보도록 하겠습니다.


1
2
3
4
5
6
7
8
9
10
11
num1 = 10
num2 = 4
 
print(num1+num2)
print(num1-num2)
print(num1*num2)
print(num1/num2)
print(num1**num2)
print(num1//num2)
print(num1%num2)
 
cs



결과 값입니다. 제대로 값이 나오는 것을 확인 할 수 있죠? 그런데 말입니다 정수끼리 나눗셈을 했을때 실수가 나오는 것에대해서 어떤 생각이 드시나요? C언어에서는 정수끼리의 연산을 진행해서 실수가 나오게 하려면 강제 형변환(type casting)을 진행해줘야 했는데요 python은 자동으로 형을 변환해 줍니다. 한번 확인해 볼까요?


1
2
3
4
5
num1 = 10
num2 = 4
 
print(type(num1/num2))
 
cs



결과 값입니다. float형으로 변환되었죠? 이와 같이 파이썬에서는 나눗셈을 시도할 때 강제적인 형변환이 따로 필요하지 않습니다. 정말 간단하지 않나요?





'Dev > python' 카테고리의 다른 글

[python] 리스트 함수  (0) 2019.02.11
[python] 리스트와 Shallow Copy  (0) 2019.02.10
[python] 문자열 함수  (0) 2019.02.09
[python] 문자열  (0) 2019.02.07
[python] 파이썬 설치하기  (0) 2019.02.07

# 파이썬 설치하기




안녕하십니까 코드사기꾼입니다. 



요즘 개발인력시장에서 Python에 대한 수요가 많아진 만큼 이제부터 Python 강의를 업로드해볼까 합니다. 


Python이란 귀도 반 로섬(Guido Van Rossum)이 개발한 인터프리터 언어이며, 문법이 쉬워 빠르게 배울 수 있는 특징이 있습니다.


간결한 문법과 거대한 오픈소스 생태계 때문에 개발 속도가 정말 빨라서 C언어를 주언어로 사용하던 저한테는 특히나 매력적으로 다가 왔는데요, C언어로 개발했을때의 퍼포먼스는 나오지 않지만 Python으로 개발했을 때의 개발시간과의 등가교환에는 상당히 만족하고 있습니다.


자 그럼 이제부터 Python을 설치해보도록 하겠습니다.



# python.org



링크>>> python.org


링크에 접속해서 Download를 클릭하면 아래와 같은 화면이 출력됩니다.






정말 많은 종류의 python이 있네요! 몇년 이내에 버전 2 python은 지원 종료 되기 때문에 처음 접하시는 분이라면 버전 3 python을 추천합니다. 하지만 버전 2도 레가시 버전으로 의미가 있습니다. 제가 이 글을 작성할 때 기준으로 가장 최신버전은 python 3.6.3이었습니다. 여러분들이 설치를 진행하 실 때 가장 최신 버전을 설치하시면 됩니다.


하지만 여전히 많은 라이브러리가 2점대를 지원하고 있기 때문에 특정 버전이 필요한 것이라면 그 버전을 받으시는것이 중요합니다. 


파이썬은 버전2에서 3으로 넘어오면서 꽤 큰 변화를 겪었는데요 그것에 대해서 잘 정리해 놓은 블로그가 있어 링크를 첨부합니다. ^^


링크 >>> http://www.w3big.com/ko/python/python-2x-3x.html






버전을 선택하였으면 본인이 운용하고 있는 OS, 설치파일 형태 등을 선택해야 하는데요 저는 윈도우즈를 운용하고 있고 실행파일 형태의 설치파일을 원하기 때문에 x86-64 executable installer를 선택하였습니다.




파일이 다운로드가 완료되면 실행 시키시면 됩니다.

위 그림은 실행시켰을 나타나는 첫 화면인데요, Add Python 3.6 to PATH와 Install launcher for all users를 둘다 선택하고 설치를 진행해 줍니다.

Add Python 3.6 to PATH는 정말 중요한 옵션인데요 시스템 환경변수와 관련된 옵션입니다. 


환경변수라는것은 커맨드라인 프롬프트(CMD)에 특정 명령어를 입력하였을때 실행할 파일을 매핑시켜주는 변수입니다. CMD에 python이라는 명령어를 입력했을 때 원래라면 아무것도 실행되어야 하지 않는데 Add Python 3.6 o PATH를 활성화하면 환경변수에 Python 실행파일의 경로가 저장되어 CMD가 인식하여 Python 인터프리터를 실행시켜 줍니다.





Install for all users 옵션을 선택하면 현재 로그온 되어 있는 계정외에 모든 계정에서 python을 실행할 수 있습니다. 추가적으로 필자는 사용자 하위 폴더에 python폴더가 생성되는 것 보다 C드라이브 하위에 생기는 것을 선호하기 때문에 설치 폴더를 변경하였지만, 내버려둬도 무방합니다.


통상적으로 python 설치 폴더는 버전 2번째 자리까지 나타내는데요 3.6.3이면 36으로 3.7.1은 37로 표현합니다. 저는 3.6.3을 다운받았기 때문에 Python36이라는 폴더를 설치폴더로 결정하였습니다.




자 여기까지 오셨다면 설치가 완료된 것입니다. Close 버튼을 누르고 설치가 완벽하게 되었는지 확인해 보도록 하겠습니다.

CMD 창을 열고 python을 입력해 봅니다.




정상적으로 실행이 되셨다면 아래의 코드를 입력해보고 마무리 해보도록 하겠습니다.



1
print("Hello World")
cs


Hello Wolrd가 출력된 것을 확인하셨나요? 정상적으로 출력되면 설치가 제대로 된 것입니다.


'Dev > python' 카테고리의 다른 글

[python] 리스트 함수  (0) 2019.02.11
[python] 리스트와 Shallow Copy  (0) 2019.02.10
[python] 문자열 함수  (0) 2019.02.09
[python] 문자열  (0) 2019.02.07
[python] 기본자료형 - 숫자  (0) 2019.02.07

+ Recent posts