반응형
1. Beautifulsoup4 (뷰티풀수프4) 설치
- HTML / XML Parser: HTML 과 XML에서 원하는 태그(Tag) 정보를 파싱(Parsing)할 수 있음(웹스크랩핑, 웹크롤링)
- 크롬 개발자 도구 이용법 먼저 알아야 함
- 아래 코드 블록을 터미널에 입력하면 설치됨
pip3 install requests
pip3 install beautifulsoup4
pip3 install lxml
pip3 install urllib3
2. 웹 크롤링(Crawling)
- 해당 페이지 내용 전부를 가져오는 것
- 아래 코드 블록을 VSC 터미널에 입력
from urllib.request import Requests, urlopen
from bs4 import BeautifulSoup
Page = "https://www.naver.com/"
req = Request(Page)
webpage = urlopen(req).read()
print(webpage)
- 입력 시 터미널에 깨져보이는 문자들이 마구 보이면 된 것임
3. 웹 스크랩핑(Scraping) Level 1
- 크롤링(crawling)한 페이지에서 특정 정보를 추출할 때 사용
- 웹페이지 태그(Tag) 파싱(Parsing) 방법 1
- 아래 코드 블록을 VSC 터미널에 입력
from urllib.request import Requests, urlopen
from bs4 import BeautifulSoup
Page = "https://www.naver.com/"
req = Request(Page)
webpage = urlopen(req).read()
soup = BeautifulSoup(webpage, 'html.parser')
subject = soup.find('h1').text
print(subject)
- print(subject) = "네이버"
3-2. 웹 스크랩핑(Scraping) Level 2
- 웹페이지 태그(Tag) 파싱(Parsing) 방법 2 (좀 더 디테일 하게)
- 아래 코드 블록을 VSC 터미널에 입력
from urllib.request import Requests, urlopen
from bs4 import BeautifulSoup
Page = "https://www.naver.com/"
req = Request(Page)
webpage = urlopen(req).read()
soup = BeautifulSoup(webpage, 'html.parser')
a = soup.find('ul', attrs={"class" : "list_nav type_fix"}).text
print(a)
b = soup.find('a', attrs={"data-clk" : "svc.cafe"}).text
print(b)
- print(a) = "메일 카페 블로그 지식in 쇼핑 쇼핑LIVE Pay"
- print(b) = "카페"
3-3. 웹 스크랩핑(Scraping) Level 3
- 웹페이지 태그(Tag) 파싱(Parsing) 방법 3 (URL 가져오기)
- 아래 코드 블록을 VSC 터미널에 입력
from urllib.request import Requests, urlopen
from bs4 import BeautifulSoup
Page = "https://www.naver.com/"
req = Request(Page)
webpage = urlopen(req).read()
soup = BeautifulSoup(webpage, 'html.parser')
c = soup.find('a', attrs={"data-clk" : "svc.mail"})['href']
print(c)
- print(c) = "https:/mail.naver.com/"
반응형
'Python > 크롤링(스크래핑)' 카테고리의 다른 글
[Python] 대한민국 정책브리핑 보도자료 크롤링(SN, BS4, Pd) (0) | 2022.12.05 |
---|---|
[Python] 네이버뉴스 크롤링 2 (셀레니움, BS4, pandas) (0) | 2022.12.03 |
[Python] 네이버뉴스 크롤링 1 (셀레니움, BS4) (0) | 2022.11.02 |
[Python] 파이썬 Selenium(셀레니움) 설치(for.Mac) (0) | 2022.10.14 |