.KAZ
F-Man World!
.KAZ
전체 방문자
오늘
어제

공지사항

  • 시작하다
반응형
  • All (37)
    • 사회초년생 (7)
      • 정책 (2)
      • 블로그 (1)
      • 책 (4)
    • 경제 (19)
      • 재무설계 (3)
      • 주식 (0)
      • 부동산 (0)
      • 보험&연금 (0)
      • 세금 (3)
      • 금융 경제 지식 (13)
    • Python (9)
      • Basic (4)
      • 크롤링(스크래핑) (5)
      • 주식 자동매매 프로그램 (0)
    • Side Hustle (2)

블로그 메뉴

  • Notion.KAZ
  • Tstory
  • 태그 클라우드
  • 방명록

인기 글

최근 글

태그

  • 파이썬
  • PYTHON
  • 재무설계
  • 금융이슈
  • 연말정산
  • 크롤링
  • 금융경제지식
  • 파이어족
  • 금융
  • beautifulsoup4
hELLO · Designed By 정상우.
.KAZ

F-Man World!

[Python] 파이썬 BeautifulSoup4 설치(for.Mac)
Python/크롤링(스크래핑)

[Python] 파이썬 BeautifulSoup4 설치(for.Mac)

2022. 10. 14. 00:18
반응형

1. Beautifulsoup4 (뷰티풀수프4) 설치

  • HTML / XML Parser: HTML 과 XML에서 원하는 태그(Tag) 정보를 파싱(Parsing)할 수 있음(웹스크랩핑, 웹크롤링)
  • 크롬 개발자 도구 이용법 먼저 알아야 함
  • 아래 코드 블록을 터미널에 입력하면 설치됨
pip3 install requests
pip3 install beautifulsoup4
pip3 install lxml
pip3 install urllib3

 

2. 웹 크롤링(Crawling)

  • 해당 페이지 내용 전부를 가져오는 것
  • 아래 코드 블록을 VSC 터미널에 입력
from urllib.request import Requests, urlopen
from bs4 import BeautifulSoup

Page = "https://www.naver.com/"
req = Request(Page)
webpage = urlopen(req).read()

print(webpage)
  • 입력 시 터미널에 깨져보이는 문자들이 마구 보이면 된 것임

 

3. 웹 스크랩핑(Scraping) Level 1

  • 크롤링(crawling)한 페이지에서 특정 정보를 추출할 때 사용
  • 웹페이지 태그(Tag) 파싱(Parsing) 방법 1
  • 아래 코드 블록을 VSC 터미널에 입력
from urllib.request import Requests, urlopen
from bs4 import BeautifulSoup

Page = "https://www.naver.com/"
req = Request(Page)
webpage = urlopen(req).read()

soup = BeautifulSoup(webpage, 'html.parser')

subject = soup.find('h1').text
print(subject)
  • print(subject)  = "네이버"

 

3-2. 웹 스크랩핑(Scraping) Level 2

  • 웹페이지 태그(Tag) 파싱(Parsing) 방법 2 (좀 더 디테일 하게)
  • 아래 코드 블록을 VSC 터미널에 입력
from urllib.request import Requests, urlopen
from bs4 import BeautifulSoup

Page = "https://www.naver.com/"
req = Request(Page)
webpage = urlopen(req).read()

soup = BeautifulSoup(webpage, 'html.parser')

a = soup.find('ul', attrs={"class" : "list_nav type_fix"}).text
print(a)

b = soup.find('a', attrs={"data-clk" : "svc.cafe"}).text
print(b)
  • print(a) = "메일 카페 블로그 지식in 쇼핑 쇼핑LIVE Pay"
  • print(b) = "카페"

 

3-3. 웹 스크랩핑(Scraping) Level 3

  • 웹페이지 태그(Tag) 파싱(Parsing) 방법 3 (URL 가져오기)
  • 아래 코드 블록을 VSC 터미널에 입력
from urllib.request import Requests, urlopen
from bs4 import BeautifulSoup

Page = "https://www.naver.com/"
req = Request(Page)
webpage = urlopen(req).read()

soup = BeautifulSoup(webpage, 'html.parser')

c = soup.find('a', attrs={"data-clk" : "svc.mail"})['href']
print(c)
  • print(c) = "https:/mail.naver.com/"
반응형

'Python > 크롤링(스크래핑)' 카테고리의 다른 글

[Python] 대한민국 정책브리핑 보도자료 크롤링(SN, BS4, Pd)  (0) 2022.12.05
[Python] 네이버뉴스 크롤링 2 (셀레니움, BS4, pandas)  (0) 2022.12.03
[Python] 네이버뉴스 크롤링 1 (셀레니움, BS4)  (0) 2022.11.02
[Python] 파이썬 Selenium(셀레니움) 설치(for.Mac)  (0) 2022.10.14
.KAZ
.KAZ
👾사회초년생의 고군분투기

티스토리툴바