Tech/Web Scrapping

Tech/Web Scrapping

beautifulsoup 사용법

select()는 조건을 만족하는 모든 요소를 리스트에 담아 반환한다. select_one()은 그 중에 가장 위에 나오는 요소를 반환한다. 선택자는 CSS를 작성할 때 사용하는 것과 똑같이 사용하면 된다. # 선택자를 사용하는 방법 -> copy selector soup.select('태그명') soup.select('.클래스명') soup.select('#아이디명') # 위를 조금 더 구체화해서 어떤 경로를 거쳐 요소를 찾아야 되는지 명시할 수 있다. soup.select('상위태그명 > 하위태그명 > 하위태그명') soup.select('상위태그명.클래스명 > 하위태그명.클래스명') # 여러개의 li 태그를 가질 때, 몇 번째 li 인지를 부모의 몇 번째 자식인지 명시해서 지정할 수 있다. soup..

Tech/Web Scrapping

다음 영화 web scrapping 하여 mongDB에 저장

web scrapping with pymongo import requests from bs4 import BeautifulSoup from pymongo import MongoClient client = MongoClient('localhost', 27017) db = client.daummovie def insert_all(): # URL을 읽어서 HTML을 받아온다. headers = { "User-Agent": "Mozilla/5.0 (Macintosh; Intel Mac OS X 10_15_7) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/115.0.0.0 Safari/537.36"} data = requests.get('https://movie.daum.ne..

Tech/Web Scrapping

Web Scrapping 이란?

정의 웹 스크래핑은 웹 페이지에서 우리가 원하는 부분의 데이터를 수집해오는 것을 뜻한다. 한국에서는 crawling 이라는 용어로 혼용해서 사용하는 경우가 많다. crawling은 원래 자동화하여 주기적으로 웹 상에서 페이지들을 돌아다니며 분류/ 색인하고 업데이트된 부분을 찾는 등의 일을 하는 것을 뜻한다. 따라서 web scrapping이라고 검색해야 페이지 추출에 대한 결과가 나올 것이다. https://dzone.com/articles/web-scraping-vs-web-crawling-whats-the-difference Web Scraping vs Web Crawling: What’s the Difference? - DZone In this article, read an explanation o..

Tech/Web Scrapping

Selenium 활용법

네이버 접속 후 로그인 버튼 클릭 + 검색 창에 검색 단어 입력 후 키보드 엔터 누르기 from selenium import webdriver from selenium.webdriver.common.by import By from selenium.webdriver.common.keys import Keys browser = webdriver.Chrome() browser.get("https://www.naver.com") elem = browser.find_element(By.CLASS_NAME, "MyView-module__link_login___HpHMW") elem.click() broswer.back() browser.forward() elem = browser.find_element(By.ID,..

kimjingyu
'Tech/Web Scrapping' 카테고리의 글 목록