본문 바로가기

정리/정보 요약4

[정보] 인스타 크롤링 해보기 1. 크롬 브라우저 열기 -> 인스타 검색페이지 url 만들기 -> 검색페이지 접속하기 -> 첫게시글 클릭하기 (인스타 로그인은 수동 필요...) from selenium import webdriver driver = webdriver.Chrome('드라이버 위치') import time #인스타 접속 driver.get('https://www.instargram.com') time.sleep(2) #검색 함수 def insta_searching(word): url = 'https://www.instagram.com/explore/tags/' + word return url word = '충남삼성고' url = insta_searching(word) driver.get(url) #첫 게시글 클릭 def .. 2021. 7. 20.
[정보] 정규식 표현 메타문자 : 정규표현식에서 사용함. 원래 그 문자가 가진 뜻이 아닌 특별한 용도로 사용하는 문자를 말함. 문자 집합 \w \W \d \D \s \S \b \B \w \W 단어, 비단어문자 re패키지 기본 메소드 import re 필수 re.match(pattern, string, flags) 문자열 처음부터 패턴이 일치되는 것 import re matchObj = re.match('a','a') print("1:",matchObj) print("2:",re.match('a','aba')) print("3:",re.match('a','bbb')) print("4:",re.match('a','baa')) re.search(patter,string,flags) re.match와 비슷하나 문자열의 처음부터 일치.. 2021. 7. 20.
[정보] 동적 웹 크롤링 정적 웹 페이지 동적 웹 페이지 소스에서 화면에 렌더링된 내용을 모두 찾을 수 있음 소스에서 화면에 렌더링된 내용을 일부 찾을 수 없음 HTML / CSS로만 구현 HTML / CSS 외 JavaScript 활용 Selenium : 웹 브라우저를 자동화하는 도구 모음. 다양한 플랫폼과 언어를 지원. pip install selenium / conda install selenium으로 설치 가능 from selenium import webdriver driver = webdriver.Chrome('크롬드라이버 위치') url = 'url 주소' driver.get(url) #정적 - requests.get() html = driver.page_source soup = BeautifulSoup(html, '.. 2021. 7. 20.
[정보] 정적 웹크롤링 - 아래 내용은 학교 수업 내용을 정리한 것임 (시험공부용) - 선생님의 자료와 부교재 을 주로 참고함 - 오류 지적, 질문 등 언제나 환영 1. 개념 1) 파이썬 파이썬 (Python) - 빠르게 성장하는 언어로 데이터 분석 분야에서 많이 활용됨. 빅데이터 처리에서의 파이썬의 장점 1. 이해하기 쉽고 유연한 문법으로 인한 좋은 접근성 2. 빅데이터 처리 언어로서의 많은 커뮤니티 형성 3. 가독성이 좋고 간결, 잘 갖춰진 스탠다드 라이브러리 4. 데이터 분석 관련 패키지 제공, 라이브러리 무상 공급 +) 라이브러리 BeautifulSoup : html, xml 파일에서 데이터를 가져오기 위한 파이썬 라이브러리 urllib.request / requests : 둘 다 크롤링을 할때 많이 사용되는 라이브러리.. 2021. 7. 19.