정리53 [정보] 동적 웹 크롤링 정적 웹 페이지 동적 웹 페이지 소스에서 화면에 렌더링된 내용을 모두 찾을 수 있음 소스에서 화면에 렌더링된 내용을 일부 찾을 수 없음 HTML / CSS로만 구현 HTML / CSS 외 JavaScript 활용 Selenium : 웹 브라우저를 자동화하는 도구 모음. 다양한 플랫폼과 언어를 지원. pip install selenium / conda install selenium으로 설치 가능 from selenium import webdriver driver = webdriver.Chrome('크롬드라이버 위치') url = 'url 주소' driver.get(url) #정적 - requests.get() html = driver.page_source soup = BeautifulSoup(html, '.. 2021. 7. 20. [정보] 정적 웹크롤링 - 아래 내용은 학교 수업 내용을 정리한 것임 (시험공부용) - 선생님의 자료와 부교재 을 주로 참고함 - 오류 지적, 질문 등 언제나 환영 1. 개념 1) 파이썬 파이썬 (Python) - 빠르게 성장하는 언어로 데이터 분석 분야에서 많이 활용됨. 빅데이터 처리에서의 파이썬의 장점 1. 이해하기 쉽고 유연한 문법으로 인한 좋은 접근성 2. 빅데이터 처리 언어로서의 많은 커뮤니티 형성 3. 가독성이 좋고 간결, 잘 갖춰진 스탠다드 라이브러리 4. 데이터 분석 관련 패키지 제공, 라이브러리 무상 공급 +) 라이브러리 BeautifulSoup : html, xml 파일에서 데이터를 가져오기 위한 파이썬 라이브러리 urllib.request / requests : 둘 다 크롤링을 할때 많이 사용되는 라이브러리.. 2021. 7. 19. GitHub 간단한 사용법 정리 연구팀 프로젝트 때문에 GitHub를 쓰게 될 예정인데 사용법을 잘 몰라서 강좌 참고해서 간단히 작성해보기로 하였다. 이미 회원가입은 했으니 (간단하기도 하고) 그 부분은 생략하기로 했다. 우선 git은 형상 관리 시스템의 한 종류로, 개발자들이 프로그램 파일을 저장할 때 사용한다. 개발자들이 협업할 때 짤막한 설명을 덧붙여 파일을 보낼 때 등 다양하게 사용된다. 여기서 특히 많이 사용하는 세 가지 기능(받아오는 기능 제외)이 있다. 1. 커밋(commit) 말이 좀 어려워보이지만 그냥 쉽게 말해 저장하는 것이다. (강의에선 게임의 세이브 포인트와 같은 개념이라고 했다.) 커밋을 할 때에는 저장할 파일들을 묶어서 커밋하면 된다. 2. 스테이지에 올리기(add) 위에서 말한 '저장할 파일들을 묶는 것'을 .. 2021. 2. 15. 2020 프로젝트 연말 정산 보호되어 있는 글 입니다. 2021. 2. 15. 이전 1 ··· 10 11 12 13 14 다음