본문 바로가기

전체 글67

[정보] 정규식 표현 메타문자 : 정규표현식에서 사용함. 원래 그 문자가 가진 뜻이 아닌 특별한 용도로 사용하는 문자를 말함. 문자 집합 \w \W \d \D \s \S \b \B \w \W 단어, 비단어문자 re패키지 기본 메소드 import re 필수 re.match(pattern, string, flags) 문자열 처음부터 패턴이 일치되는 것 import re matchObj = re.match('a','a') print("1:",matchObj) print("2:",re.match('a','aba')) print("3:",re.match('a','bbb')) print("4:",re.match('a','baa')) re.search(patter,string,flags) re.match와 비슷하나 문자열의 처음부터 일치.. 2021. 7. 20.
[정보] 동적 웹 크롤링 정적 웹 페이지 동적 웹 페이지 소스에서 화면에 렌더링된 내용을 모두 찾을 수 있음 소스에서 화면에 렌더링된 내용을 일부 찾을 수 없음 HTML / CSS로만 구현 HTML / CSS 외 JavaScript 활용 Selenium : 웹 브라우저를 자동화하는 도구 모음. 다양한 플랫폼과 언어를 지원. pip install selenium / conda install selenium으로 설치 가능 from selenium import webdriver driver = webdriver.Chrome('크롬드라이버 위치') url = 'url 주소' driver.get(url) #정적 - requests.get() html = driver.page_source soup = BeautifulSoup(html, '.. 2021. 7. 20.
[정보] 정적 웹크롤링 - 아래 내용은 학교 수업 내용을 정리한 것임 (시험공부용) - 선생님의 자료와 부교재 을 주로 참고함 - 오류 지적, 질문 등 언제나 환영 1. 개념 1) 파이썬 파이썬 (Python) - 빠르게 성장하는 언어로 데이터 분석 분야에서 많이 활용됨. 빅데이터 처리에서의 파이썬의 장점 1. 이해하기 쉽고 유연한 문법으로 인한 좋은 접근성 2. 빅데이터 처리 언어로서의 많은 커뮤니티 형성 3. 가독성이 좋고 간결, 잘 갖춰진 스탠다드 라이브러리 4. 데이터 분석 관련 패키지 제공, 라이브러리 무상 공급 +) 라이브러리 BeautifulSoup : html, xml 파일에서 데이터를 가져오기 위한 파이썬 라이브러리 urllib.request / requests : 둘 다 크롤링을 할때 많이 사용되는 라이브러리.. 2021. 7. 19.
GitHub 간단한 사용법 정리 연구팀 프로젝트 때문에 GitHub를 쓰게 될 예정인데 사용법을 잘 몰라서 강좌 참고해서 간단히 작성해보기로 하였다. 이미 회원가입은 했으니 (간단하기도 하고) 그 부분은 생략하기로 했다. 우선 git은 형상 관리 시스템의 한 종류로, 개발자들이 프로그램 파일을 저장할 때 사용한다. 개발자들이 협업할 때 짤막한 설명을 덧붙여 파일을 보낼 때 등 다양하게 사용된다. 여기서 특히 많이 사용하는 세 가지 기능(받아오는 기능 제외)이 있다. 1. 커밋(commit) 말이 좀 어려워보이지만 그냥 쉽게 말해 저장하는 것이다. (강의에선 게임의 세이브 포인트와 같은 개념이라고 했다.) 커밋을 할 때에는 저장할 파일들을 묶어서 커밋하면 된다. 2. 스테이지에 올리기(add) 위에서 말한 '저장할 파일들을 묶는 것'을 .. 2021. 2. 15.