본문 바로가기

Python5

Beautiful Soup으로 웹 페이지 쉽게 파싱하기 Beautiful Soup 는 파이썬에서 HTML과 XML 파일을 파싱하기 위해 사용되는 서드파티 라이브러리이다. 웹 스크래핑과 데이터 추출 작업 용도로 설계되었으며, 복잡한 HTML 문서에서 데이터를 추출하고 조작하는 데 유용하다. Python의 내장 'html.parser', 'lxml', 'html5lib'과 같은 다양한 파서를 지원한다. 이를 통해 다양한 유형의 문서를 효율적으로 처리할 수 있다. 파싱된 데이터를 수정하거나 새로운 HTML/XML 문서를 생성할 수 있다. 웹크롤링을 할 때는 웹사이트의 'robots.txt'를 확인해서 스크래핑 허용되는 페이지 등 기준을 체크하자. 설치는 'pip install beautifulsoup4' 명령어를 입력하면 된다. HTML 문서 파싱: from bs.. 2024. 3. 23.
파이썬에서 HTTP를 쉽게 다루는 방법: requests 라이브러리 사용법 requests 라이브러리는 파이썬에서 HTTP 요청을 보내는 것을 간소화하기 위해 사용되는 서드파티 라이브러리이다. 간결하고 사용하기 쉬운 API를 제공하여 웹 서버에 요청을 보내고 응답을 받는 일련의 과정을 편리하게 만들어준다. 설치 방법은 간단하다. 'pip install requests' 끝. 주요 기능 >> GET, POST, PUT, DELETE 등의 HTTP 메소드를 사용하여 웹 서버에 요청을 보낼 수 있다. GET 요청: import requests response = requests.get('https://api.example.com/data') if response.status_code == 200: data = response.json() print(data) POST 요청: payl.. 2024. 3. 23.
Selenium WebDriver 소개: 웹 자동화의 시작 WebDriver를 사용하기 위해 조사하다 보니, Selenium이란 게 나왔다. Selenium은 웹 애플리케이션을 자동화하기 위한 테스트 프레임워크다. Selenium을 사용하면 웹 브라우저를 통해 웹페이지에 접속하고, 사용자의 관점에서 웹페이지 상의 다양한 요소와 상호작용할 수 있다고 한다. 주로 웹애플리케이션의 테스트 자동화에 사용되며, 웹 스크래핑이나 자동화된 데이터 수집 등 다양한 브라우저를 자동으로 제어하는 데에 활용된다. 그럼, Selenium의 주요 구성 요소 중 하나인 Selenium WebDriver에 대해 알아보자. WebDriver는 여러 브라우저에서 Selenium 명령을 수행하는 인터페이스를 제공한다. Chrome, Firefox, Safari 등 다양한 브라우저를 지원한다. .. 2024. 3. 23.
파이썬 라이브러리: 표준, 서드파티, 사용 예시 라이브러리란 특정 기능을 수행하기 위해 미리 작성된 코드 집합을 말한다. 파이썬도 다른 언어처럼 다양한 라이브러리를 가지고 있는데, 크게 표준 라이브러리와 서드파티 라이브러리로 나뉜다. (서드파티 라이브러리: 커뮤니티나 개별 개발자들에 의해 만들어짐. 특정 작업을 수행하기 위해 설계되었으며, 파이썬 생태계에서 표준 라이브러리 만큼이나 중요하다고 볼 수 있음) 적합한 라이브러리를 사용하면 보다 쉽고 효율적으로 프로그래밍할 수 있기 때문에, 어떤 라이브러리가 있는지 미리 알고 있어야 적재적소에 활용 가능하다. 파이썬 표준 라이브러리 >> 파이썬 표준 라이브러리는 파이썬 설치 시 기본적으로 제공되는 라이브러리다. 다양한 기본 기능을 포함하고 있는데, 이 라이브러리들은 파이썬의 핵심부분이며 특별한 설치 과정 없.. 2024. 3. 23.