본문 바로가기

Code Snippets/Python

[파이썬 크롤링] 크롤링 코드 작성 시간을 두배로 단축시키는 2가지 팁

크롤링 할 때 가장 많은 시간이 소요되는 부분은 크롬 탭을 통해 url, xml http request를 분석하는 것이다.

 

 

크롬 탭을 열어서, 화면 새로고침을 하면서 현재 클라이언트가 어떻게 서버로 요청을 보내고 있는지 살펴보고,

header 및 data 정보를 가져와서 코드를 작성하는 것이 꽤나 번거롭다.

 

아래 3가지 팁으로 이 과정을 매우 효율적으로 수행할 수 있다.

 

 

 

 

1) F5가 아니라 Reply XHR 활용

 

빠르게 F12로 개발자 도구에 들어가서,

크롤링하고자 하는 XHR를 확인하기 위해 F5(새로고침)을 연타할 필요가 더이상 없다.

 

이미 로딩이 되어 있는 XHR이 있으면, Reply XHR를 활용하기

2) CURL to Python requests Converter 이용하기

 

크롤링하고 하는 XHR를 찾았으면, 아래와 같이 CURL를 복사하고 Converter를 이용해서 빠르게 코드를 작성하기

 

 

 

https://curl.trillworks.com/

 

https://curl.trillworks.com/

 

Convert curl command syntax to Python requests, Ansible URI, browser fetch, MATLAB, Node.js, R, PHP, Strest, Go, Dart, Java, JSO

Language Ansible Browser (fetch) Dart Elixir Go Java JSON Node.js (fetch) Node.js (request) MATLAB PHP Python R Rust Strest

curl.trillworks.com