puppeteer-stealthvshrequests

MIT 271 30 89,751

1.2 million (month) May 29 2018 2.11.2(2 years ago)

780 1 35 MIT

Feb 23 2022 10.7 thousand (month) 0.9.2(8 months ago)

Puppeteer Stealth is puppeteer plugin that fortifies headles browser for web scraping. This makes detection of puppeteer scrapers more difficult allowing to scrape targets which use headless browser detection techniques.

Puppeteer-stealth does this by applying various javascript patches to cover up traces of headless browser presence in the web scraping browser's environment.

hrequests is a feature rich modern replacement for a famous requests library for Python. It provides a feature rich HTTP client capable of resisting popular scraper identification techniques: - Seamless transition between headless browser and http client based requests - Integrated HTML parser - Mimicking of real browser TLS fingerprints - Javascript rendering - HTTP2 support - Realistic browser headers

Highlights

bypasshttp2tls-fingerprinthttp-fingerprintsyncasync

Example Use

const puppeteer = require('puppeteer-extra')

// add stealth plugin and use defaults (all evasion techniques)
const StealthPlugin = require('puppeteer-extra-plugin-stealth')
puppeteer.use(StealthPlugin())

// puppeteer usage as normal
puppeteer.launch({ headless: true }).then(async browser => {
  console.log('Running tests..')
  const page = await browser.newPage()
  await page.goto('https://bot.sannysoft.com')
  await page.waitForTimeout(5000)
  await page.screenshot({ path: 'result.png', fullPage: true })
  await browser.close()
  console.log("success - check the result.png screenshot")
})

hrequests has almost identical API and UX as requests and here's a quick overview:

import hrequests

# perform HTTP client requests
resp = hrequests.get('https://httpbin.org/html')
print(resp.status_code)
# 200

# use headless browsers and sessions:
session = hrequests.Session('chrome', version=122, os="mac")

# supports asyncio and easy concurrency
requests = [
    hrequests.async_get('https://www.google.com/', browser='firefox'),
    hrequests.async_get('https://www.duckduckgo.com/'),
    hrequests.async_get('https://www.yahoo.com/'),
    hrequests.async_get('https://www.httpbin.org/'),
]
responses = hrequests.map(requests, size=3)  # max 3 conccurency

Alternatives / Similar

curl-impersonate

4,221 compare

curl-cffi

1,751 compare

requests

52,519 compare

node-fetch

8,825 compare

axios

106,345 compare

aiohttp

15,425 compare

httpx

13,703 compare

got

14,454 compare

superagent

16,610 compare

needle

1,637 compare

faraday

5,785 compare

httpclient

703 compare

undetected-chromedriver

10,683 compare

excon

1,163 compare

httparty

5,837 compare

pycurl

1,094 compare

typhoeus

4,084 compare

puppeteer-stealth

89,751 compare

httr

988 compare

rvest

1,498 compare

guzzle

23,055 compare

em-http-request

1,217 compare

symfony-http

1,976 compare

wreck

381 compare

http-2

898 compare

treq

590 compare

resty

10,341 compare

req

4,374 compare

nestful

505 compare

crul

107 compare

requests

3,576 compare

selenium-driverless

718 compare

buzz

1,913 compare

httpful

1,741 compare

ralger

156 compare

http.rb

3,013 compare