Skip to content

爬取 HTML

通过 crawlHTML() 爬取静态 HTML。

js
import { createCrawl } from 'x-crawl'

const crawlApp = createCrawl({ intervalTime: { max: 3000, min: 1000 } })

crawlApp
  .crawlHTML([
    'https://www.example.com/html-1',
    'https://www.example.com/html-2'
  ])
  .then((res) => {
    // 处理
  })

生命周期

crawlHTML API 拥有的声明周期函数:

  • onCrawlItemComplete: 当每个爬取目标完成后会回调

onCrawlItemComplete

在 onCrawlItemComplete 函数中你可以提前拿到每次爬取目标的结果。

基于 MIT 许可发布