博客
关于我
puppeteer(headless chrome)实现网站登录
阅读量:430 次
发布时间:2019-03-06

本文共 2906 字,大约阅读时间需要 9 分钟。

Puppeteer 简介与实用应用

Puppeteer 是 Chrome 团队开发的一款强大 Node 库,允许开发者通过编写 JavaScript 脚本来控制浏览器的行为。无论是自动化操作、网页截图生成 PDF,还是实现复杂的浏览器控制任务,这个工具都能轻松应对。以下将从基础到应用详细介绍 Puppeteer 的使用方法。


Puppeteer 的简单例子

首先,让我们了解 Puppeteer 的基本操作。以下是一个简单的代码示例,演示如何使用 Puppeteer 控制浏览器。

const puppeteer = require('puppeteer');(async () => {    const browser = await puppeteer.launch(); // 启动浏览器    const page = await browser.newPage(); // 打开一个新页面    await page.goto('https://example.com'); // 访问指定 URL    await page.screenshot({ path: 'example.png' }); // 截取页面内容    await browser.close(); // 关闭浏览器})();

从代码中可以看出,Puppeteer 的操作都是异步进行的。browserpage 是最常用的对象,前者控制整个浏览器,后者操作具体的网页。


登录网站的示例

接下来,我们来看一个实际应用——登录网站。假设我们想自动登录豆瓣,可以按照以下步骤操作:

const puppeteer = require('puppeteer');const account = '123456@qq.com';const password = '123456';(async () => {    const browser = await puppeteer.launch(); // 启动浏览器    const page = await browser.newPage(); // 打开新页面    await page.goto('https://www.douban.com/'); // 访问豆瓣首页    await page.type('#form_email', account); // 输入账号    await page.type('#form_password', password); // 输入密码    await page.click('.bn-submit'); // 点击登录按钮    await page.waitForNavigation({ // 等待页面加载完成        waitUntil: 'load'    });    await page.screenshot({ path: 'douban_login.png' }); // 截取登录页面    await browser.close(); // 关闭浏览器})();

这个代码实现了完整的登录流程:输入账号、密码、点击登录按钮,并等待页面加载完成后截取登录成功的页面。


处理验证码网站的方法

在某些网站,登录后会跳转到验证码页面。针对这种情况,我们可以通过以下方法解决:

const puppeteer = require('puppeteer');(async () => {    const browser = await puppeteer.launch({ headless: false }); // 以无头模式运行    const page = await browser.newPage();    await page.goto('https://www.douban.com/accounts/login'); // 访问登录页面    await page.type('#form_email', '123456@qq.com'); // 输入账号    await page.type('#form_password', '123456'); // 输入密码    await page.click('.bn-submit'); // 点击登录按钮    await page.waitForNavigation({ // 等待页面跳转        waitUntil: 'load'    });    // 检查是否跳转到登录成功页面    if (page.url() === 'https://www.douban.com/') {        console.log('登录成功');    } else {        console.log('需要输入验证码');        // 进入循环,等待跳转到首页        while (true) {            await page.waitForNavigation({ // 等待页面加载                waitUntil: 'load'            });            if (page.url() === 'https://www.douban.com/') {                console.log('登录成功');                break;            }        }    }    await browser.close(); // 关闭浏览器})();

实际应用场景

Puppeteer 在实际开发中的应用场景丰富多样。以下是一些常见用途:

  • 网页截图生成 PDF:通过 Puppeteer 可以轻松将网页内容转换为 PDF 文件,适用于需要将网页内容存档或分享的场景。

  • 自动化测试:开发者可以利用 Puppeteer 模拟用户操作,自动化测试网页的功能,提高测试效率。

  • 数据抓取:通过 Puppeteer 可以模拟用户点击按钮、填写表单等操作,实现数据抓取,尽管某些网站对爬虫有反爬虫机制,但在大多数情况下仍然有效。

  • 网页内容分析:开发者可以通过 Puppeteer 提取网页中的结构化数据,进行进一步的分析和处理。


  • 注意事项

    在使用 Puppeteer 时,需要注意以下几点:

  • 浏览器控制:Puppeteer 模拟用户操作可能会被某些网站检测到,导致被封锁。开发者需要根据实际需求选择是否使用 headless 模式。

  • 处理动态内容:部分网站会使用动态加载技术,Puppeteer 需要等待页面加载完成后才能进行操作。

  • 代码优化:在编写复杂的脚本时,确保代码结构清晰,避免过多的异步操作导致难以调试。


  • 通过以上内容,我们可以看出,Puppeteer 是一个强大而灵活的工具,适用于各种自动化任务。无论是简单的网页截图,还是复杂的登录验证,Puppeteer 都能轻松应对。

    转载地址:http://ioguz.baihongyu.com/

    你可能感兴趣的文章
    opencv保存图片路径包含中文乱码解决方案
    查看>>
    opencv图像分割2-GMM
    查看>>
    OpenCV(1)读写图像
    查看>>
    OpenCV:概念、历史、应用场景示例、核心模块、安装配置
    查看>>
    Openlayers图文版实战,vue项目从0到1做基础配置
    查看>>
    Openlayers高级交互(10/20):绘制矩形,截取对应部分的地图并保存
    查看>>
    Openlayers高级交互(16/20):两个多边形的交集、差集、并集处理
    查看>>
    Openlayers高级交互(17/20):通过坐标显示多边形,计算出最大幅宽
    查看>>
    Openlayers高级交互(19/20): 地图上点击某处,列表中显示对应位置
    查看>>
    openlayers:圆孔相机根据卫星经度、纬度、高度、半径比例推算绘制地面的拍摄的区域
    查看>>
    OpenMCU(一):STM32F407 FreeRTOS移植
    查看>>
    OpenMCU(二):GD32E23xx FreeRTOS移植
    查看>>
    OpenMMLab | S4模型详解:应对长序列建模的有效方法
    查看>>
    OpenMMLab | 【全网首发】Llama 3 微调项目实践与教程(XTuner 版)
    查看>>
    OpenMMLab | 面向多样应用需求,书生·浦语2.5开源超轻量、高性能多种参数版本
    查看>>
    OpenPPL PPQ量化(4):计算图的切分和调度 源码剖析
    查看>>
    OpenPPL PPQ量化(5):执行引擎 源码剖析
    查看>>
    Openresty框架入门详解
    查看>>
    OpenResty(2):OpenResty开发环境搭建
    查看>>
    openshift搭建Istio企业级实战
    查看>>