博客
关于我
puppeteer(headless chrome)实现网站登录
阅读量:430 次
发布时间:2019-03-06

本文共 2906 字,大约阅读时间需要 9 分钟。

Puppeteer 简介与实用应用

Puppeteer 是 Chrome 团队开发的一款强大 Node 库,允许开发者通过编写 JavaScript 脚本来控制浏览器的行为。无论是自动化操作、网页截图生成 PDF,还是实现复杂的浏览器控制任务,这个工具都能轻松应对。以下将从基础到应用详细介绍 Puppeteer 的使用方法。


Puppeteer 的简单例子

首先,让我们了解 Puppeteer 的基本操作。以下是一个简单的代码示例,演示如何使用 Puppeteer 控制浏览器。

const puppeteer = require('puppeteer');(async () => {    const browser = await puppeteer.launch(); // 启动浏览器    const page = await browser.newPage(); // 打开一个新页面    await page.goto('https://example.com'); // 访问指定 URL    await page.screenshot({ path: 'example.png' }); // 截取页面内容    await browser.close(); // 关闭浏览器})();

从代码中可以看出,Puppeteer 的操作都是异步进行的。browserpage 是最常用的对象,前者控制整个浏览器,后者操作具体的网页。


登录网站的示例

接下来,我们来看一个实际应用——登录网站。假设我们想自动登录豆瓣,可以按照以下步骤操作:

const puppeteer = require('puppeteer');const account = '123456@qq.com';const password = '123456';(async () => {    const browser = await puppeteer.launch(); // 启动浏览器    const page = await browser.newPage(); // 打开新页面    await page.goto('https://www.douban.com/'); // 访问豆瓣首页    await page.type('#form_email', account); // 输入账号    await page.type('#form_password', password); // 输入密码    await page.click('.bn-submit'); // 点击登录按钮    await page.waitForNavigation({ // 等待页面加载完成        waitUntil: 'load'    });    await page.screenshot({ path: 'douban_login.png' }); // 截取登录页面    await browser.close(); // 关闭浏览器})();

这个代码实现了完整的登录流程:输入账号、密码、点击登录按钮,并等待页面加载完成后截取登录成功的页面。


处理验证码网站的方法

在某些网站,登录后会跳转到验证码页面。针对这种情况,我们可以通过以下方法解决:

const puppeteer = require('puppeteer');(async () => {    const browser = await puppeteer.launch({ headless: false }); // 以无头模式运行    const page = await browser.newPage();    await page.goto('https://www.douban.com/accounts/login'); // 访问登录页面    await page.type('#form_email', '123456@qq.com'); // 输入账号    await page.type('#form_password', '123456'); // 输入密码    await page.click('.bn-submit'); // 点击登录按钮    await page.waitForNavigation({ // 等待页面跳转        waitUntil: 'load'    });    // 检查是否跳转到登录成功页面    if (page.url() === 'https://www.douban.com/') {        console.log('登录成功');    } else {        console.log('需要输入验证码');        // 进入循环,等待跳转到首页        while (true) {            await page.waitForNavigation({ // 等待页面加载                waitUntil: 'load'            });            if (page.url() === 'https://www.douban.com/') {                console.log('登录成功');                break;            }        }    }    await browser.close(); // 关闭浏览器})();

实际应用场景

Puppeteer 在实际开发中的应用场景丰富多样。以下是一些常见用途:

  • 网页截图生成 PDF:通过 Puppeteer 可以轻松将网页内容转换为 PDF 文件,适用于需要将网页内容存档或分享的场景。

  • 自动化测试:开发者可以利用 Puppeteer 模拟用户操作,自动化测试网页的功能,提高测试效率。

  • 数据抓取:通过 Puppeteer 可以模拟用户点击按钮、填写表单等操作,实现数据抓取,尽管某些网站对爬虫有反爬虫机制,但在大多数情况下仍然有效。

  • 网页内容分析:开发者可以通过 Puppeteer 提取网页中的结构化数据,进行进一步的分析和处理。


  • 注意事项

    在使用 Puppeteer 时,需要注意以下几点:

  • 浏览器控制:Puppeteer 模拟用户操作可能会被某些网站检测到,导致被封锁。开发者需要根据实际需求选择是否使用 headless 模式。

  • 处理动态内容:部分网站会使用动态加载技术,Puppeteer 需要等待页面加载完成后才能进行操作。

  • 代码优化:在编写复杂的脚本时,确保代码结构清晰,避免过多的异步操作导致难以调试。


  • 通过以上内容,我们可以看出,Puppeteer 是一个强大而灵活的工具,适用于各种自动化任务。无论是简单的网页截图,还是复杂的登录验证,Puppeteer 都能轻松应对。

    转载地址:http://ioguz.baihongyu.com/

    你可能感兴趣的文章
    Spring 框架之 AOP 原理深度剖析
    查看>>
    Pandas:如何按列元素的组合分组,以指示基于不同列的值的同现?
    查看>>
    Pandas:将一列与数据帧的所有其他列进行比较
    查看>>
    PANDA:基于多列对数据表的行运行计算,并将输出存储在新列中
    查看>>
    PandoraFMS 监控软件 SQL注入漏洞复现
    查看>>
    PandoraFMS 监控软件 任意文件上传漏洞复现
    查看>>
    Papyrus项目常见问题解决方案
    查看>>
    Parallel.ForEach使用示例
    查看>>
    Parallel.ForEach的基础使用
    查看>>
    parallels desktop for mac安装虚拟机 之parallelsdesktop密钥 以及 parallels desktop安装win10的办公推荐可以提高办公效率...
    查看>>
    parallelStream导致LinkedList遍历时空指针的问题
    查看>>
    Parameter ‘password‘ not found. Available parameters are [md5String, param1, username, param2]
    查看>>
    ParameterizedThreadStart task
    查看>>
    Paramiko exec_命令的实时输出
    查看>>
    Spring security之管理session
    查看>>
    paramiko模块
    查看>>
    param[:]=param-lr*param.grad/batch_size的理解
    查看>>
    spring mvc excludePathPatterns失效 如何解决spring拦截器失效 excludePathPatterns忽略失效 拦截器失效 spring免验证拦截器不起作用
    查看>>
    Spring Cloud 之注册中心 EurekaServerAutoConfiguration源码分析
    查看>>
    Parrot OS 6.2 重磅发布!推出全新 Docker 容器启动器
    查看>>