Selenium与ChromeDriver环境搭建及自动化测试入门实战-北京尧图网络科技有限公司

1. 项目概述为什么我们需要浏览器自动化在软件开发和测试的日常工作中我们经常需要重复执行一些基于网页的操作比如数据抓取、表单提交、功能回归测试或者验证某个网页在不同条件下的表现。手动点击、输入、刷新不仅效率低下而且容易出错尤其是在需要覆盖大量测试用例或执行高频次任务时。这时浏览器自动化技术就成了我们的得力助手。Selenium 正是这个领域的“瑞士军刀”。它是一个强大的开源工具集支持多种编程语言如 Python、Java、C#和浏览器如 Chrome、Firefox允许我们编写脚本程序来模拟真实用户的操作。而 ChromeDriver 则是连接 Selenium 脚本与谷歌 Chrome 浏览器的“桥梁”或“翻译官”。没有它你的 Selenium 指令就无法传达给 Chrome 浏览器。本指南旨在提供一个从零开始、手把手式的完整流程帮助你搭建起 Selenium 与 ChromeDriver 的环境并编写出第一个可运行的自动化测试脚本。无论你是测试工程师、开发人员还是对自动化感兴趣的数据分析师都能从中找到清晰的路径。我们将避开那些官方文档里语焉不详的坑直接分享一线实战中最有效的配置方法和编码技巧。2. 环境准备与核心组件安装自动化测试的基石是一个稳定、匹配的环境。任何版本的不匹配都可能导致脚本运行失败因此这一步至关重要。2.1 谷歌浏览器Chrome的安装与版本确认首先你需要一台安装了谷歌浏览器的机器。虽然听起来简单但版本是关键。安装与检查访问谷歌浏览器官网或通过可靠的软件管理工具安装最新稳定版的 Chrome。安装后在浏览器地址栏输入chrome://version/并回车。这个页面会显示你的 Chrome 的完整版本号例如128.0.6613.138。请务必记下这个版本号尤其是主版本号如128它是我们选择 ChromeDriver 的依据。注意很多自动化失败都源于浏览器与驱动版本不匹配。请确保你知晓自己 Chrome 的确切版本。2.2 ChromeDriver 的下载与配置ChromeDriver 是一个独立的可执行文件它实现了 WebDriver 协议。Selenium 通过这个协议向 ChromeDriver 发送指令后者再控制 Chrome 浏览器。下载步骤访问 ChromeDriver 的官方下载站点通常由 Chromium 项目维护。你需要找到一个能提供历史版本下载的镜像站因为你的 Chrome 版本可能不是最新的。在下载页面根据你记下的 Chrome主版本号如 128找到对应的 ChromeDriver 版本。通常版本号会完全匹配或非常接近。选择与你的操作系统Windows、macOS、Linux对应的压缩包进行下载。配置步骤以 Windows 为例将下载的chromedriver.exe文件解压出来。为了全局可用建议将其放置在一个固定的目录例如C:\WebDriver\并将此目录的路径添加到系统的PATH环境变量中。验证配置打开命令提示符CMD或 PowerShell输入chromedriver --version并回车。如果正确显示了版本信息说明配置成功。对于 macOS/Linux 用户将解压后的chromedriver文件移动到/usr/local/bin/目录可能需要sudo权限这样它就可以在终端中直接调用了。同样可以通过chromedriver --version命令验证。2.3 Selenium 库的安装Selenium 提供了编程语言绑定的库。这里我们以最流行的 Python 为例。通过 Python 的包管理工具 pip 可以轻松安装pip install selenium如果你使用的是 Python 3可能需要使用pip3pip3 install selenium为了确保环境的纯净和依赖管理强烈建议在虚拟环境如venv或conda中进行安装和后续开发。至此三大核心组件浏览器Chrome、驱动ChromeDriver、控制库Selenium均已就位。它们之间的关系可以简单理解为你的 Python 脚本使用 Selenium 库 - ChromeDriver - Chrome 浏览器。3. 第一个自动化脚本从启动浏览器到简单操作理论说再多不如动手一试。让我们编写一个最简单的脚本感受一下自动化的魅力。3.1 基础脚本结构创建一个新的 Python 文件例如first_test.py并输入以下代码from selenium import webdriver from selenium.webdriver.common.by import By import time # 1. 创建 Chrome 浏览器驱动选项可选用于配置浏览器行为 options webdriver.ChromeOptions() # 例如以无头模式运行不显示浏览器界面适合在服务器上执行 # options.add_argument(--headless) # 禁用GPU加速有时可避免一些渲染问题 # options.add_argument(--disable-gpu) # 2. 初始化 WebDriver传入选项 driver webdriver.Chrome(optionsoptions) try: # 3. 导航到一个网页 driver.get(https://www.baidu.com) print(f已打开页面标题是{driver.title}) # 4. 进行一些简单的操作 # 通过元素的ID定位搜索框并输入文本 search_box driver.find_element(By.ID, kw) search_box.send_keys(Selenium 自动化测试) # 定位搜索按钮并点击 search_button driver.find_element(By.ID, su) search_button.click() # 等待一下让页面加载结果 time.sleep(2) # 5. 验证结果简单示例打印当前页面标题 print(f搜索后页面标题是{driver.title}) finally: # 6. 等待几秒后关闭浏览器 time.sleep(5) driver.quit()代码逐行解析from selenium import webdriver导入 Selenium 的核心 WebDriver 模块。from selenium.webdriver.common.by import By导入By类它提供了定位页面元素的各种策略如ID、NAME、CSS_SELECTOR等。这是 Selenium 4 的推荐写法更清晰。webdriver.Chrome(optionsoptions)这行代码是关键。它会启动 ChromeDriver 进程并由 ChromeDriver 打开一个新的 Chrome 浏览器实例。options参数允许我们定制浏览器启动时的状态。driver.get(url)命令浏览器导航到指定的 URL。driver.find_element(By.ID, kw)在页面中查找一个 ID 属性为 “kw” 的 HTML 元素。这是百度搜索框的ID。element.send_keys(“text”)模拟键盘输入向找到的元素搜索框输入文本。element.click()模拟鼠标点击操作。driver.quit()非常重要它会关闭所有关联的浏览器窗口并终止 ChromeDriver 进程。使用try...finally结构能确保即使脚本中途出错浏览器也会被正确关闭避免残留进程占用资源。运行这个脚本你会看到一个 Chrome 浏览器自动打开访问百度输入关键词并点击搜索然后停留片刻后关闭。控制台会打印出页面标题的变化。3.2 元素定位自动化操作的“眼睛”自动化测试的核心是与页面上的元素按钮、输入框、链接等进行交互。而交互的前提是“找到”它们。Selenium 提供了多种定位策略定位方式 (By.)描述示例适用场景ID通过元素的id属性定位By.ID, “username”首选。ID通常唯一定位最快最准。NAME通过元素的name属性定位By.NAME, “password”常用于表单元素。CLASS_NAME通过元素的class属性定位By.CLASS_NAME, “btn-primary”当多个元素共享同一类名时可能返回多个元素。TAG_NAME通过HTML标签名定位By.TAG_NAME, “input”通常用于查找某一类标签如所有输入框。LINK_TEXT通过超链接的完整文本定位By.LINK_TEXT, “忘记密码”精准定位文字链接。PARTIAL_LINK_TEXT通过超链接的部分文本定位By.PARTIAL_LINK_TEXT, “忘记”文本链接的部分匹配。CSS_SELECTOR通过CSS选择器定位By.CSS_SELECTOR, “#container .list li:nth-child(2)”功能强大且灵活语法与前端CSS一致推荐掌握。XPATH通过XML路径语言定位By.XPATH, “//div[id‘login’]/form/input[1]”功能最强大可以遍历整个DOM树但速度可能稍慢语法相对复杂。实操心得优先级IDNAMECSS_SELECTORXPATH 其他。尽量使用简单的、唯一的属性定位。如何获取元素属性在 Chrome 浏览器中按 F12 打开开发者工具使用左上角的箭头工具点击页面元素即可在 “Elements” 面板中查看其id、class、name等属性。右键元素还可以直接 “Copy” - “Copy selector” (CSS选择器) 或 “Copy XPath”非常方便。find_element与find_elements前者返回第一个匹配的元素一个WebElement对象后者返回所有匹配元素的列表。如果找不到元素find_element会抛出NoSuchElementException。4. 核心操作与高级等待策略仅仅打开页面和点击是不够的。真实的自动化场景需要处理页面加载、元素状态变化、弹窗等复杂情况。4.1 常见的浏览器操作除了get()、click()和send_keys()以下操作也非常常用导航driver.back() # 后退 driver.forward() # 前进 driver.refresh() # 刷新窗口和标签页driver.maximize_window() # 最大化窗口 driver.get_window_size() # 获取窗口尺寸 driver.set_window_size(1024, 768) # 设置窗口尺寸 original_window driver.current_window_handle # 获取当前窗口句柄 driver.switch_to.new_window(‘tab’) # 打开新标签页 for handle in driver.window_handles: # 遍历所有窗口句柄 if handle ! original_window: driver.switch_to.window(handle) # 切换到新窗口 break执行JavaScript对于某些 Selenium 原生API难以实现的操作可以直接注入JS。# 滚动到页面底部 driver.execute_script(“window.scrollTo(0, document.body.scrollHeight);”) # 修改元素属性 driver.execute_script(“arguments[0].setAttribute(‘style’, ‘color: red’);”, element)处理弹窗/Alertalert driver.switch_to.alert # 切换到alert print(alert.text) # 获取提示文本 alert.accept() # 点击“确定” # alert.dismiss() # 点击“取消”4.2 等待机制自动化稳定的关键页面元素加载需要时间直接操作可能导致NoSuchElementException。使用time.sleep()是一种简单粗暴的固定等待但效率低下且不可靠网络或性能波动会导致等待时间不足或过长。Selenium 提供了两种智能的等待方式1. 隐式等待 (Implicit Wait)在 WebDriver 对象的整个生命周期内设置一个全局的等待时间。当查找元素时如果元素没有立即出现WebDriver 会轮询DOM默认每0.5秒直到找到该元素或超时。driver.implicitly_wait(10) # 单位秒注意隐式等待只需设置一次。它只对find_element和find_elements方法生效。对于页面跳转等操作无效。2. 显式等待 (Explicit Wait)针对某个特定条件进行等待更加灵活和精确。你需要定义“等待条件”和“最长等待时间”。from selenium.webdriver.support.ui import WebDriverWait from selenium.webdriver.support import expected_conditions as EC # 等待最多10秒直到ID为‘result’的元素出现在DOM中并且可见 wait WebDriverWait(driver, 10) element wait.until(EC.presence_of_element_located((By.ID, “result”))) # 或者等待元素可点击 button wait.until(EC.element_to_be_clickable((By.CSS_SELECTOR, “.submit-btn”))) button.click()expected_conditions模块提供了很多预定义条件如visibility_of_element_located: 元素可见不仅存在而且宽高大于0。element_to_be_clickable: 元素可见且可点击。title_contains: 页面标题包含特定文字。alert_is_present: 出现Alert弹窗。最佳实践混合使用通常设置一个较短的隐式等待如5秒作为全局后备然后在关键操作如点击后等待新页面元素出现处使用更精确的显式等待。避免混用隐式等待和显式等待一起使用时最长等待时间可能会叠加导致等待时间远超预期。建议以显式等待为主谨慎设置隐式等待时间。抛弃time.sleep在正式的自动化脚本中应尽量避免使用固定的time.sleep改用显式等待来提升脚本的稳定性和执行速度。5. 实战进阶框架搭建与常见问题排查当脚本越来越多我们就需要考虑如何组织代码使其更易于维护、扩展和复用。同时也会遇到各种棘手的运行时问题。5.1 简单的 Page Object Model (POM) 模式POM 是一种设计模式将每个网页或页面组件封装成一个类页面的元素定位和操作都在这个类中完成。测试脚本则通过调用这些页面对象的方法来进行操作。这样做的好处是代码复用元素定位逻辑集中在一处修改时只需改一个地方。可读性强测试脚本读起来像自然语言login_page.enter_username(“admin”)。易于维护页面结构变化时只需修改对应的页面对象类。一个简单的例子# base_page.py - 基础页面类封装通用操作 from selenium.webdriver.support.ui import WebDriverWait from selenium.webdriver.support import expected_conditions as EC class BasePage: def __init__(self, driver): self.driver driver self.wait WebDriverWait(driver, 10) def find(self, by, locator): return self.wait.until(EC.presence_of_element_located((by, locator))) def click(self, by, locator): element self.wait.until(EC.element_to_be_clickable((by, locator))) element.click() # login_page.py - 登录页面对象 from selenium.webdriver.common.by import By from base_page import BasePage class LoginPage(BasePage): # 定位器 USERNAME_INPUT (By.ID, “username”) PASSWORD_INPUT (By.ID, “password”) LOGIN_BUTTON (By.CSS_SELECTOR, “button[type‘submit’]”) ERROR_MSG (By.CLASS_NAME, “error-message”) def enter_username(self, username): self.find(*self.USERNAME_INPUT).send_keys(username) def enter_password(self, password): self.find(*self.PASSWORD_INPUT).send_keys(password) def click_login(self): self.click(*self.LOGIN_BUTTON) def get_error_message(self): return self.find(*self.ERROR_MSG).text # test_login.py - 测试脚本 from selenium import webdriver from login_page import LoginPage def test_valid_login(): driver webdriver.Chrome() driver.get(“https://example.com/login”) login_page LoginPage(driver) login_page.enter_username(“testuser”) login_page.enter_password(“securepass”) login_page.click_login() # 断言登录成功例如检查是否跳转到首页 assert “Dashboard” in driver.title driver.quit()这只是 POM 的雏形。在实际项目中你还可以结合unittest、pytest等测试框架并加入数据驱动、日志记录、截图等功能构建完整的自动化测试框架。5.2 常见问题与排查技巧实录即使环境配置正确脚本逻辑无误在实际运行中仍会遇到各种问题。以下是一些常见“坑”及其解决方法问题1SessionNotCreatedException: Message: session not created: This version of ChromeDriver only supports Chrome version XX原因ChromeDriver 版本与 Chrome 浏览器版本不匹配。解决严格按照本文 2.1 和 2.2 的步骤核对并下载对应版本的 ChromeDriver。可以尝试使用webdriver-manager这个第三方库它能自动下载匹配的驱动。pip install webdriver-managerfrom selenium import webdriver from webdriver_manager.chrome import ChromeDriverManager from selenium.webdriver.chrome.service import Service service Service(ChromeDriverManager().install()) driver webdriver.Chrome(serviceservice)问题2NoSuchElementException: Message: no such element: Unable to locate element原因元素定位失败。这是最常见的问题。排查检查定位器确认By策略和定位字符串是否正确。在开发者工具中使用CtrlF在搜索框内输入你的 CSS 选择器或 XPath看是否能唯一匹配到目标元素。检查等待时间元素可能还没加载出来。增加隐式/显式等待时间或使用更合适的等待条件如visibility_of而非presence_of。检查iframe如果目标元素在iframe内需要先切换到对应的 iframe 才能操作。driver.switch_to.frame(“iframe_name_or_id”) # 通过name或id切换 # driver.switch_to.frame(driver.find_element(By.TAG_NAME, “iframe”)) # 通过元素切换 # 操作iframe内的元素... driver.switch_to.default_content() # 操作完成后切回主文档检查页面是否跳转/刷新操作后页面发生了变化之前的元素引用可能已经“过时”。需要在操作后重新定位元素。问题3ElementClickInterceptedException或ElementNotInteractableException原因元素被其他元素如弹窗、遮罩层遮挡或者元素本身不可交互如disabled状态、不可见。解决使用element_to_be_clickable条件进行等待确保元素可点击。检查是否有弹窗需要先关闭。尝试用 JavaScript 直接点击driver.execute_script(“arguments[0].click();”, element)。滚动元素到视图中driver.execute_script(“arguments[0].scrollIntoView(true);”, element)。问题4脚本在无头模式 (--headless) 下运行失败但在有界面模式下正常。原因无头模式下的浏览器环境如视口大小、用户代理等与有界面模式略有不同可能导致某些页面布局或检测逻辑发生变化。解决为无头模式设置一个明确的窗口大小options.add_argument(‘--window-size1920,1080’)。设置一个常见的用户代理字符串避免被网站识别为爬虫谨慎使用遵守网站规则。如果问题依旧尝试在关键步骤后添加短暂的time.sleep或更长的显式等待因为无头模式下的渲染/JS执行速度可能不同。问题5如何调试运行中的脚本暂停与检查在脚本中插入input(“按回车键继续...”)可以让脚本暂停此时你可以手动检查浏览器页面状态。截图在出错或关键步骤后截图便于事后分析。driver.save_screenshot(“error_screenshot.png”) # 或者截取特定元素 element.screenshot(“element_screenshot.png”)打印页面源码print(driver.page_source)可以打印当前页面的 HTML有助于分析动态加载的内容。自动化测试不是一蹴而就的它需要耐心地调试和不断地优化。从最简单的打开页面开始逐步增加复杂的操作和逻辑并善用等待机制和异常处理你的脚本会变得越来越健壮。记住核心思想是让你的程序像一位有耐心、不会出错的“标准用户”一样去操作浏览器。

Selenium与ChromeDriver环境搭建及自动化测试入门实战

相关新闻

UE CesiumForUnreal 实战：从入门到疑难排解

Claude Code 最新版本 完整使用手册

从PFH到FPFH：算法演进与点云配准实战解析

最新新闻

避坑指南：湘潭正规口腔机构排名发布，看牙不再只看价格

让消失的小说重现：novel-downloader终极离线阅读解决方案

LLM Agent 框架 以LLM为核心的智能Agent框架 - 具备思考、规划、执行、反思四大能力+ 深度增强技术

微信单向好友检测全攻略：5分钟找出谁偷偷删除了你

SourceInsight4.0高效编码环境配置指南

庖丁解牛：从docker.io到containerd.io，拆解Docker生态核心组件与插件

日新闻

NoFences：你的Windows桌面需要一场空间革命吗？

如何在1分钟内为Windows安装苹果USB网络共享驱动：完整解决方案

AScript异步执行与await关键字

周新闻

管理者的六个层次

AI Coding 六个月真实ROI账本：产品经理的血泪教训，研发的冷静忠告

审计来了，数据权限全开——审计走了，怎么确保权限全部关掉？

月新闻

Claude Code 最新版本完整使用手册

LLM Agent 框架以LLM为核心的智能Agent框架 - 具备思考、规划、执行、反思四大能力+ 深度增强技术