当前位置: 首页 > news >正文

郑州做网站优化最好的公司一键设计logo

郑州做网站优化最好的公司,一键设计logo,网站空间商是什么意思,网页设计培训传智教育一、HTTP错误#xff08;如403 Forbidden#xff09; 问题描述#xff1a; 当使用requests库发起请求时#xff0c;可能会遇到HTTP 403 Forbidden错误#xff0c;这通常意味着服务器理解了请求#xff0c;但是拒绝执行它。 解决方法#xff1a; 1.设置headers#xf…一、HTTP错误如403 Forbidden 问题描述 当使用requests库发起请求时可能会遇到HTTP 403 Forbidden错误这通常意味着服务器理解了请求但是拒绝执行它。 解决方法 1.设置headers模拟浏览器请求。 2.使用代理IP。 3.增加cookies 4.降低请求频率避免被服务器识别为爬虫。 案例 import requests import time,random headers {User-Agent: Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/58.0.3029.110 Safari/537.3}proxies{https:202.123.77.88:7777} cookies url http://example.com # 替换为实际的目标网站try:response requests.get(url, headersheaders,proxiesproxies,cookiescookies)response.raise_for_status() # 如果响应状态码不是200则抛出HTTPError异常print(response.text) except requests.exceptions.HTTPError as errh:print(Http Error:, errh) except requests.exceptions.ConnectionError as errc:print(Error Connecting:, errc) except requests.exceptions.Timeout as errt:print(Timeout Error:, errt) except requests.exceptions.RequestException as err:print(OOps: Something Else, err)降低请求频率是因为真实用户的访问并不会很频繁因此我们使用随机时间来模拟核心代码如下 for i in range(5): response requests.get(https://example.com;;,headersheadersproxiesproxies) time.sleep(random.uniform(1.5,3.4)) 二、反爬虫机制如验证码、动态加载数据 问题描述 许多网站会采用反爬虫机制如显示验证码、动态加载数据等以防止爬虫爬取数据。 解决方法 使用Selenium或Pyppeteer模拟浏览器操作处理验证码。 对于动态加载的数据可以使用Selenium等待数据加载完成后再进行抓取。 案例Selenium处理动态加载数据 from selenium import webdriver from selenium.webdriver.common.by import By from selenium.webdriver.support.ui import WebDriverWait from selenium.webdriver.support import expected_conditions as ECdriver webdriver.Chrome() # 需要先安装ChromeDriver driver.get(http://example.com) # 替换为实际的目标网站# 等待某个元素加载完成 wait WebDriverWait(driver, 10) element wait.until(EC.presence_of_element_located((By.ID, myDynamicElement)))# 接下来可以获取该元素的数据或进行其他操作 print(element.text)driver.quit() # 关闭浏览器以上Selenium代码可以参考之前博文的案例 验证码的话可以使用简单图片验证码解决方法 使用Pyppeteer截图 await page.screenshot({path: test.png, clip: {x: 300, y: 10, width: 1320, height: dimensions[height]}}) 然后发给通义千问等一些识别图形的gpt 三、网络延迟或不稳定 问题描述 由于网络原因可能会导致爬虫在抓取数据时发生延迟或连接中断。 解决方法 使用重试机制当发生异常时自动重试。 增加超时时间避免因为网络延迟导致请求超时。 案例使用retrying库实现重试机制 import requests from retrying import retryretry(stop_max_attempt_number3, wait_fixed1000) # 最多重试3次每次间隔1秒 def fetch_data(url):response requests.get(url)response.raise_for_status()return response.texturl http://example.com # 替换为实际的目标网站 data fetch_data(url) print(data) 以上就是使用Python爬虫时可能会遇到的问题和解决方法希望对你有所帮助 如果大家还有其他的爬虫伪装方式欢迎在评论区留言交流请勿用于非法用途
http://www.dnsts.com.cn/news/228594.html

相关文章:

  • 怎么用网站挂QQwordpress 置顶排序
  • 郑州小程序定制公司天津网站seo设计
  • 博客和个人网站建设情况那些外国网站设计图多
  • 自己如何开网站河北招标网
  • 静态网站开发常用语言监控网站模版
  • 龙岩网站建设加盟个人网站做淘宝客如何备案
  • 事业单位网站建设注销情况说明大航母网站建设与服务
  • 网站策划书主题一般使用的分辨率是多少dpi
  • 门户网站建设说明书哪些网站做的最有特色
  • 网络销售平台北京aso优化
  • 国外教做美食网站义乌门户网站建设
  • 网站怎么添加软件建筑工地招工网
  • 免费做网站空间wordpress获取分类文章
  • 企业网站建设应遵守的原则沈阳做网站直播的公司
  • 做网站用什么工具网站建设谈业务要知道什么
  • 东莞建设网站开发51传奇网页游戏
  • 长沙商城网站建设报价公示怎么做app网站
  • wordpress主题修改字体商城网站怎么优化
  • 网站模板库软件软件技术就业前景怎么样
  • 四川住建厅官方网站的网址如何做好线上推广和引流
  • 宁波制作网站软件太原做网站
  • 绵阳个人网站建设品牌网站设计制作公司
  • 上海网站备案号查询互联网+大赛
  • 工会网站建设东营市
  • 潍坊网站排名公司wordpress主题防止破解
  • 网站建设要经历哪些步骤天津建筑工程信息平台
  • 宏润建设集团有限公司网站网站营销
  • 家政服务网站模板seo推广的步骤
  • 建设装饰网站wordpress对比phpcms
  • 企业在建设银行网站怎么发工资制作地图的网站