当前位置: 首页 > news >正文

宁波品牌网站建设公司wordpress 自适应主题 rclean

宁波品牌网站建设公司,wordpress 自适应主题 rclean,akina wordpress,网站转发同事让帮忙在某个网站爬点数据#xff0c;首次尝试爬虫#xff0c;遇到的问题及解决思路记录下。 大体需求是需要爬取详情页内的信息#xff0c;详情页有一定格式规律#xff0c;但是详情页需要从列表页跳入#xff0c;列表页中的每一条记录需要鼠标悬停才会弹出跳转链接…同事让帮忙在某个网站爬点数据首次尝试爬虫遇到的问题及解决思路记录下。 大体需求是需要爬取详情页内的信息详情页有一定格式规律但是详情页需要从列表页跳入列表页中的每一条记录需要鼠标悬停才会弹出跳转链接点击后才可跳转然后将数据存在excel中一个个解决吧。 第一步是先爬取详情页的数据发现页面数据是js渲染出来的直接用请求获取不到信息于是使用selenium来模拟浏览器实际请求然后需要的各个标签值也都没有id就根据class来获取值的列表具体方法为 from selenium import webdriverstrurl https://xxxxxxxx?idstribrowser webdriver.Chrome()try:browser.get(strurl)item1 browser.find_elements(byBy.CLASS_NAME, valuexxxxxxxx)item2 browser.find_elements(byBy.CLASS_NAME, valueyyyyyyyy)item3 browser.find_elements(byBy.CLASS_NAME, valuezzzzzzzz)# text\n基本信息:\n# for str1,str2 in zip(item1,item2):# print(str1.text ,:,str2.text)# textstr1.text : str2.text\n #加入到字符串中并换行## for str in item3:# text\n使用案例: str.text\n #加入到字符串中并换行# print(str.text \n)finally:browser.close()获取到需要的值然后需要把值放到excel中使用openpyxl 将获取到的值拼成一行追加到excel中具体方法如下 from openpyxl import load_workbook# 打开 Excel 文件wb load_workbook(test.xlsx)# 选择要操作的工作表ws wb[Sheet2]new_data []for str2 in item2:new_data.append(str2.text)for str in item3:new_data.append(str.text)# 在最后一行添加数据ws.append(new_data)# 保存文件wb.save(test.xlsx) 这样单详情页的内容可以搞到excel中了需要搞抓所有记录的问题因为列表页首先也是js渲染出来的还有需要模拟悬停才能弹出跳转链接研究了下详情页的url都是xxx?idaaa这个aaa虽然是int但是也没规律随便找了几个值找不到对应页面的时候会报错但是列表请求页可以看到对于列表的分页请求相应为json格式有个列表包含各个对象的id值整好就是详情页的id值那就这么搞把列表信息通过这个请求模拟然后从相应里取各个id遍历跳转一开始尝试了将列表请求跟遍历详情页拼在一个方法里但是报“TypeError: WebElement object is not callable”这个错反正是自己用的小工具先解决需求就行分俩方法把id结果集自己拼过来当参数整合后参考代码如下凑合看吧 {code: 200,message: 操作成功,data: {pageNum: 2,pageSize: 10,totalPage: 10,total: 100,list: [{id: aaaa,logo: 6426cb.png},{id: bbbb,logo: 6426cb.png}]},requestId: abc }import jsonwith open(searchResultP3.json, encodingutf-8) as f:jsondata json.load(f)jsonlist jsondata[data][list]datalist[]for objjson in jsonlist:strid str(objjson[id])datalist.append(strid)print(datalist) from selenium import webdriver from selenium.webdriver.common.by import By from openpyxl import load_workbookimport jsonfor stri in [aaa, bbb, ccc]:strurl https://xxx?idstribrowser webdriver.Chrome()try:browser.get(strurl)item1 browser.find_elements(byBy.CLASS_NAME, valuexxxxx)item2 browser.find_elements(byBy.CLASS_NAME, valueyyyyy)item3 browser.find_elements(byBy.CLASS_NAME, valuezzzzz)# text\n基本信息:\n# for str1,str2 in zip(item1,item2):# print(str1.text ,:,str2.text)# textstr1.text : str2.text\n #加入到字符串中并换行## for str in item3:# text\n使用案例: str.text\n #加入到字符串中并换行# print(str.text \n)# 打开 Excel 文件wb load_workbook(test.xlsx)# 选择要操作的工作表ws wb[Sheet2]new_data []for str2 in item2:new_data.append(str2.text)for str in item3:new_data.append(str.text)# 在最后一行添加数据ws.append(new_data)# 保存文件wb.save(test.xlsx)finally:browser.close()
http://www.hkea.cn/news/14412758/

相关文章:

  • 沈阳做网站优化的公司网站开发专员岗位职责
  • 网站建设公司营业执照衡水武邑县建设局网站
  • 母婴门户网站模板移动端网站怎么提交
  • 专业网站开发费用挑号网站后台怎么更新
  • 创做网站wordpress没有API解析接口怎办
  • 网站开发人员工工资聊城做网站的公司行情
  • 运城网站建设新品发布会海报
  • php网站开发核心技术国内免费素材网站
  • php旅游类网站开发毕业设计网站建设价格很 好乐云seo
  • 展示照片的网站模板wordpress 不显示账号名
  • 系统网站开发娱乐网站怎么制作
  • 动态发布网站和静态发布网站网站正在建设中的
  • 网站加载速度企业宽带
  • 卖酒的网站做线下怎么做网站报备流程
  • led灯外贸网站建设什么是网络营销市场营销学
  • 建个人网站能赚钱吗企业网站建设合同 百度文库
  • 网站排名优化需要多久网站专业建设公司
  • 做网站如何挣钱建设一个网站需要哪些材料
  • 厦门营销网站制作一段简单的html代码
  • tk免费域名注册网站做网站有钱
  • 网站建设市场规模微信如何分享wordpress
  • 广东企业网站建设公司工信部网站域名备案信息查询
  • 网站有什么用目前我们的网站正在建设中
  • 尚义网站建设池州网站建设开发
  • 玉林网站推广荣成网站开发
  • 申请个人网站怎么申请工程建设管理条例
  • 在线购物网站网站添加icp备案号
  • 一般的网站都是用什么系统做的设计一个企业网站主页
  • 做网站大公司有哪些湘建网
  • 上海网站外包建设装饰设计公司排行榜