当前位置：首页 > news >正文

电商网站开发的目的是wordpress要更新

news 2026/4/18 11:00:04

电商网站开发的目的是,wordpress要更新,服装设计公司背景,海珠区目录前一章博客前言主函数的代码实现逐行代码解析获取链接获取标题获取网页源代码获取各个文章的链接函数的代码导入库文件获取文章的标题获取文章的源代码提取文章目录的各个文章的链接总代码下一章内容前一章博客用python从零开始做一个最简单…目录前一章博客前言主函数的代码实现逐行代码解析获取链接获取标题获取网页源代码获取各个文章的链接函数的代码导入库文件获取文章的标题获取文章的源代码提取文章目录的各个文章的链接总代码下一章内容前一章博客用python从零开始做一个最简单的小说爬虫带GUI界面1/3)_木木em哈哈的博客-CSDN博客而且当时的爬虫代码有许多问题但是最近学了PyQt5想着搞个带界面的爬虫玩玩那就啥也不说开搞https://blog.csdn.net/mumuemhaha/article/details/132394257?spm1001.2014.3001.5501 前言前一章博客我们讲了怎么通过PyQt5来制作图形化界面并且进行一些基本设置接下来两章我们主要讲核心爬虫代码的实现主函数的代码实现前一章中的代码 self.Button_run.clicked.connect(self.F_run) 代表点击按钮执行F_run函数注意这里不要打括号那么我们就需要定义这个函数思路大概就是这样 def F_run(self):link_1self.line_link.text()title_1F_gettitle(link_1)self.text_result.setText(f标题获取成功——{title_1})# file_1open(f{title_1}.txt,modew,encodingutf-8 )test_1F_getyuan(link_1)self.text_result.setText(提取源代码成功)time.sleep(1)search_1F_searchlink(test_1)self.text_result.append(提取文章链接成功)pachong(search_1,title_1) 逐行代码解析获取链接首先通过 self.line_link.text() 命令获取在输入框中输入的链接并且把它赋值到link_1中获取标题同时我会通过爬取网页链接的源代码进行提取关键字获得文章的标题也就是小说的名字 title_1F_gettitle(link_1) 获取网页源代码爬取小说文章目录网页的源代码并且赋值为test_1用于后续提取各个文章的链接 test_1F_getyuan(link_1) 获取各个文章的链接 search_1F_searchlink(test_1) 把得到的源代码进行提取筛选获得各个文章的链接其中self.text_result.setText以及self.text_result.append是在下面红圈中显示的东西美观用可以不加函数的代码这里为了不让代码过于长我自己有单独新建了两个python文件用于存放python函数导入库文件 import requests import re import numpy as np from lxml import etree request用于网络请求 re以及lxml用于过滤源代码的信息而numpy用于存储元素获取文章的标题 def F_gettitle(link_0):head_qb{User-Agent:Mozilla/5.0 (Linux; Android 6.0; Nexus 5 Build/MRA58N) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/115.0.0.0 Mobile Safari/537.36}test_1requests.get(urllink_0,headershead_qb)test_yuantest_1.textdometree.HTML(test_yuan)test_2dom.xpath(/html/body/article[1]/div[2]/div[2]/h1/text())return test_2[0] 很简单的一个的结构由requests来获取源代码之后用lxml中的tree来筛选源代码用xpath路径时最后要加text输出文本形式不然出不了源代码 xpath路径可以通过按f12控制台来提取获取文章的源代码应该很好理解就直接写代码了 def F_getyuan(link_1):head_qb{User-Agent:Mozilla/5.0 (Linux; Android 6.0; Nexus 5 Build/MRA58N) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/115.0.0.0 Mobile Safari/537.36}test_1requests.get(urllink_1,headershead_qb)test_yuantest_1.texttest_yuanstr(test_yuan)return test_yuan 提取文章目录的各个文章的链接 def F_searchlink(link_2):re_1a idhaitung href(.*?) relchapterre_1re.compile(re_1)link_3re.findall(re_1,link_2)link_maxnp.array([])for link_1 in link_3:link_4fhttp://www.biquge66.net{link_1}link_maxnp.append(link_max,link_4)return link_max 这里我直接用re库的正则来进行匹配了匹配的链接注意由于匹配的链接不是完整链接所以还需要进行拼接拼接完成后便可以直接打开在这里我先存储到数组中方便之后爬取各个文章的源代码然后进行返回总代码 main.py import sys # PyQt5中使用的基本控件都在PyQt5.QtWidgets模块中 from PyQt5.QtWidgets import QApplication, QMainWindow # 导入designer工具生成的login模块 from win import Ui_MainWindow from test_1 import * import time class MyMainForm(QMainWindow, Ui_MainWindow):def __init__(self, parentNone):super(MyMainForm, self).__init__(parent)self.setupUi(self)self.Button_close.clicked.connect(self.close)self.Button_run.clicked.connect(self.F_run)def F_run(self):link_1self.line_link.text()title_1F_gettitle(link_1)self.text_result.setText(f标题获取成功——{title_1})# file_1open(f{title_1}.txt,modew,encodingutf-8 )test_1F_getyuan(link_1)self.text_result.append(提取源代码成功)time.sleep(1)search_1F_searchlink(test_1)self.text_result.append(提取文章链接成功)pachong(search_1,title_1)if __name__ __main__:# 固定的PyQt5程序都需要QApplication对象。sys.argv是命令行参数列表确保程序可以双击运行app QApplication(sys.argv)# 初始化myWin MyMainForm()# 将窗口控件显示在屏幕上myWin.show()# 程序运行sys.exit方法确保程序完整退出。sys.exit(app.exec_()) test_1.py import requests import re import numpy as np from lxml import etree #获取文章标题 def F_gettitle(link_0):head_qb{User-Agent:Mozilla/5.0 (Linux; Android 6.0; Nexus 5 Build/MRA58N) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/115.0.0.0 Mobile Safari/537.36}test_1requests.get(urllink_0,headershead_qb)test_yuantest_1.textdometree.HTML(test_yuan)test_2dom.xpath(/html/body/article[1]/div[2]/div[2]/h1/text())return test_2[0]#提取源代码 def F_getyuan(link_1):head_qb{User-Agent:Mozilla/5.0 (Linux; Android 6.0; Nexus 5 Build/MRA58N) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/115.0.0.0 Mobile Safari/537.36}test_1requests.get(urllink_1,headershead_qb)test_yuantest_1.texttest_yuanstr(test_yuan)return test_yuan#查询所有小说章节链接 def F_searchlink(link_2):re_1a idhaitung href(.*?) relchapterre_1re.compile(re_1)link_3re.findall(re_1,link_2)link_maxnp.array([])for link_1 in link_3:link_4fhttp://www.biquge66.net{link_1}link_maxnp.append(link_max,link_4)return link_max# #输出文章内容 # def F_edittxt(link_3): # head_qb{ # User-Agent:Mozilla/5.0 (Linux; Android 6.0; Nexus 5 Build/MRA58N) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/115.0.0.0 Mobile Safari/537.36 # } # trytimes 3 # for i in range(trytimes): # try: # proxies None # test_1requests.get(urllink_3,headershead_qb, verifyFalse, proxiesNone, timeout3) # if test_1.status_code 200: # break # except: # print(frequests failed {i} time) # #提取文章链接 # re_2p(.*?)/p # re_2re.compile(re_2) # #提取文章标题 # re_3h1 classbookname(.*?)/h1 # re.compile(re_3) # test_2np.array([]) # test_3np.array([]) # test_2re.findall(re_2,test_1.text) # test_3 re.findall(re_3, test_1.text) # #放在数组的最后一个 # test_2np.append(test_3,test_2) # return test_2 下一章内容最后获取了所有的章节链接了接下来就要爬取文章了本来可以一起写的可以看到我test_1.py中注释掉的部分但是后面发现出了一些问题才有了下一章内容下一章会详细说明的

查看全文

http://www.hkea.cn/news/14313637/