推广网站链接怎么做,中国服务外包网,网站开发的经验,太白 网站建设一.我们还是使用简单的bs4库和lxml#xff0c;使用xpath#xff1a;
导入下面的库#xff1a;
import requests
from bs4 import BeautifulSoup
from lxml import etree 我们可以看见它的div和每个书的div框架#xff0c;这样会观察会快速提高我们的简单爬取能力。
二.实…一.我们还是使用简单的bs4库和lxml使用xpath
导入下面的库
import requests
from bs4 import BeautifulSoup
from lxml import etree 我们可以看见它的div和每个书的div框架这样会观察会快速提高我们的简单爬取能力。
二.实例代码
headers{User-Agent:Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/123.0.0.0 Safari/537.36}
linkhttps://www.dushu.com/
rrequests.get(link,headersheaders)
r.encodingutf-8soupBeautifulSoup(r.text,lxml)
house_listsoup.find_all(div,class_border books-center)
htmletree.HTML(r.text)# namehtml.xpath(//div[classproperty-content-title]/h3/text())
# for house in house_list:
# namesoup.find(div,class_nlist).a.strong.text()
#
# print(name)
namehtml.xpath(//div[classbookname]/a/text())
# hrefhtml.xpath(//div[classnlist]/div/ul/li/a/href)print(name)
for i in name:print(i)
运行结果如下 我们成功抓取了网页上书籍的名字我们可以把它放入一个文件或者文本里面。
三.总结
我们简单的抓取书籍先找到它需要的大div或者是ur、然后在里面找到自己需要抓取的数据我们开始练习这样简单案例会提高爬虫的理解。下次我会加上数据库和可视化