济南营销型网站建设公司,网站建设流程知乎,品牌网哪个比较权威,微信小程序怎么盈利文章目录 目录搜索 os、shutil库数据爬虫 request、re作业#xff1a;爬取案例的top250电影的关键信息#xff08;名称、类型、日期#xff09;#xff0c;并保存在表格中 目录搜索 os、shutil库 os 模块提供了非常丰富的方法用来处理文件和目录。 os.listdir(path)#x… 文章目录 目录搜索 os、shutil库数据爬虫 request、re作业爬取案例的top250电影的关键信息名称、类型、日期并保存在表格中 目录搜索 os、shutil库 os 模块提供了非常丰富的方法用来处理文件和目录。 os.listdir(path)返回path指定的文件夹包含的文件或文件夹的名字的列表。 os.path 模块获取文件的属性信息。 os.path.join(path1[, path2[, …]])把目录和文件名合成一个路径 os.path.isdir(path) 判断路径是否为目录 os.path.isfile(path)判断路径是否为文件 shutil.move(file,target)移动文件 # 深度优先搜索文件 目录搜索import os # 导入os模块
import shutil # 实现移动文件的功能需要# path代表待搜索的目录路径result存储搜索到的文件路径列表
def dfs(path, result):child_files os.listdir(path)for child in child_files:# 使用join拼接子目录或文件的路径child os.path.join(path, child)# 将child保存到resultresult.append(child)if os.path.isdir(child):dfs(child, result)files []
dfs(., files)# 遍历files
for file in files:print(find %s %file) #打印搜索到的路径if(os.path.isfile(file) and file.endswith(.xlsx)):# 移动当前目录下的excel文件到excel目录下shutil.move(file, .\excel)移动前 移动后
数据爬虫 request、re 网页数据爬虫实现了互联网网页自动化下载与自动化解析。通过爬虫可以下载和分析网页。 # 网络爬虫# spider.py网页下载、链接提取、数据存储
# 查看豆瓣网top250(25页每页25条)的电影简介地址换行存入到txt中import requests
import reurl https://movie.douban.com/top250?start
pageSize 25
headers {User-Agent: Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/83.0.4103.116 Safari/537.36
}
# 正则匹配
briefUrl https://movie.douban.com/subject/[0-9]/
txt open(douban.txt, a, encodingutf-8)# 爬取10页
for page in range(0, 10):resp requests.get(url str(page * pageSize), headersheaders)resp.encoding utf-8# print(resp.text)# 通过findall从网页中提取符合briefUrl正则规则的网址links re.findall(briefUrl, resp.text)# 去重arr set(links)# print(links)for l in arr:# print(l)txt.write(l \n)
txt.close() 作业爬取案例的top250电影的关键信息名称、类型、日期并保存在表格中