目前哪个网站建设的最好,网站建设与管理的专业群,黑马网站建设网站设计,外国做视频在线观看网站标题 1 统计要收集的关键词#xff0c;制作一个文件夹2 爬取每一页的内容3 爬取标题和内容4 如果内容可以被查看#xff0c;爬取评论内容5 将结果进行汇总#xff0c;并且每个帖子保存为一个json文件#xff0c;具体内容6 总结 1 统计要收集的关键词#xff0c;制作一个文… 标题 1 统计要收集的关键词制作一个文件夹2 爬取每一页的内容3 爬取标题和内容4 如果内容可以被查看爬取评论内容5 将结果进行汇总并且每个帖子保存为一个json文件具体内容6 总结 1 统计要收集的关键词制作一个文件夹
例如我要收集旅游相关的就收集 旅游、旅行、旅游攻略这些词做成一个txt文件。
用一个浏览器登录上小红书账号然后记录写cookies例如
2 爬取每一页的内容
主要使用requestjs模块将爬取的内容保存为res里面包含一页20条数据。
info re.sub(rpage:.*?, fpage:{page}, info)ret js.call(get_xs, api, info, cookies[a1])headers[x-s], headers[x-t] ret[X-s], str(ret[X-t])response requests.post(search_url, headersheaders, cookiescookies, datainfo.encode(utf-8))res response.json()3 爬取标题和内容
从每一个note里面解析出标题内容等信息。
result {}result[title] data[note_card][title]result[desc] data[note_card][desc].replace(\n, ).replace(\t, )tags_temp data[note_card][tag_list]tags []for tag in tags_temp:try:tags.append(tag[name])except:passresult[tags] tagsresult[time] timestamp_to_str(data[note_card][time])4 如果内容可以被查看爬取评论内容
每个帖子里面的评论的单独的url需要根据id号进行拼接所以根据第3节获取的user-id进行拼接然后再用get进行访问最后获得每条评论注意有些帖子是不能被查看的所以需要进行判断。
note_id url.split(/)[-1]comments_url https://edith.xiaohongshu.com/api/sns/web/v2/comment/page?note_id{}image_scenesFD_WM_WEBP,CRD_WM_WEBP.format(note_id)response requests.get(comments_url, headersheaders, cookiescookies)res response.json()comments []for line in res[data][comments]:comment_str line[content]comments.append(comment_str)5 将结果进行汇总并且每个帖子保存为一个json文件具体内容
包含标题具体内容标题创建时间评论内容。每个关键词一个文件夹。
6 总结
详细代码私聊注意本内容没有爬取图片如果需要可以添加。