当前位置: 首页 > news >正文

网站注册怎么做网络营销策划方案范文

网站注册怎么做,网络营销策划方案范文,苏州网站建设师,简单网页模板下载从用户请求的Headers反反爬 在访问某些网站的时候,网站通常会用判断访问是否带有头文件来鉴别该访问是否为爬虫,用来作为反爬取的一种策略。很多网站都会对Headers的User-Agent进行检测,还有一部分网站会对Referer进行检测(一些资…

从用户请求的Headers反反爬

  在访问某些网站的时候,网站通常会用判断访问是否带有头文件来鉴别该访问是否为爬虫,用来作为反爬取的一种策略。很多网站都会对Headers的User-Agent进行检测,还有一部分网站会对Referer进行检测(一些资源网站的防盗链就是检测Referer)。针对这种反爬机制,我们可以伪装headers,将浏览器的User-Agent复制到爬虫的Headers中;或者将Referer值修改为目标网站域名或者为上一个请求地址。

分析Chrome的头信息

在这里插入图片描述

访问请求头中包含了浏览器以及系统的信息(headers所含信息众多,其中User-Agent就是用户浏览器身份的一种标识,具体可自行查询)、Referer、Cookie。

代码

引入依赖

        <dependency><groupId>org.jsoup</groupId><artifactId>jsoup</artifactId><version>1.16.1</version></dependency><dependency><groupId>com.alibaba</groupId><artifactId>easyexcel</artifactId><version>3.3.2</version></dependency>
@SpringBootTest
class CrawlerApplicationTest {@Testvoid contextLoads() {Set<String> domainResult = new HashSet<>();String urlStr = "http://ssssss.com/domain";int pageSize = 0;try {for (int i = 0; i < 194994; i++) {String crawlerUrl = "";if (i == 0) {crawler(urlStr, domainResult, null);
//                    crawlerUrl = "http://swkong.com/domain/index" + pageSize + ".html";
//                    System.out.println(pageSize);
//                    System.out.println(crawlerUrl);} else {String referrerUrl = "";if (i == 1) {referrerUrl = "http://ssssss.com/domain";} else {referrerUrl = "http://ssssss.com/domain/index" + (pageSize - 1) + ".html";}crawlerUrl = "http://ssssss.com/domain/index" + pageSize + ".html";crawler(crawlerUrl, domainResult, referrerUrl);System.out.println(pageSize);pageSize += 1;System.out.println(crawlerUrl);System.out.println(referrerUrl);}System.out.println("-----------------------------");}} catch (Exception e) {e.printStackTrace();System.out.println(domainResult.size());System.out.println("catch");} finally {System.out.println(domainResult.size());writeExcel(domainResult);}}public void crawler(String urlStr, Set<String> domainResult, String referrer) throws IOException, InterruptedException {Document parse = sendRequest(urlStr, referrer);Elements dispdomain = Objects.requireNonNull(parse.getElementById("dispdomain")).getElementsByAttribute("href");getDomain(dispdomain, domainResult);System.out.println("请求地址:" + urlStr);System.out.println("__________________________________________");
//        Elements xpage = Objects.requireNonNull(parse.getElementById("xpage")).getElementsByAttribute("href");
//        System.out.println(xpage);
//        String crawlerUrl = "http://swkong.com" + xpage.get(page).attr("href");}public void getDomain(Elements elements, Set<String> result) {for (int i = 0; i < elements.size(); i++) {String attr = elements.get(i).select("a").attr("href");if (attr.contains("?q=")) {String s = attr.split("q=")[1];result.add(s);}}System.out.println(result.size());}public Document sendRequest(String urlStr, String referrer) throws IOException {Map<String, String> cookies = new HashMap<>();cookies.put("cargo_keyword", "xxxxxxxxxxxxxxxxx");cookies.put("PHPSESSID", "xxxxxxxxxxxxxxxxx");cookies.put("language", "zh-cn");if (StringUtils.hasText(referrer)) {return Jsoup.connect(urlStr).timeout(5000).ignoreContentType(true).userAgent("Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/116.0.0.0 Safari/537.36").cookies(cookies).referrer(referrer).get();}return Jsoup.connect(urlStr).timeout(5000).ignoreContentType(true).userAgent("Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/116.0.0.0 Safari/537.36").cookies(cookies).get();}public void writeExcel(Set<String> domainResult) {List<DomainDto> resultExcel = new ArrayList<>();for (String domain : domainResult) {DomainDto domainDto = new DomainDto();domainDto.setDomainUrl(domain);resultExcel.add(domainDto);}String path = "D:\\" + System.currentTimeMillis() + ".xlsx";EasyExcel.write(path, DomainDto.class).sheet("域名").doWrite(resultExcel);}
http://www.hkea.cn/news/856768/

相关文章:

  • 上海网站制作福州百度关键字优化精灵
  • 做uml图网站百度账号快速注册入口
  • 广西梧州南京 seo 价格
  • 网站警察备案seo关键词优化平台
  • 网站开发设计实训 报告惠州网站建设
  • 网站开发的原理山西免费网站关键词优化排名
  • 石家庄网站建设全包免费推广网站2024
  • 阿里云网站备案时间无锡seo网站管理
  • 景点介绍网站模板重庆百度关键词推广
  • 做亚马逊网站费用吗曲靖新闻今日头条
  • bing 网站管理员2023今日新闻头条
  • 深圳市做网站前十强百度一下搜索网页
  • 做执法设备有哪些网站国家免费培训学校
  • 顺德乐从有做阿里巴巴的网站吗杭州网站设计
  • 做英文网站 用阿里服务器行吗b2b网站推广排名
  • 搭建网站做淘宝客网赌怎么推广拉客户
  • 网站建设前台与后台最新技术2021最新免费的推广引流软件
  • 做网站基本语言淘宝如何提升关键词排名
  • wordpress怎样分类目录添加标签seo文章范文
  • 订阅号可以做网站吗南宁seo外包服务商
  • 邢台哪儿做网站便宜宁波 seo排名公司
  • 深圳网站优化咨询网上广告怎么推广
  • 网站右击无效是怎么做的网络营销产品
  • 中宣部网站政治建设网站服务器是什么意思
  • 淮安网站定制徐州seo外包公司
  • 嘉兴类网站系统总部网站建设技术解决方案
  • 做网站的教科书外包网络推广公司推广网站
  • 模板名字 wordpress优化大师如何删掉多余的学生
  • 3d网站建设制作百度关键词优化手段
  • 新手做那些网站比较好东莞企业网站排名