在使用阿里云CDN部署博客后,因页面重构导致URL地址变动,进而搜索引擎经常跳转到 404 Page,损失大量流量,本文提供一种获取跳转到404的原始页面。

原理

若访问的页面不存在,会在 CDN 的日志中出现 MISS 关键字,并且返回 http code 为 302。

脚本

  • 从阿里云cdn下载日志
  • 执行如下脚本获取错误的url地址
#!/bin/bash

gzip *.gz -d
cat www.xiexianbin.*0000 | grep -v "wp-includes" |  grep " 302 " | grep MISS | awk -F " " '{print $8}' | sed 's/"$//' | sort -r | uniq -c | sed 's/https/http/' | sed 's/www.xiexianbin.cn/localhost:1313/'
专栏文章
  1. Staticgen
  2. Staticgen
  3. Docusaurus 静态网站生成
  4. 静态页面发布服务器
  5. Surge 使用介绍
  6. Hugo/静态网站搜索方案
  7. Hugo 使用介绍
  8. 使用阿里云CDN部署博客404 Page优化(当前)
  9. 基于Github Action自动发布git代码到CDN
  10. 图片格式转化和压缩
  11. 采用 Algolia 作为 Hugo 搜索方案
  12. jekyll Web服务器列目录漏洞
  13. Gitbook 使用
  14. 网站 SEO 教程
  15. 采用Docker和解决Github Pages禁止百度爬虫的问题
  16. Jekyll 页面 liquid 语法介绍
  17. Jekyll发布文章时字符乱码解决办法 -- invalid byte sequence in GBK
  18. 使用Jekyll在Github上搭建博客 -- 子菜单的实现
  19. 使用Jekyll在Github上搭建博客 -- 分页实现
  20. 使用Jekyll在Github上搭建博客 -- 如何将博客上传至github
  21. 使用Jekyll在Github上搭建博客 -- 环境安装
  22. 如何在网页中插入关键词
最新评论
本文总阅读量 次 本站总访问量 次 本站总访客数