在使用阿里云CDN部署博客后,因页面重构导致URL地址变动,进而搜索引擎经常跳转到 404 Page,损失大量流量,本文提供一种获取跳转到404的原始页面。
原理
若访问的页面不存在,会在 CDN 的日志中出现 MISS 关键字,并且返回 http code 为 302。
脚本
- 从阿里云cdn下载日志
- 执行如下脚本获取错误的url地址
#!/bin/bash
gzip *.gz -d
cat www.xiexianbin.*0000 | grep -v "wp-includes" | grep " 302 " | grep MISS | awk -F " " '{print $8}' | sed 's/"$//' | sort -r | uniq -c | sed 's/https/http/' | sed 's/www.xiexianbin.cn/localhost:1313/'