摘要
做好网站SEO优化的第一步就是首先让蜘蛛爬虫经常来你的网站进行光顾,下面的Linux命令可以让你清楚的知道蜘蛛的爬行情况。下面我们针对nginx服务器进行分析,日志文件所在目录:/usr/local/nginx/logs/access.log,access.log这个文件记录的应该是最近一天的日志情况,首先请看看日志大小,如果很大(超过50MB)建议别用这些命令分析,因为这些命令很消耗CPU,或者更新下来放到分析机上执行,以免影响网站的速度。
Linux shell命令
1. 百度蜘蛛爬行的次数
cat access.log | grep Baiduspider | wc
最左面的数值显示的就是爬行次数。
2. 百度蜘蛛的详细记录(Ctrl C可以终止)
cat access.log | grep Baiduspider
也可以用下面的命令:
cat access.log | grep Baiduspider | tail -n 10
cat access.log | grep Baiduspider | head -n 10
只看最后10条或最前10条,这用就能知道这个日志文件的开始记录的时间和日期。
3. 百度蜘蛛抓取首页的详细记录
cat access.log | grep Baiduspider | grep “GET / HTTP”
百度蜘蛛好像对首页非常热爱每个钟头都来光顾,而谷歌和雅虎蜘蛛更喜欢内页。
4. 百度蜘蛛派性记录时间点分布
cat access.log | grep “Baiduspider ” | awk ‘{print $4}'
5. 百度蜘蛛爬行页面按次数降序列表
cat access.log | grep “Baiduspider ” | awk ‘{print $7}' | sort | uniq -c | sort -r
文中的Baiduspider 改成Googlebot都可以查看谷歌的数据,鉴于大陆的特殊性,大家应该对百度的log更为关注。
附:(Mediapartners-Google)Google adsense蜘蛛的详细爬行记录
cat access.log | grep Mediapartners
Mediapartners-Google是什么呢"color: #ff0000">ps:linux下nginx如何启用网站日志,查看蜘蛛爬虫
默认的路径是你安装时候指定的
如果用的LNMP之类的安装包
你可以在SHELL下
whereisnginx
找到相应的路径之后
在NGINX下的CONF文件夹里看配置文件,日志文件如果记录了话
在配置文件里有路径的~
更新日志
- 邓丽君.1983-漫步人生路(2024环球MQA-UHQCD限量版)【环球】【WAV+CUE】
- 陈容森.1996-情断【上华】【WAV+CUE】
- 裘海正.1994-爱我的人和我爱的人【上华】【WAV+CUE】
- 庾澄庆.1988-错过的爱【福茂】【WAV+CUE】
- 班得瑞原装进口《第十三张新世纪专辑:旭日之丘》1CD[APE/CUE分轨][329.6MB]
- 纯音入心系列纯音乐《古筝|佛蕴|境法禅心意法自然》1CD[MP3][350MB]
- 纪钧瀚《钢琴阅读时光 雨中书店聆听轻音乐》[320K/MP3][203.44MB]
- 群星.1981-名曲65(2014环球复黑王·百代篇)【EMI百代】【WAV+CUE】
- 陈淑桦.1990-娃娃的故事【柯达】【WAV+CUE】
- 戴梅君.2011-问签诗【美华】【WAV+CUE】
- 戴梅君.2011-问签诗【美华】【WAV+CUE】
- 李国祥.1995-九五变奏【嘉音】【WAV+CUE】
- 许景淳.1992-你来自何方【全美唱片】【WAV+CUE】
- 石欣卉.2007-剧欣卉集·完整电视剧主题精丫华纳】【WAV+CUE】
- 群星.2005-LOVE情歌集VOL.5.2CD【正东】【WAV+CUE】