详解Sitemap
Author:[email protected] Date:
sitemap是什么?
网站的 sitemap(站点地图)文件对于 SEO 来说非常重要,可以用来引导爬虫的抓取,提高网站的抓取效率。
提交sitemap的好处?
提交sitemap有利于搜索引擎的收录,比如动态网页。google登陆一个网站,首先看是否有sitemap这个东西,如果有就先读,没有的话就逐个按站点页面抓取。sitemap就是你网站上页面的信息列表,googlebot就按照这个去一个个的抓取页面。
xml sitemap和html sitemap
站点地图分为 xml sitemap和html sitemap。前者给搜索引擎爬虫用,后者给用户查阅。
sitemap.xml
sitemap.xml是一种站点地图协议,此协议文件基于早期的robots.txt文件协议,并有所升级。
向搜索引擎中提交了sitemap.xml的网站将更有利于搜索引擎网页爬行机器人的爬行索引,这样将提高索引网站内容的效率和准确度。
sitemap.xml的六个标签
changefreq:页面内容更新频率;
lastmod:页面最后修改时间;
loc:页面永久链接地址;
priority:相对于其他页面的优先权(这个标签可以不使用);
url:相对于前4个标签的父标签;
urlset:相对于前5个标签的父标签。
标签名称 | 标签说明 | 标签类型 | 标签限制 | 可选/必选 |
---|---|---|---|---|
changefreq | 标示数据更新频率 | 字符串 | 有效值为:always、hourly、daily、weekly、monthly、yearly、never。该字段用来表示页面的更新频率,always 表示频繁更新,比如用在首页上,hourly 表示每小时会有更新,daily 表示每天更新,用这个值的最多,一次类推 | 可选 |
lastmod | 标示数据最新一次更新时间 | 日期 | 时间格式为 yyyy-mm-dd ,例如 2016-12-15 | 可选 |
loc | 标示该条数据的存放地址 | url | 最小长度1个字符,最大长度256个字符, 以 “http://” 开头,只能是绝对完成的 url ,不能使用类似 “./test.html” 这样额相对路径 | 必选 |
priority | 标示优先值 | 小数 | [0.0 1.0](大于等于 0 小于等于 1,保留一位小数),用来表示例如:< priority >0.8< priority > | 可选 |
url | 地址的开始和结束 | 单个文件最多 50000 条,神马搜索限制在10000 条一下。 | 必选 | |
urlset | urlset 用来标记整个文档的开头 | 必选 |
注意事项:
文件编码使用 UTF-8(推荐) 或 GBK,推荐使用 UTF-8,google 对 sitemap 的默认使用 UTF-8 编码。
单个 sitemap 文件不能超过 10M——你可以向搜索引擎提供多个Sitemap文件,但提供的每个Sitemap文件包括的网址不得超过50,000 个,并且未压缩时不能大于10MB 。
如果 sitemap 文件过大,需要拆分成多个文件,用 sitemap 索引文件来声明,搜狗官方文档推荐拆分文件不要超过 100 个,百度和 360 没有拆分数量方面的明确说明。
sitemap 文件可以 gzip 压缩来提高抓取速度,推荐以 .xml.gz 为后缀,例如 http://www.zhoulujun.cn/sitemap_001.xml.gz。
需要对 url 中的特殊符号进行转义
url 如果有中文要进行 encode 转义。
其中 xml 命名空间声明地址 xmlns="http://www.sitemaps.org/schemas/sitemap/0.9" 是 Google sitemap 规范要求添加的,国内的搜索引擎并没有强制要求。不过为了兼容性友好,最好加上。而且如果不声明的话,国外的一些 xml sitemap 正确性校验工具会报错。
确保 xml 文件格式正确
sitemap.xml使用
建议将 Sitemap 放在 HTML 服务器的根目录中,即 http://www.zhoulujun.cn/sitemap.xml。
- 如果Sitemap位于http://www.zhoulujun.cn/sitemap.xml,就不能包含 http://xxx.zhoulujun.cn 中的网址。
- 如果Sitemap位于http://www.zhoulujun.cn/路径/sitemap.xml,就不能包含 http://www.zhoulujun.cn 中的网址。
sitemap 文件提交
向Google提交网站地图Sitemap: 通过网址http://www.google.com/webmasters管理提交;
向ASK提交网站地图Sitemap: 直接提交。http://submissions.ask.com/ping?sitemap=http%3A//your.domainname/sitemap.xml
参考文章:
Sitemap详解 https://juejin.cn/post/6844903810616262670
转载本站文章《详解Sitemap》,
请注明出处:https://www.zhoulujun.cn/html/webfront/SGML/xml/2015_0729_194.html