中文
登录

百度技术和页面搜索引擎优化 SEO 指南

Simon Lesser January 17, 2017

第 3 章

技术和页面优化简介

技术优化的重点就是让搜索引擎更容易抓取并索引网站的内容。一般来说,技术优化所专注的范围包括网站读取速度,稳定性,爬虫指令,网站架构,代码结构,设计,兼容性和安全性。

页面优化的主要目的,就是让搜索引擎更容易明白网站上每个页面的内容,从而在跟内容相关的搜索查询中提升页面的排名。通常的做法包括以易于理解的方式构建内容,,在页面的重要区域使用关键字和适当的内容。

在百度上的技术优化和页面优化与 Google 有一些相似之处。如果你的网站已经因应 Google 进行了优化,那么它已经完成了一部份在百度进行优化的步骤,另外的部份就是针对百度独有的优化方式。

在本章中,我们将会讲解一些在百度上独有的优化方式,以及有关在百度上优化内容的提示和建议。百度优化是这篇章的主要重心,所以一些技术优化和页面优化的基本概念将会略过。如果你想学习或了解基础知识,这里有一些适合你的文章:

百度的技术 SEO 考虑因素

寄存在中国的网站

由于百度主要的用户都是来自中国,所以它们有着中国 / 中文优先的策略,网站寄存的实际位置亦是百度优先的因素之一。

若果想在百度上得到更好的 SEO 效果,把网站寄存于中国(香港,澳门和台湾除外)是百利而无一害的。这并不是说在中国境外寄存的网站排名一定不好,但在中国寄存的网站一定拥有优势。

寄存在中国带来两个主要有利因素:其一,它反映了网站的主要目标地区为中国本土;其二,在中国的防火墙之内,在加载速度和稳定性更胜于防火墙外的网站。百度作为搜索引擎,快而且稳定的网站是它们想要带回给用户的搜索结果,这使得外国网站处于更大的劣势。

即使知道国内寄存的重要性,亦因为中国当地法律使实际执行困难重重。有别于其他国家,在中国寄存网站有着复杂的规则。以下我们将讨论网站寄存对于百度 SEO 的影响,帮助你评估中国的网页寄存是否适用于你正在进行的中国 SEO 项目。

ICP 备案

若果想寄存网站于中国,你需要进行备案并获取 ICP(Internet Content Provider)许可证,共有两种类型:

要获得政府的批准,你还需要提供额外资料,例如中国的实际地址,电话号码等。

有关如何获取 ICP 许可证的详细信息, TutsPlus 有 一个很好的指南

ICP 许可证号码通常都会列在网站的底部中。有关许可证持有者的更多信息,可以在中国政府上查看。

 

elong-footer-icp

ICP 许可证如何帮助 SEO

百度从未公怖在 SEO 相关的文章中提及 ICP,所以没有人知道究竟 ICP 是否在百度排名的因素。尽管如此,我们认为在长远来看,ICP 将会间接帮助网站在百度上的 SEO,主要原因是:

  • 获得 ICP 之后就能够把网站寄存在中国,而在中国境内的网站加载速度更快更稳定。这都是关系到百度的排名因素,例如可抓取性,网站速度和用户体验。
  • 许多进阶的网站验证程序(如百度信誉产品)都需要 ICP。这些验证让网站可以在搜索结果页面上显示徽章或小部件。随了能够建立权威和信任之外,这些徽章还可以提高点击率,而点击率相信能够间接提高排名。
baidu-trust

.CN 顶级域名

.CN 是中国的国家顶级域名(ccTLD)。根据我们的经验,百度不会给予 .CN 的网站优先排名。事实上,.CN 的域名亦不一定是本地公司的首选(百度亦是使用 .com)。即使如此,如果情况许可的话,我们还是建议使用 .CN,而不是子域或子文件夹(/cn),原因是:

获取一个 .cn 域名只需要一个中国身份证,对比寄存网站在中国或获得 ICP 更加容易。当然,.cn 带来的 SEO 效益远比不上两者。

_feat-cn

中国网站的审查及速度

大家常常听到中国的防火墙(GFW),其实是指中国的互联网审查制度。任何发表政治敏感内容,或中国政府认为不合适的内容(赌博,色情等)以及自助发布型式的网站(如在中国境外的社交媒体)都会被中国防火墙封锁。世界各地的热门网站,如 Google ,Facebook,Instagram,Twitter,YouTube,维基百科(中文)和纽约时报都无法在中国地区访问。

即使网站中没有任何政治或争议话题,亦不代表它一定能够通过中国的防火墙。所有不在中国国内寄存的网站,加载速度都会较慢,有时候什至不能够连上。在每年不同的时间,犹其在一些政治敏感事件的时段影响会较大。在 2014年,中国封锁了整个 CDN,导致成千上万个无关的网站受到栏截。

为任何外国网站在中国进行优化之前,最好检查一下该网站有否被中国封锁。

GreatFire.org 是一个非常实用的工具,用于检查网站有否被中国屏蔽。

greatfirewallofchina.org 不提供与 GreatFire.org 一样多的信息,但仍可用于参考。

china-accessibility-tool-greatfire-org
china-accessibility-tool-greatfirewallofchina-org

在中国某些地区,网站可能无法访问或加载速度较为缓慢,而在其他地方则完全没有问题。在网站验证之后,我们建议在中国不同的地区测试网站速度。以下是一些免费工具,可用于测试不同中国城市的加载速度:

(以上工具仅提供中文)

在中国使用内容分发网络(CDN)

如果网站在中国的加载速度较慢,可以考虑使用内容分发网络(CDN)。对比其他方法,在中国使用 CDN 的成本和复杂程度相对较高。如果你是着重长远的业务发展,长远的中国搜索引擎优化策略,CDN 应该是个不错的选择。

_item-network

使用 CDN 对于 SEO 的好处

选取一个合适的内容分发网络提供者是十分重要的。以下就是中国 CDN 的三大类别,它们的好处,以及每个类别最受欢迎的供货商。

中国本地 CDN

如果你是想为中国本地的用户设置专用 CDN 服务,中国本地 CDN 是很不错的选择。这种类型的 CDN 一般都有最佳的表现,以下为最出名的中国本地 CDN 供应裔:

环球 CDN

如果网站需要除了中国以外的 CDN,那么就应该找一个涵盖中国的环球 CDN。但是,唯一要注意的是,中国政府能够在没有警告或原因的情况下封锁环球 CDN。除非你坚信环球 CDN 不会有问题,否则的话还是找个本地 CDN 较为稳健。

以下为最有名的环球 CDN:

本地自助 CDN

近年来,中国的大型科技公司亦开始提供中国本地的 CDN 服务。这类型的 CDN 更实惠,但是需要公司内部的数据科技术员工来建立和维护。

中国寄存参考

HTTPS 与百度

中国 HTTPS 的应用较美国和英国慢,直到 2015 年百度才正式宣布它们支持抓取和索引 HTTPS 的网站。后来在 2016 年的夏天,百度才再一次更新它们的爬虫,具有更强的处理 HTTPS 的能力。

跟 Google 类似,百度声称会为 HTTPS 网站提供小量的排名优势。然而,直到现在的阶段,我们仍然认为百度对于 HTTPS 的支持还未成熟。网站拥有者未必会为此而更换,因为风险仍然超过潜在的好处。

_item-https

替代方法

以上的建议都是网站应该遵循的良好做法。但是,由于现实的各种约束,真正实行全部做法未必能够如愿以偿。所以,我们找到了以下的替补方法:

网站寄存於中国附近

如果你无法把网站寄存在中国,你可以考虑一些较近中国的地区,例如香港,日本或者新加玻。凭借良好的基础设施和相对靠近中国的地理位置,中国用户加载你的网站应该会比其他国际地区更快。如果亚洲地区也不行,美国西岸会比东岸或欧洲是个更好的选择。

_item-hosting

使用 gTLD 及中国子域或子目录

登记并使用 .cn 域名比在中国国内寄存网站更容早,但如果 .cn 也取不到的话,使用 gTLD 以及中国子域 (如 http://cn.example.com) 亦是可行的。即使子目录(例如 http://www.example.com/cn),不及其他选项,但还是可以接受。

常见误解

以下是一些国际网站常常对于中国互联网的误解:

基于 JavaScript 的内容加载

虽然许多搜索引擎已经能够抓取 JavaScript,但是百度在处理 JavaScript 方面还是较弱。事实上,百度在它们的 SEO 学院亦曾经表示,它们并不会处理任何 JavaScript 的内容。所以,在网站内容中使用任何 JavaScript 的内容如链接,语言转换,以及 AJAX 加载内容都是完全不建议。

_mac-code

使用外国的代码库

载入如 jQueryBootstrap 等等热门的 Javascript 代码库十分常见,一般来说,这些代码库都是寄存在 Google 的 CDN 或者其他外国公司,利用浏览器缓存来提升加载速度。但是,很多时侯这些 CDN 都会被中国阻止或限制,拖慢了正在使用的网站的加载速度,什至不能加载,可能只是单单一个代码库文件出现问题。

为了避免此问题,我们建议使用在中国寄存的代码库。它们经常被使用,可能已经缓存在网站访客的浏览器中,减低加载时间。更重要的是,在中国的代码库一定不会被封钡。

无法把网站寄存在中国的话,那么使用中国寄存的 JavaScript / CSS 代码库亦能确保网站的稳定性和速度,同时减少一些遇上故障的机会。以下是一些较常用,寄存在中国的代码库:

还有一点值得留意:如果你网站的中国版本和其他版本使用同一个中国代码库,则可能会为外国用户带来同样的问题。外国用户在访问网站的时候需要加载在中国的代码库,加载速度可能会慢更多。可以的话,还是使用从每个地方的用户位置的代码库吧。

使用 URL 参数

即使己经是 2017 年,但是 URL 参数仍然会给百度的抓取工具带来麻烦,犹其是同一个 URL 中有多 URL 参数。

值得注意的是,使用 URL 参数来区分网站的语言(例如 http://www.example.com/?lang=cn)是种很糟糕的方法。即使处理 URL 参数较佳的搜索引擎亦可能会出现不同问题。

使用具有中国子域或子目录的非中国 ccTLD

国家 / 地区专属的顶级域名(例如.sg,新加坡)配上中国子域名或子目录(例如 china.example.sg 或 example.sg/china)使用,很容易混淆用户以及搜索引擎对于网站真正的目标组。如果可以的话,使用通用的顶级域名(gTLD),例如 .com,配上中国子域名或子目录就会更易于理解(其他地方的子域名或子目录亦同样)。

使用外国网站分享的小部件

一般常用的平台分享小部件(如在 Facebook,Twitter,YouTube上面分享)并不适用于中国网站,原因是它们被中国的防火墙封锁了,同时亦会影响网站的加载速度。所以,我们建议使用像百度分享等等的中国社交平台分享部件,这样对于本地用户来说更合适。

下图说明了各种中国 SEO 策略的好处对比其实施成本。

网站架构

一个精心设计的网站架构够能达到 3 个目标:

一般针对 Google 的网站架构亦适用于百度。由于百度的爬虫仍然不如 Google 强大,所以网站进行百度优化的时候就要多加注意。

_item-sitemap

网站页面层 - 平坦或深?

如生活大多数事情一样,平衡很重要。如果页面的分布过于平坦,每页上的链接数量过多,用户的体验就会受到影响。若果页面的分布过于深厚,百度的爬虫未必能够抓取太深入的页面。我们的建议是,网站页面层应该根据用户体验来设计,深层页面只在能够优化用户体验才建立。

_feat-web-design

内部链接

baidu-suggested-site-architecture

图片来源: 百度站长官方网站

移动适用性

移动搜索正在影响搜索引擎的发展。Google 正在逐步转向移动优先的索引,而百度亦更视移动搜索优先于桌上搜索。

查看我们的百度移动 SEO 指南,了解有关此主题的更多信息

移动实时页面(Mobile Instant Pages)

最近百度亦推出了自家的 Accelerate Mobile Pages(AMP)版本,为移动搜索者提供更快的加载页面速度,更好的用户体验。由于 AMP 都是托管在 Google 上,因此百度自己的替代品。虽然 MIP 对于百度 SEO 的影响仍然微乎其微,但在未来的影响力将不能够忽视,所以还是很值得注意。

在 Dragon Metrics 的博客上了解有关百度 MIP 的更多信息

抓取测试

百度站长提供抓取测试和监控工具,例如抓取错误工具将会显示在你的网站上遇到的何服务器或抓取错误。而在抓取诊断工具中,你亦可以从百度的角度查看你的网站,了解百度蜘蛛如何抓取你的网站。

有关详情,请参阅百度站长指南

_item-spider

baidu-webmaster-tools-crawl-frequency

还有另一种更技术性的方法去监视百度蜘蛛,查看它有否正常抓取您的网站,就是检视网站的服务器日志。百度在桌上和移动装置使用的抓取工具都名为 baiduspider,唯一不同的是它会使用不同的字符串。

移动装置使用的抓取代理

Mozilla/5.0 (Linux;u;Android 4.2.2;zh-cn;) AppleWebKit/534.46 (KHTML,like Gecko) Version/5.1 Mobile Safari/10600.6.3 (compatible; Baiduspider/2.0; +http://www.baidu.com/search/spider.html)

桌上装置使用的抓取代理

Mozilla/5.0 (compatible; Baiduspider/2.0; +http://www.baidu.com/search/spider.html)

这是一篇关于日志文件用于 SEO 的文章

清理内部链接

遇到无效或复位向过多的链接时,百度抓取工具的处理方法与 Google 不同,它们倾向依赖内部锚文本来理解页面的内容。通过优化网站的内部链接,就能够重大改进百度的索引和排名。

_girl-cleaning

过量复位向链接

如果链接之间太多重定向,搜索引擎通常会在某个位置放弃,所以不能到达最终页面,意味着搜索引擎不会抓取或索引该页面。

如何修正

找出有过多重定向的 URL,决定目标页面,并编辑最先复位向的 URL 指向目标页面。在把更改上线之前,记得先在测试环境中确定无任何问题。如果未正确修改复位向,可能会出现损坏链接,404 错误或更多重定向有关的问题。

4xx 错误

400-499 是所有类型的客户端错误响应,意味着问题是与客户端的请求有关,而不是服务器响应的问题。这种错误类型有很多,但大部份的都是 404 错误,即是代表指定的 URL 没有任何页面。

如何修正

找出并确认页面是否应该放置于该 URL 中。一般来说这个过程不会难,检查 URL 中的错别字,又或者尝试查看该页面否已移至新 URL。

死胡同页面

这类型的页面通常没有连向其他页面的出站链接。这不单止带来影响用户体验,还丢失进行内部链接的机会。

如何修正

确保网站上的每个页面都有至少有几个链接。检查链接是否能搜索引擎检视,没有被 Flash 或 JavaScript 等等影响到。在每个页面上使用纯文本导航是较好的做法,只有在特定情况下的例外。

优化百度蜘蛛索引

百度使用许多不同的方法来寻找你网站上的 URLs,正确设置网站就能够确保全面索引。幸运的是,于现有的 CMS 上进行设置其实颇为简单。

_item-screwdriver

优化网站地图

网站地图是一个包含了网站上 URLs 的文件,以及相关的修改日期,更改频率和优先度的数据。一个正确设置的网站地图能够帮助搜索引擎找出所有网站的页面,搞清楚网站架构,对于拥有许多 URLs 的网站犹其有效。用于百度的网站地图其实跟 Google 大同小异,若果你己经设置了用于 Google 的网站地图(现代 CMS 都会自动生成),你则无需为了百度进行修改。以下是两者检视网站地图的两个重要差别:

网站地图 URLs 装置标记

百度拥独有的标记,用于辨认该 URL 是用于桌上装置,移动装置或全部。

<mobile:mobile/> // Mobile pages

<mobile:mobile type=”mobile”/> // Mobile pages

<mobile:mobile type=”pc,mobile”/> // Responsive pages

<mobile:mobile type=”htmladapt”/> // Dynamically served pages

这里是移动装置标记的例子:

<url>

<loc>m.example.com/mobile.html</loc>

<mobile:mobile type=”mobile”/> // This is the tag for mobile page

<lastmod>2009-12-14</lastmod>

<changefreq>daily</changefreq>

<priority>0.8</priority>

</url>

了解有关百度移动 SEO 的更多信息

eTag (Entity Tag)

eTag 是 HTTP 应用的一部分,它能够通知客户端自上次访问以来页面有否更新。使用 eTag 的网站则不需要重载没有更新的页面,从而节省了服务器端和客户端的资源。百度基本上认可网站使用 eTag,并会为已启用的网站更频繁地抓取网站地图

以下是为网站实施 eTag 的文章

check-etag-chrome-developer-tools

向百度提交网站地图

跟 Google 一样,你可以在百度站长上提交网站地图。

bwt-submit

了解更多关于在百度上提交网站地图

向百度提交 URLs 的替代方法

除了网站地图,还有另外两种百度提供的独特方法,可以让你快速提交 URLs 给百度。

实时主动推送

实时主动推送能够让你以编程方法向百度提交 URLs,这是目前最快的方法以确保百度的索引。可是,这种方法需要你开发自己的程序以连接百度的服务器。

实时主动推送仍然处于起步阶断,但百度一直在努力推行这种方法。至于背后的动机,就是因为想针对中国网站对于内容的抄袭。实时主动推送能够让百度立即索引你的原创内容,从而分辨出哪些网站是在后来抄袭的。我们强烈推荐所有在百度上进行内容营销的人使用这个方法。

自动推送

使用自动推交只需要把一小段 JavaScript 代码加进网站上的 代码中。每当有人访问页面,该段代码就会触发并将 URL 提交给百度。

百度站长工具指南中了解更多关于实时主动推送及自动推送

想确保最高效的索引 - 就是将所有三种方法一同实施:包括网站地图,实时主动推送,自动推送。所有网站所有者都可以提交网站地图。如果你有修改网站 HTML 代码的权限,你就可以使用自动推送;如果有可以编程的开发人员,则可以使用实时主动推送。

页面优化

关键词位置

由于百度的算法仍然落后于 Google ,所以遵循旧有的页面优化方法依然有效。最佳的做法就是,在页面内容中自然地使用目标关键词及其相关字词,而不是在内容填充关键词。

于 Backlinks 的信息图形中了解更多关于如何优化页面 SEO 

优化内容中关键词位置还是交由中国本地人去做较好。

了解更多关于中国内容营销

优化网址 - 中文,拼音还是英文?

虽然浏览器和搜索引擎支持在 URL 甚至域名中使用中文字,但它仍然不是建议的做法。对于很多用户来说,中文字较难输入,阅读,而很多时候中文字符都会变成编码显示(就是常见的数字加上百分比符号)。根据我们的经验,百度根本不会视在网址中的关键词作为排名因素。

若果我们不用中文字在 URLs 中,那么应该用什么呢?拼音或者英文翻译就是经常听到的建议。拼音就是使用英文字去书写普通话的标准方法,大多数中国人都懂。例如「产品」的拼音就是「chanpin」,而产品页面的 URL 就可以写成 example.com/chanpin。另一种热门的做法,就是直接使用英文翻译的 URL,例如 example.com/products

基于我们的调研,百度能够正确辨认拼音所指的中文字,而百度有可能根据 URL 来理解页面内容。在下面的屏幕截图中,我们可以看到百度正确办认了拼音查询所指的中文字。图中橙色框框的字句更是再一步确认用户所查询的拼音。

search-with-pinyin-serp

然而在近年来,我们看到很多中国最具权威的网站在 URLs 中使用英文而不是拼音。两者并没有明确的优胜之处,但目前中国最大网站的趋势是应用英文 URLs。拼音应该也是可以的,但中文字还是应该避免。

优化点击率

随着越来越多的研究发现点击率影响排名,在 Google 上优化搜索结果外观以获得更高的点击率变得更重要。那么,在百度上又是怎样呢?

人们普遍认为,百度是使用头 20 名的搜索结果的点击率去决定特定关键词查询的排名。有见于此,使用自动点击的软件提升点击率是中国的黑帽子 SEO 常见的策略。直到最近,百度才开始懂得分辨这种推高点击率的手法。如果你想优化网站的点击率,以下是一些准则:

以下是一个格式正确,自然搜索出现的结果:

optimized-snippet-baidu

百度富摘要信息

baidu-open-widget

其中一个百度搜索结果的特色,就是它们频繁使用>富摘要信息。百度使用自己的平台(跟 Google 使用的 Schema.org 标记不同),让网站拥有者可以自行提交结构化数据。因此,百度搜索结果中的富摘要信息种模拟 Google 更多元化。

查看从百度获取富摘要信息指南或 100 种最常见的百度搜索富摘要信息结果以了解更多

使用 SEO 工具进行网站技术和页面优化

市面上有很多不同种类的 SEO 工具能够帮助你进技术和页面优化。这里我们将介绍如何使用 Dragon Metrics 去优化你的网站。大部份 SEO 工具亦有类似的功能,所以你可以了解更多然后选择一个适合你的,更重要的是能够自动化整个过程。人手进行网站技术优化非常耗时且容易出错,因此不建议这样做。

Dragon Metrics 中的网站审核(Site Auditor)会好像搜索引擎一样抓取你的网站,然后查找超过 50 个常见的技术和页面优化错误。抓取只需一会儿,所有发现的错误就会连同解决方法的步骤展示在调查结果之中,十分类似专业 SEO 顾问公司所提供的意见。

site-auditor-dragon-metrics

Dragon Metrics 会自动报告常见的 SEO 问题,例如链接损坏,重复内容,链接复位向,死胡同页面,丢失/重复/未优化的标题或元标记等等。每个问题系统都会一直追踪直到解决,同时提供详细的步骤及建议,让你可以因应着来改善你的网站。

issue-detail

列出每个受影响的 URL,附带一切有关怎样去修复它的数据或信息

issue-detail-2

由于 Dragon Metrics 的抓取工具就跟搜索引擎抓取的模式一样,所以可以在搜索引擎(如百度)之前识别抓取问题。抓取错误会用易于观看的图表展示,并为每个问题提供详细分析。

crawlability-dm

在网站审核的底部看到优化问题的总汇

content-optimize

所有数据都能够导出成 Excel 文件,可自定义品牌的在线及 PDF 报告

excel-export

摘要

在技术 SEO 优化的层面上,相较于 Google ,百度还有许多额外的技术考虑因素。对比 Google SEO,我们一般认为技术及网站优化对于百度 SEO 来说更重要,以下是两个主要原因:

虽然大多的建议都是较难实施,但它们影响你在中国进行 SEO 的成败。

继续阅读

第 4 章 : 内容营销

继续阅读

第 4 章 : 内容营销

篇章

第 1 章

简介

第 2 章

关键字调研

第 4 章

内容营销

第 5 章

链结构建

第 6 章

移动 SEO

第 7 章

百度站长

第 8 章

社交媒体

第 9 章

报告

第 10 章

通用搜索