660
shares
聚米幫你連接全球客戶
服務(wù)熱線:400-8817-968
發(fā)布于:2019-10-14
Googlebot僅遵循特定的命令,忽略表格和cookie,僅對正確編碼的鏈接進(jìn)行爬網(wǎng)。因此,站點(diǎn)建設(shè)中的錯(cuò)誤和疏忽會(huì)影響對其進(jìn)行爬網(wǎng)和建立索引的能力。
很自然地假設(shè)搜索引擎可以訪問人們在網(wǎng)站上看到的所有內(nèi)容。但是事實(shí)并非如此。
據(jù)報(bào)道,Googlebot可以填寫表格,接受Cookie并抓取所有類型的鏈接。但是訪問這些元素將消耗看似無限的爬網(wǎng)和索引資源。
因此,Googlebot僅遵循某些命令,忽略表單和cookie,僅爬網(wǎng)使用適當(dāng)?shù)腶nchor標(biāo)簽和href編碼的鏈接。
以下是阻止Googlebot和其他搜索引擎機(jī)器人抓取(和編制索引)您所有網(wǎng)頁的七個(gè)項(xiàng)目。
1.基于位置的頁面
具有支持區(qū)域設(shè)置的頁面的站點(diǎn)會(huì)檢測訪問者的IP地址,然后根據(jù)該位置顯示內(nèi)容。但這不是萬無一失的。比如:訪客的IP似乎在波士頓,即使她住在紐約也是如此。因此,她會(huì)收到她不想要的有關(guān)波士頓的內(nèi)容。
Googlebot的默認(rèn)IP來自加利福尼亞州圣何塞地區(qū)。因此,Googlebot僅會(huì)看到與該地區(qū)相關(guān)的內(nèi)容。
首次進(jìn)入站點(diǎn)時(shí)基于位置的內(nèi)容很好。但是后續(xù)內(nèi)容應(yīng)基于單擊的鏈接,而不是IP地址。
有機(jī)搜尋成功的無形障礙是最難發(fā)現(xiàn)的障礙之一。
2.基于Cookie的內(nèi)容
網(wǎng)站將cookie放置在Web瀏覽器上,以個(gè)性化訪問者的體驗(yàn),例如語言首選項(xiàng)或渲染面包屑的單擊路徑。訪問者只能通過Cookie,而不是單擊鏈接來訪問的內(nèi)容將無法被搜索引擎機(jī)器人訪問。
例如,某些站點(diǎn)基于cookie提供國家和語言內(nèi)容。如果您訪問在線商店并選擇以法語閱讀,則會(huì)設(shè)置一個(gè)cookie,而您在網(wǎng)站上的其余訪問都將以法語進(jìn)行。URL與網(wǎng)站使用英語時(shí)的URL相同,但是內(nèi)容不同。
網(wǎng)站所有者大概希望法語內(nèi)容在自然搜索中排名,以將講法語的人帶到該網(wǎng)站。但是不會(huì)。如果URL不會(huì)隨著內(nèi)容的更改而改變,那么搜索引擎將無法抓取或排名其他版本。
3.不可抓取的JavaScript鏈接
對于Google來說,鏈接不是鏈接,除非它同時(shí)包含錨標(biāo)記和指向特定URL 的href。錨文本也是可取的,因?yàn)樗梢源_定鏈接到的頁面的相關(guān)性。
下面的假設(shè)標(biāo)記著重說明了可抓取鏈接和不可抓取鏈接與Googlebot的區(qū)別:“將被抓取”與“不被抓取”。
Google要求鏈接同時(shí)包含錨標(biāo)記和指向特定URL 的href。在此示例中,Googlebot將抓取第一行和第四行。但是它不會(huì)爬第二和第三。
電子商務(wù)網(wǎng)站傾向于使用onclick(指向其他頁面的鼠標(biāo)懸停下拉菜單)而不是錨標(biāo)記來編碼其鏈接。雖然這種方法適用于人類,但Googlebot不會(huì)將其識(shí)別為可抓取的鏈接。因此,以這種方式鏈接的頁面可能存在索引問題。
4.標(biāo)簽網(wǎng)址
AJAX是一種JavaScript形式,可以刷新內(nèi)容而無需重新加載頁面。刷新后的內(nèi)容會(huì)在頁面的URL中插入井號(井號:#)。不幸的是,#標(biāo)簽并不總是在以后的訪問中復(fù)制預(yù)期的內(nèi)容。如果搜索引擎將主題標(biāo)簽URL編入索引,則內(nèi)容可能不是搜索者正在尋找的內(nèi)容。
雖然大多數(shù)搜索引擎優(yōu)化人員都了解標(biāo)簽標(biāo)簽URL固有的索引問題,但營銷人員通常會(huì)驚訝地發(fā)現(xiàn)其URL結(jié)構(gòu)的這一基本要素正在引起自然搜索麻煩。
5. Robots.txt 不允許
robots.txt文件是網(wǎng)站根目錄下的原始文本文檔。它告訴機(jī)器人(選擇服從)通常通過disallow命令來爬網(wǎng)哪些內(nèi)容。
Disallow命令不會(huì)阻止建立索引。但是由于機(jī)器人無法確定頁面的相關(guān)性,它們可以阻止頁面排名。
禁止命令可能會(huì)意外出現(xiàn)在robots.txt文件中(例如,重新設(shè)計(jì)實(shí)時(shí)發(fā)布時(shí)),從而阻止搜索機(jī)器人抓取整個(gè)網(wǎng)站。robots.txt文件中存在禁止對象是檢查自然搜索流量突然下降的第一件事。
6. Meta Robots Noindex
URL的meta標(biāo)簽的noindex屬性指示搜索引擎機(jī)器人不要對該頁面進(jìn)行索引。它是逐頁應(yīng)用的,而不是用于管理整個(gè)站點(diǎn)的單個(gè)文件,例如disallow命令。
但是,noindex屬性比禁止索引更強(qiáng)大,因?yàn)樗鼈儠?huì)停止索引。
像禁止命令一樣,noindex屬性可能會(huì)意外地實(shí)時(shí)上線。它們是最難發(fā)現(xiàn)的阻止者之一。
7.不正確的規(guī)范標(biāo)簽
規(guī)范標(biāo)簽可識(shí)別要從多個(gè)相同版本中索引的頁面。規(guī)范標(biāo)簽是防止重復(fù)內(nèi)容的重要武器。所有非規(guī)范頁面將其鏈接權(quán)限(鏈接到它們的頁面?zhèn)鬟_(dá)的值)歸因于規(guī)范URL。非規(guī)范頁面未編制索引。
規(guī)范標(biāo)簽隱藏在源代碼中。錯(cuò)誤可能很難發(fā)現(xiàn)。如果您網(wǎng)站上的所需網(wǎng)頁未編入索引,則可能是錯(cuò)誤的規(guī)范標(biāo)簽。
評論展示
660
shares
掃碼加微信咨詢
15815846676
長按號碼加微信
在線留言