Yandex 搜索引擎 robots.txt Clean-param 配置

小渣渣 · 发表于 2022-4-2 20:12:51

今天收到了一封来自 Yandex.Webmaster 的邮件，原文如下：

QQ截图20220402201217.jpg

Some pages with GET parameters in the URL on your site https://down.itsvse.com duplicate the contents of other pages (without GET parameters). For example, https://example.com/tovary?from=mainpage duplicates https://example.com/tovary. Because both pages are crawled, it might take longer for the information about important pages to be added to the search database. This may affect the site's search status.

Here are examples of pages and their duplicate pages with insignificant GET parameters:

ReturnUrl:
https://down.itsvse.com/Account/Index
https://down.itsvse.com/Account/Index?ReturnUrl=%2FUser%2FCollect
ReturnUrl:
https://down.itsvse.com/Account/Index
https://down.itsvse.com/Account/ ... %2FUser%2FResources
ReturnUrl:
https://down.itsvse.com/Account/Index
https://down.itsvse.com/Account/ ... oadLoading%2Fkzkalr
ReturnUrl:
https://down.itsvse.com/Account/Index
https://down.itsvse.com/Account/ ... Fitem%2Fawljnq.html
ReturnUrl:
https://down.itsvse.com/Account/Index
https://down.itsvse.com/Account/ ... loadLoading%2F11820
If these pages are duplicates, we recommend using the Clean-param directive in robots.txt, so that the robot ignores insignificant GET parameters and combines signals from identical pages on the main page.

翻译后，如下：

您站点https://down.itsvse.com上的 URL 中带有GET 参数的某些页面会复制其他页面的内容（没有 GET 参数）。例如， https://example.com/tovary?from=mainpage 与https://example.com/tovary重复。由于这两个页面都已被爬网，因此将有关重要页面的信息添加到搜索数据库可能需要更长的时间。这可能会影响网站的搜索状态。

以下是GET 参数无关紧要的页面及其重复页面的示例：

ReturnUrl：
https ://down.itsvse.com/Account/Index
https://down.itsvse.com/Account/Index?ReturnUrl=%2FUser%2FCollect
ReturnUrl：
https ://down.itsvse.com/Account/Index
https://down.itsvse.com/Account/ ... %2FUser%2FResources
ReturnUrl：
https ://down.itsvse.com/Account/Index
https://down.itsvse.com/Account/ ... oadLoading%2Fkzkalr
ReturnUrl：
https://down.itsvse.com/Account/Index
https://down.itsvse.com/Account/ ... Fitem%2Fawljnq.html
ReturnUrl：
https ://down.itsvse.com/Account/Index
https://down.itsvse.com/Account/ ... loadLoading%2F11820
如果这些页面是重复的，我们建议使用 robots.txt 中的 Clean-param 指令，以便机器人忽略无关紧要的 GET 参数并在主页上合并来自相同页面的信号。

大体的意思就是有很多页面带参数值指向 A 链接，然后发现无论参数值怎么变化 A 链接页面始终显示相同的内容（HTML 源码一摸一样），例如：当某个页面点击操作需要跳转到登录页面，当登录成功后，我们希望能够跳转到原来的页面。

Yandex 搜索引擎希望我们对于此类 URL 链接添加 Clean-param 指令，文档：超链接登录可见。

Clean-param 语法如下：

登录可见。

在第一个字段中，列出机器人应该忽略的参数，用&字符分隔。在第二个字段中，指明规则应应用到的页面的路径前缀。

示例如下：

登录可见。

我们根据格式和示例，最后调整 robots.txt 如下：

登录可见。

（完）

飞鱼 · 发表于 2022-4-4 11:36:58

学习学习

小渣渣 · 发表于 2023-3-15 20:07:00

修改为：

登录可见。

		自动登录	找回密码
密码			注册[Register]

[SEO] Yandex 搜索引擎 robots.txt Clean-param 配置

相关帖子