知乎怕不是疯了?经过搜索引擎翻开 内容乱码有必要改写从头加载

09-02 534阅读 0评论

早前知乎现已屏蔽除百度和搜狗以外的一切查找引擎,即其他查找引擎爬虫不得抓取知乎的内容;知乎经过反爬办法辨认或许是爬虫类的 UA 标识,例如谷歌查找的爬虫都会显现乱码内容。

相关内容:

  • 知乎开端强制要求用户登录账号 不然不允许检查完好答复和专栏内容
  • 知乎现已彻底制止谷歌和必应查找抓取内容 看起来真怕内容被练习 AI?
  • 谷歌/必应查找的知乎专栏内容呈现乱码 不知道是不是知乎成心这么做的
  • 知乎成心运用乱码搅扰必应/谷歌等爬虫 看起来确实是阻挠内容被抓取练习 AI

不过知乎现在还在持续增强反爬办法,即用户经过查找引擎翻开知乎都或许全页显现乱码内容,这种状况明显也是知乎正在维护自己的数据防止被抓取拿去练习 AI。

现在大多数查找引擎都现已无法索引知乎的内容,但现已索引的前史内容会在查找引擎里显现网址概览,假如用户不小心点击了就能发现呈现乱码。


                    知乎怕不是疯了?经过搜索引擎翻开 内容乱码有必要改写从头加载

蓝点网经过屡次测验简直能够承认这是知乎成心施加的约束,由于在乱码页面只需要改写就能够正常显现内容,这说明知乎是有目的性的阻拦查找引擎或其他爬虫,这些爬虫运用的通常是无头阅读器,用户运用的阅读器则是正常版别,因此在改写时能够经过知乎的反爬战略。

另一方面知乎现在现已强制用户有必要登录才干检查完好内容,这相同也是反爬办法之一,正常用户不或许短时间内阅读很多内容,而爬虫即使有一个或多个账户,在短时间内抓爬很多内容也或许会被风控体系检测到,究竟这不归于正常用户的操作逻辑。

当然对用户来说其实处理这个问题也很简单,直接屏蔽知乎的悉数域名即可,你能够装置 uBlacklist 扩展程序将知乎从任何查找引擎成果中拉黑,这样查找成果就再也不会呈现知乎的链接了。

发表评论

快捷回复: 表情:
评论列表 (暂无评论,534人围观)

还没有评论,来说两句吧...

目录[+]