#吐槽
几个星期前我的 njump 实例(1c1g)小盒子被 MJ12bot 和 Amazon spider 爬宕机了好几次后直接就在 robots.txt 里面禁用了, 也还好都挺守规则. 然后就是天天都来的字节跳动的 spider, 也没看到他有什么搜索引擎, 头条搜索也不可能收率这些无法主动审查的内容, 纯纯爬来丰富它们语料库, 然后也把它加进去了 robots.txt, 结果它还不遵守, 只好直接在 WAF 里写规则禁了.
也不好直接开白名单, 现在 Google, Bing, Yandex 的爬虫每天都来光顾, 也难说会有其他我不知道的搜索引擎爬虫会来.
几个星期前我的 njump 实例(1c1g)小盒子被 MJ12bot 和 Amazon spider 爬宕机了好几次后直接就在 robots.txt 里面禁用了, 也还好都挺守规则. 然后就是天天都来的字节跳动的 spider, 也没看到他有什么搜索引擎, 头条搜索也不可能收率这些无法主动审查的内容, 纯纯爬来丰富它们语料库, 然后也把它加进去了 robots.txt, 结果它还不遵守, 只好直接在 WAF 里写规则禁了.
也不好直接开白名单, 现在 Google, Bing, Yandex 的爬虫每天都来光顾, 也难说会有其他我不知道的搜索引擎爬虫会来.