我们做了什么?
为了优化队列,我们添加了过滤器,优先考虑独特的内容和更高权限的网站,以及打击链接农场。因此,系统现在可以找到更多独特的内容,
并生成更少的带有重复链接的报告。
- 为了保护我们的队列免受链接农场的侵害,我们会检查大量域名是否来自同一 IP 地址。如果我们看到太 新加坡手机数据 多来自同一 IP 的域名,则它们在队列中的优先级将会降低,从而允许我们扫描来自不同 IP 的更多域名,而不会被困在链接农场中。
- 为了保护网站并避免类似的链接污染我们的报告,我们会检查是否有太多来自同一域的 URL。如果我们看到太多来自同一域的 URL,它们将不会在同一天被全部抓取。
- 为了确保我们尽快抓取新页面,任何我们之前未抓取过的 URL 都将被赋予更高的优先级。
- 每个页面都有自己的哈希码,可帮助我们优先抓取独特的内容。
- 我们考虑了源页面上生成新链接的频率。
- 我们会考虑网页和域名的权威分数。
如何改善尾巴
- 超过 10 种不同的因素可以过滤掉不必要的链接。
- 得益于新的质量控制算法,页面更加独特、质量更高。
爬虫
我们的爬虫会跟踪互联网上的内部和外部链接,寻找带有链接的新页面。因此,我们只能找到有入站链接的页面。
当我们审视我们以前的系统时,我们看到了提高整体抓取能力和找到更好内容的机会——网站所有者希望 关键词和广告对齐的重要性概述 我们抓取和索引的内容。
我们做了什么?
- 爬虫数量增加了三倍(从 10 个增加到 30 个)
- 停止抓取具有不影响页面内容的 URL 参数的页面(&sessionid、UTM 等)
- 增加了网站读取 robots.txt 文件的频率
爬虫如何改进
- 更多爬虫(现在有 30 个!)
- 清理数据,不含垃圾或重复链接
- 改进了对最相关内容的搜索
- 每天扫描速度达 250 亿页
储物空间
存储是我们保存您作为 Semrush 用户可以看到的所有链接的地方。此存储空间向您显示工具中的链接并提供可用于查找所需内容的过滤器。
我们对旧存储系统的主要担忧是它只有在升级后才能完全重写。这意味着每隔 2-3 周就会重写一次,然后整个过程重新开始。
因此,在更新期间,新的链接会积累在缓冲区中,从而导致工具数据对用户可见的延迟。我们想看看是否 墨西哥电话号码 可以在此步骤中提高速度。
我们做了什么?
为了改进流程,我们从头重写了架构。为了消除对临时存储的需要,我们将服务器数量增加了四倍以上。
这需要超过 30,000 小时的设计时间来实现最新技术。现在,我们拥有一个可扩展的系统,现在或将来都不会达到极限。