淄博网站优化网页抓取优先策略也称为“页面选择问题”( Page Selection), 通常是尽可能地首先抓取重要性的网页,这样保证在有限的资源 内尽可能地照顾到那些重要性高的网页。那么哪些网页才是重要 性高的呢?如何量化重要性呢?
重要性度量由链接欢迎度、链接重要度和平均链接深度这3 个方面决定[ Arvind Arasu et a.2001l 定义链接欢迎度为1B(P),它主要由反向链接( Backlinks) 的数目和质量决定。首先考察数目,直观地讲,一个网页有越多 的链接指向它(反向链接数多),那么表示其他网页对其的认可。
同时这个网页被网民访问的机会就大推测出其重要性也就越高 其次考察质量,如果被越多重要性高的网页指向,那么其重要性 也就越高。如果不考虑质量,就会出现局部最优,而不是全局最 优的问题。
最典型的就是作弊网页,人为地在一些网页中设置了 大量反向链接指向其自身的网页,以提高该网页的重要性。如果 不考虑链接质量,就会被这些作弊者所利用 定义链接重要度为IL(P),它是一个关于URL字符串的函 数,仅仅考察字符串本身。链接重要度主要通过一些模式,比如 认为包含“com”或者"home”的URL重要度高,以及具有较 少斜杠( slash)的URL重要度高等。