functionimitateSpider($url){
$ci = curl_init();//初始化一個CURL的會話
$user_agent ="Baiduspider+(+http://www.baidu.com/search/spider.htm)";//這里模擬的是百度蜘蛛
//curl_setopt($ci,CURLOPT_PROXY,'74.125.71.99');
curl_setopt($ci, CURLOPT_URL, $url);
curl_setopt($ci,CURLOPT_HEADER,false);
curl_setopt($ci, CURLOPT_RETURNTRANSFER, 1);
curl_setopt($ci,CURLOPT_REFERER,'http://www.baidu.com');//這里寫一個來源地址,可以寫要抓的頁面的首頁
curl_setopt($ci, CURLOPT_USERAGENT,$user_agent);
$temp=curl_exec($ci);//執(zhí)行CURL會話
curl_close($ci);
return$temp;
}
$url='www.google.com.hk';
$data=imitateSpider($url);
print_r($data);
baiduspider在爬取網(wǎng)頁時,發(fā)送請求的User-Agent字段內(nèi)容將更新。
目前的字段內(nèi)容是
Baiduspider+(+http://www.baidu.com/search/spider.htm)
更換后的字段內(nèi)容是
Mozilla/5.0 (compatible;Baiduspider/2.0;+http://www.baidu.com/search/spider.html)
當然也可以修改成不同瀏覽器或者移動設(shè)備。對于蜘蛛模擬還可以做一樣事情,那就是當蜘蛛過來的時候,呈現(xiàn)的內(nèi)容是符合蜘蛛口味,比如一些關(guān)鍵詞的堆砌(SEO優(yōu)化),對于瀏覽器或移動設(shè)備訪問(人),呈現(xiàn)的內(nèi)容是另外一種正常的文章,為的是用戶體驗。比如我用IE來模擬火狐訪問,就是修改為火狐的信息使用這個:navigator.userAgent查看
Mozilla/5.0 (Windows NT 5.1; rv:14.0)Gecko/20100101 Firefox/14.0.1
愛華網(wǎng)



