QueryList コレクター開発マニュアル
/ 采集亂碼解決方案
采集亂碼解決方案
出現亂碼的問題很多,解決方法也不盡相同,要視具體情況而定,以下幾種亂碼解決方案僅供參考。
一.使用QueryList內置的亂碼解決方案
Query方法:
QueryList::Query(采集的目標頁面,采集規(guī)則[,區(qū)域選擇器][,輸出編碼][,輸入編碼][,是否移除頭部])
1.設置輸入輸出編碼
$html =<<<STR <div> <p>這是內容</p> </div> STR; $rule = array( 'content' => array('div>p:last','text') ); $data = QueryList::Query($html,$rule,'','UTF-8','GB2312',true)->data;
2.設置輸入輸出編碼,并設置最后一個參數為true
如果設置輸入輸出參數仍然無法解決亂碼,那就設置最后一個參數為true(移除頭部)
$html =<<<STR <div> <p>這是內容</p> </div> STR; $rule = array( 'content' => array('div>p:last','text') ); $data = QueryList::Query($html,$rule,'','UTF-8','GB2312',true)->data;
二.查看QueryList論壇[亂碼]相關主題解決方案
亂碼:http://querylist.cc/search/q-5Lmx56CB#all
三.自己手動轉碼頁面,然后再把頁面?zhèn)鹘oQueryList
$html =<<<STR <div> <p>這是內容</p> </div> STR; $rule = array( 'content' => array('div>p:last','text') ); $data = QueryList::Query($html,$rule,'','UTF-8','GB2312',true)->data;