基于phpQuery开发的PHP采集工具,手动复制粘贴肯定是不可行

2023-05-28 0 953

原副标题:如前所述phpQuery合作开发的PHP收集辅助工具,全自动分页的确是不可取

这时,他们能采用QueryList来同时实现智能化收集。

一、甚么是QueryList

QueryList是两个如前所述phpQuery合作开发的PHP收集辅助工具,它提供更多了单纯功能强大的APIUSB,使他们能十分方便快捷地展开统计数据截取和处置。

二、加装QueryList

他们能采用Composer来加装QueryList,只须要在配置文件中输入下列指示方可:

composer require jaeger/querylist ;__biz=MjM5MTQzNzU2NA==&scene=124#wechat_redirect

接著,在应用程序中点选“发展史最新消息”,关上发展史该文条目网页。在该网页中,他们能看见全篇该文的副标题、正式发布天数和相关联的URL门牌号。

是两个单纯的实例标识符:

4d3d4fba3&chksm=bd4cc2f88a3b4beeeed49ab7c35a0d67a0ea7f04e4d5e48aa9eb2e0c9f9d8137ca8ceec6bc28#rd; //采集该文内容 $ql = QueryList::get($url); $title =$ql->find(.e7f4f8bd246c235418280d1f124e14f0_media_title)->text(); $content =$ql->find(.e7f4f8bd246c235418280d1f124e14f0_media_content)->html(); //输入结论 echo $title .”\n\n”.$content;

基于phpQuery开发的PHP采集工具,手动复制粘贴肯定是不可行

以上标识符会输入该文副标题和内容。

五、处置收集结论

他们能对收集结论展开一些单纯的处置,比如去除HTML标签、过滤无用信息等。下列是两个实例标识符:

php use4cc2f88a3b4beeeed49ab7c35a0d67a0ea7f04e4d5e48aa9eb2e0c9f9d8137ca8ceec6bc28#rd; //收集该文内容 $ql = QueryList::get($url); $title =$ql->find(.e7f4f8bd246c235418280d1f124e14f0_media_title)->text(); $content =$ql->find(.e7f4f8bd246c235418280d1f124e14f0_media_content)->html(); //去除HTML标签 $content = strip_tags($content); //过滤无用信息 $content = preg_replace(/\s+/,,$content); //输入结论 echo $title .”\n\n”.$content;

以上标识符会输入处置后的该文副标题和内容。

nt=10&f=json”; //收集该文条目 $json = QueryList::get($url)->json; $list = json_decode($json, true)[list]; //如果没有该文了,退出循环 if (empty($list)){ break; } //遍历该文条目并收集该文内容 foreach ($list as $item){ $url =$item[app_msg_ext_info][content_url]; $title =$item[app_msg_ext_info][title]; //收集该文内容 $ql = QueryList::get($url); $content =$ql->find(.e7f4f8bd246c235418280d1f124e14f0_media_content)->html(); //去除HTML标签 $content = strip_tags($content); //过滤无用信息 $content = preg_replace(/\s+/,,$content); //输入结论 echo “{$title}\n\n{$content}\n\n”; } //增加页码 $page += 10; }

以上标识符会输入所有发展史该文的副标题和内容。

七、总结

八、参考文献

1. QueryList官方文档:

2. PHP正则表达式教程:

3. fiddler官方网站:。

相关文章

发表评论
暂无评论
官方客服团队

为您解决烦忧 - 24小时在线 专业服务