PHP采集网页下载全部文件，轻松搞定！

原副标题：PHP收集页面浏览全数文档，随心所欲搞掂！

在现实生活中，他们时常须要从各式各样中文网站上浏览许多文档，比如相片、音频、视频等。假如全自动三个三个浏览，不但费时，还难手忙脚乱。所以是不是一类方式能让他们轻松愉快地浏览大部份须要的文档呢？标准答案是的确的！责任编辑将如是说怎样采用PHP收集页面并浏览当中的大部份文档。

一、预备组织工作

在早已开始以后，他们须要加装三个PHP扩充——curl。curl是三个用作与软件商统计数据可视化的库，它全力支持HTTP、FTP、SMTP等多种不同协定，因此十分更易采用。在绝大多数Linux控制系统上，curl都早已预载了，假如你采用的是Windows控制系统，则须要全自动加装。

最终目标页面的HTML标识符。能采用curl复本提供更多的curl_init()函数调用三个curl程序代码，并采用curl_setopt()函数增设模块。下列是实例标识符：

$ch = curl_init(); curl_setopt($ch, CURLOPT_URL,”;); curl_setopt($ch, CURLOPT_RETURNTRANSFER, true); $html = curl_exec($ch); curl_close($ch);

以内标识符中，他们具体来说采用curl_init()函数调用了三个curl程序代码，并采用curl_setopt()函数增设了三个模块：CURLOPT_URL和CURLOPT_RETURNTRANSFER。当中CURLOPT_URL选定了最终目标页面的URL门牌号，CURLOPT_RETURNTRANSFER则选定了curl_exec()函数的codice类别。当增设为tr

三、导出HTML标识符

接下去，他们须要从HTML标识符中抽取出须要浏览的文档重要信息。能采用PHP内建的DOMDocumentCanillac导出HTML代码，并采用XPath函数优先选择须要的原素。下列是实例标识符：

$dom = new DOMDocument(); @$dom->loadHTML($html); $xpath = new DOMXPath($dom); $elements =$xpath->query(“//img/@src”); foreach ($elements as $element){ $url =$element->nodeValue; //浏览文档 }

四、浏览文档

下列是实例标识符：

$fp = fopen($filename,”w”); $ch = curl_init($url); curl_setopt($ch, CURLOPT_FILE,$fp); curl_exec($ch); curl_close($ch); fclose($fp);

以内标识符中，他们具体来说打开三个本地文档用作保存浏览下来的文档内容，并采用curl_init()函数调用了三个curl程序代码。然后，他们采用curl_setopt()函数增设了三个模块：CURLOPT_FILE和CURLOPT_URL。当中CURLOPT_FILE选定了浏览的文档内容将被写入到哪个文档中，CURLOPT_URL则选定了浏览的文档门牌号。最后，他们采用curl_exec()函数执行curl程序代码，并采用curl_close()函数关闭它。

五、总结

通过以内步骤，他们能随心所欲地收集页面并浏览当中的大部份文档。当然，以内标识符仅仅是三个简单的实例，实际应用中还须要考虑很多其他因素，比如超时时间、错误处理等等。但是，只要你掌握了以内基本的原理和方式，就能自由地编写出各式各样各样的收集程序了。