PHP抓取网页，如何提取所需内容？8方分析！

原副标题：PHP撷取网页，什么样抽取所需文本？8方预测！

个网页的大部份重要信息。所以，PHP撷取的网页什么样取部份文本呢？上面将从下列8个各方面逐渐展开预测探讨。

一、采用程序语言相匹配

程序语言能协助他们很方便快捷地相匹配出他们须要的文本。在PHP中，能采用preg_match表达式来展开程序语言相匹配。具体实施方式如下表所示：

<?php $content = file_get_contents(); preg_match(/<title>(.*?)<\/title>/s,$content,$matches); echo $matches[1]; ?>

容。</p>

二、采用数组撷取表达式

<?php $content = file_get_contents(); $start = strpos($content,<div id=”content”>)+ strlen(<div id=”content”>); $end = strpos($content,</div>,$start); echo substr($content,$start,$end -$start); ?>

前述标识符中

条码内的文本。

三、采用DOM解释器

在PHP中，能采用DOM解释器来导出HTML文件格式。DOM解释器将HTML文件格式转化成一棵形内部结构，使他们能方便快捷地对其展开结点和操作方式。具体实施方式如下表所示：

<?php $content = file_get_contents(); $dom = new DOMDocument(); @$dom->loadHTML($content); $titles =$dom->getElementsByTagName(title); foreach ($titles as $title){ echo $title->nodeValue; } ?>

条码内的文本。</p>

四、采用XPath

XPath是一种基于XML文件格式的查询语言，能协助他们快速定位XML文件格式中的节点。在PHP中，也能采用XPath来查询HTML文件格式中的节点。具体实施方式如下表所示：

<?php $content = file_get_contents(); $dom = new DOMDocument(); @$dom->loadHTML($content); $xpath = new DOMXpath($dom); $titles =$xpath->query(//title); foreach ($titles as $title){ echo $title->nodeValue; } ?>

五、采用Simple HTML DOM解释器

Simple HTML DOM解释器是一种PHP类库，能协助他们方便快捷地导出HTML文件格式。具体实施方式如下表所示：

<?php include simple_html_dom.php; $content = file_get_contents(); $html = str_get_html($content); $titles =$html->find(title); foreach ($titles as $title){ echo $title->plaintext; } ?>

了条码内的文本。</p>

六、采用第三方API

具体实施方式如下表所示：

<?php $url =; $favicon_url =. urlencode($url); echo <img src=”.$favicon_url .”/>; ?>

前述标识符中，我

七、采用RSS订阅

展开RSS订阅。具体实施方式如下表所示：

<?php include simplepie.php; $feed_url =; $feed = new SimplePie(); $feed->set_feed_url($feed_url); $feed->init(); $items =$feed->get_items(); foreach ($items as $item){ echo <a href=”.$item->get_permalink().”>.$item->get_title().</a>; } ?>

八、采用第三方爬虫框架

<?php require_once vendor/autoload.php; use Goutte\Client; $client = new Client(); $crawler =$client->request(GET,); $title =$crawler->filter(title)->text(); echo $title; ?>

以上就是PHP撷取的网页什么样取部份文本的8种方式。每种方式都有其适用的场景和优缺点，须要根据实际情况选择合适的方式。

相关文章

微信