原副标题:PHP撷取网页,什么样抽取所需文本?8方预测!
个网页的大部份重要信息。所以,PHP撷取的网页什么样取部份文本呢?上面将从下列8个各方面逐渐展开预测探讨。
一、采用程序语言相匹配
程序语言能协助他们很方便快捷地相匹配出他们须要的文本。在PHP中,能采用preg_match表达式来展开程序语言相匹配。具体实施方式如下表所示:
<?php $content = file_get_contents(); preg_match(/<title>(.*?)<\/title>/s,$content,$matches); echo $matches[1]; ?>容。</p>
二、采用数组撷取表达式
<?php $content = file_get_contents(); $start = strpos($content,<div id=”content”>)+ strlen(<div id=”content”>); $end = strpos($content,</div>,$start); echo substr($content,$start,$end -$start); ?>前述标识符中
条码内的文本。
三、采用DOM解释器
在PHP中,能采用DOM解释器来导出HTML文件格式。DOM解释器将HTML文件格式转化成一棵形内部结构,使他们能方便快捷地对其展开结点和操作方式。具体实施方式如下表所示:
<?php $content = file_get_contents(); $dom = new DOMDocument(); @$dom->loadHTML($content); $titles =$dom->getElementsByTagName(title); foreach ($titles as $title){ echo $title->nodeValue; } ?>条码内的文本。</p>
四、采用XPath
XPath是一种基于XML文件格式的查询语言,能协助他们快速定位XML文件格式中的节点。在PHP中,也能采用XPath来查询HTML文件格式中的节点。具体实施方式如下表所示:
<?php $content = file_get_contents(); $dom = new DOMDocument(); @$dom->loadHTML($content); $xpath = new DOMXpath($dom); $titles =$xpath->query(//title); foreach ($titles as $title){ echo $title->nodeValue; } ?>五、采用Simple HTML DOM解释器
Simple HTML DOM解释器是一种PHP类库,能协助他们方便快捷地导出HTML文件格式。具体实施方式如下表所示:
<?php include simple_html_dom.php; $content = file_get_contents(); $html = str_get_html($content); $titles =$html->find(title); foreach ($titles as $title){ echo $title->plaintext; } ?>了条码内的文本。</p>
六、采用第三方API
具体实施方式如下表所示:
<?php $url =; $favicon_url =. urlencode($url); echo <img src=”.$favicon_url .”/>; ?>前述标识符中,我
七、采用RSS订阅
展开RSS订阅。具体实施方式如下表所示:
<?php include simplepie.php; $feed_url =; $feed = new SimplePie(); $feed->set_feed_url($feed_url); $feed->init(); $items =$feed->get_items(); foreach ($items as $item){ echo <a href=”.$item->get_permalink().”>.$item->get_title().</a>; } ?>八、采用第三方爬虫框架
<?php require_once vendor/autoload.php; use Goutte\Client; $client = new Client(); $crawler =$client->request(GET,); $title =$crawler->filter(title)->text(); echo $title; ?>以上就是PHP撷取的网页什么样取部份文本的8种方式。每种方式都有其适用的场景和优缺点,须要根据实际情况选择合适的方式。