PHP抓取网页,如何提取所需内容?8方分析!

2023-06-08 0 757

原副标题:PHP撷取网页,什么样抽取所需文本?8方预测!

个网页的大部份重要信息。所以,PHP撷取的网页什么样取部份文本呢?上面将从下列8个各方面逐渐展开预测探讨。

一、采用程序语言相匹配

程序语言能协助他们很方便快捷地相匹配出他们须要的文本。在PHP中,能采用preg_match表达式来展开程序语言相匹配。具体实施方式如下表所示:

<?php $content = file_get_contents(); preg_match(/<title>(.*?)<\/title>/s,$content,$matches); echo $matches[1]; ?>

容。</p>

二、采用数组撷取表达式

<?php $content = file_get_contents(); $start = strpos($content,<div id=”content”>)+ strlen(<div id=”content”>); $end = strpos($content,</div>,$start); echo substr($content,$start,$end -$start); ?>

前述标识符中

条码内的文本。

三、采用DOM解释器

在PHP中,能采用DOM解释器来导出HTML文件格式。DOM解释器将HTML文件格式转化成一棵形内部结构,使他们能方便快捷地对其展开结点和操作方式。具体实施方式如下表所示:

<?php $content = file_get_contents(); $dom = new DOMDocument(); @$dom->loadHTML($content); $titles =$dom->getElementsByTagName(title); foreach ($titles as $title){ echo $title->nodeValue; } ?>

条码内的文本。</p>

四、采用XPath

XPath是一种基于XML文件格式的查询语言,能协助他们快速定位XML文件格式中的节点。在PHP中,也能采用XPath来查询HTML文件格式中的节点。具体实施方式如下表所示:

<?php $content = file_get_contents(); $dom = new DOMDocument(); @$dom->loadHTML($content); $xpath = new DOMXpath($dom); $titles =$xpath->query(//title); foreach ($titles as $title){ echo $title->nodeValue; } ?>

PHP抓取网页,如何提取所需内容?8方分析!

五、采用Simple HTML DOM解释器

Simple HTML DOM解释器是一种PHP类库,能协助他们方便快捷地导出HTML文件格式。具体实施方式如下表所示:

<?php include simple_html_dom.php; $content = file_get_contents(); $html = str_get_html($content); $titles =$html->find(title); foreach ($titles as $title){ echo $title->plaintext; } ?>

了条码内的文本。</p>

六、采用第三方API

具体实施方式如下表所示:

<?php $url =; $favicon_url =. urlencode($url); echo <img src=”.$favicon_url .”/>; ?>

前述标识符中,我

七、采用RSS订阅

展开RSS订阅。具体实施方式如下表所示:

<?php include simplepie.php; $feed_url =; $feed = new SimplePie(); $feed->set_feed_url($feed_url); $feed->init(); $items =$feed->get_items(); foreach ($items as $item){ echo <a href=”.$item->get_permalink().”>.$item->get_title().</a>; } ?>

八、采用第三方爬虫框架

<?php require_once vendor/autoload.php; use Goutte\Client; $client = new Client(); $crawler =$client->request(GET,); $title =$crawler->filter(title)->text(); echo $title; ?>

以上就是PHP撷取的网页什么样取部份文本的8种方式。每种方式都有其适用的场景和优缺点,须要根据实际情况选择合适的方式。

相关文章

发表评论
暂无评论
官方客服团队

为您解决烦忧 - 24小时在线 专业服务