PHP抓取网页、解析HTML常用的方法总结

6年以前 | 阅读数：1206 次 | 编程语言：PHP

概述

爬虫是我们在做程序时经常会遇到的一种功能。PHP有许多开源的爬虫工具，如snoopy，这些开源的爬虫工具，通常能帮我们完成大部分功能，但是在某种情况下，我们需要自己实现一个爬虫，本篇文章对PHP实现爬虫的方式做个总结。

PHP实现爬虫主要方法

1.file()函数
2.file_get_contents()函数
3.fopen()->fread()->fclose()方式
4.curl方式
5.fsockopen()函数，socket方式
6.使用开源工具，如:snoopy

PHP解析XML或HTML主要方式

1.正则表达式
2.PHP DOMDocument对象
3.插件，如:PHP Simple HTML DOM Parser

总结

这里对PHP实现爬虫的方式做个简单得总结，本篇设计到得内容还有很多，稍后会对PHP解析HTML和XML的方式做个总结。

PHP分页显示制作详细讲解

PHP · 发表于 6年以前 · 阅读量：9742

SSH 登录失败：Host key verification failed

Shell · 发表于 6年以前 · 阅读量：3827

发送邮件

Shell · 发表于 2年以前 · 阅读量：3728

获取IMSI

JAVA · 发表于 6年以前 · 阅读量：3530

将二进制数据转为16进制以便显示

JAVA · 发表于 6年以前 · 阅读量：3518

双位运算符

JavaScript · 发表于 4年以前 · 阅读量：3472

年的日历图

Python · 发表于 5年以前 · 阅读量：3463

文件下载

JAVA · 发表于 5年以前 · 阅读量：3450

贪吃蛇

JAVA · 发表于 5年以前 · 阅读量：3411

提取后缀名

Python · 发表于 5年以前 · 阅读量：3369

获取IMEI

JAVA · 发表于 6年以前 · 阅读量：3314

PHP自定义函数获取搜索引擎来源关键字的方法

PHP · 发表于 6年以前 · 阅读量：3271

Java生成UUID

JAVA · 发表于 6年以前 · 阅读量：3219

让你成为最历害的git提交人

Shell · 发表于 6年以前 · 阅读量：2995

在Zeus Web Server中安装PHP语言支持

PHP · 发表于 6年以前 · 阅读量：2982

Yii2汉字转拼音类的实例代码

PHP · 发表于 6年以前 · 阅读量：2926

再谈PHP中单双引号的区别详解

PHP · 发表于 6年以前 · 阅读量：2890

指定应用ID以获取对应的应用名称

JAVA · 发表于 6年以前 · 阅读量：2878

Python 2与Python 3版本和编码的对比

Python · 发表于 6年以前 · 阅读量：2867

php封装的page分页类完整实例

PHP · 发表于 6年以前 · 阅读量：2857