抓取网页正文内容

近来做了有关抓取网页正文内容(含正文中图片)的功能,这里小结一下。

服务器端语言:PHP

已知:源文章的 URL

1、常规方法

使用 PHP 内置函数 file_get_contents 或者 CURL 方法直接获取 URL 对应的网页源代码。

这两种方法的使用都很简单,此处不展开讲。注意 CURL 需要模块开启。

问题:可以提取到大部分网页源代码,但是同时也提取到了页面上的其他信息,例如广告、侧栏、通用顶部、通用底部、用户评论等等“噪点数据”,我们其实需要的是“原创文正的正文部分”,不需要其他乱七八糟的内容。

此时,这个源代码就需要进一步处理,使用普通的正则匹配不可用,因为网站内容格式千差万别。如果只是提取固定网站或者有限几个网站的内容,单独进行正则匹配也可凑合使用。这里要介绍的是一种通用的方法,不限网站个数和内容格式,适配几乎所有内容类的网站。

2、进阶方法

此处需要一个算法,把已经提取到的内容源文件处理一下,计算出正文部分内容(含图片)。

此方法叫做:Readability,一个开源的提取网页正文内容的类。Readability 是一个很不错的实现,它通过遍历Dom对象,通过标签和常用文字的加减权,来重新整合出页面的内容。

JS 版本的 Readability 是最好用的,它可以直接在浏览器完成分析,于是用户还可以人工对分析出来的内容进行修改和校正。

由于 Readability 解决的需求很通用,于是其他语言的程序员纷纷移植了该算法。

PHP 版本 https://github.com/feelinglucky/php-readability

Java 版本 https://github.com/wuman/JReadability

Node 版本 https://www.npmjs.org/package/node-readability

本人就是使用了 PHP 版本的。只是需要与自己的具体业务相结合,需要自己再修改即可,核心算法不变。

这个方法很有效,做内容聚合类的项目很适合(注意版权问题)。

3、特殊方法

为什么有特殊方法?

因为有些网站有版权保护意识,增加了一些措施防止原创内容被盗取。通常都是图片防盗链,也有正文文字也防盗取的。

此处举2例。

(1)微信公众号文章

微信公众号文章目前数据量就不用说了,发的人多,看的人超级多,不乏一些优秀的原创。

它这个是要是图片防盗链。提取内容没有问题,但是所有的图片都被防盗链机制过滤掉了。

解决方案:

例如,其中一篇截图:

蜜糖少女孙怡

下面对应的图片部分的代码为:

<img data-s="300,640" data-type="jpeg" data-src="http://mmbiz.qpic.cn/mmbiz/9aMpMo0Xap52pCAdiaicq59bbawuXKt0Epws5Qc845SIgM059HHuBIkYpUzl9zUtLLjgwvKjwCkf7VGW6buZAIXQ/0?wx_fmt=jpeg" data-ratio="1.5" data-w="" src="http://mmbiz.qpic.cn/mmbiz/9aMpMo0Xap52pCAdiaicq59bbawuXKt0Epws5Qc845SIgM059HHuBIkYpUzl9zUtLLjgwvKjwCkf7VGW6buZAIXQ/640?wx_fmt=jpeg&amp;tp=webp&amp;wxfrom=5&amp;wx_lazy=1" style="width: auto !important; visibility: visible !important; height: auto !important;">

其中,src 中的数据是懒加载的同时防盗链,在当前位置到达浏览器窗口时才加载(使用了JS),所以如果直接获取源代码,所有图片属性 src 都是指定的防盗链的静态图片 URL,不是图片的实际 URL。

但是,观察发现,图片实际 URL,已经包括在属性 data-src 中,同时返回了(方便 JS 处理)。

因此,我们在这里替换一次,把所有的图片属性 src 的值替换为图片实际 URL(即 data-src 中的值)即可。

$text= preg_replace("/data-src/ie", "src", $text);

之后,按普通方法继续处理。

(2)36氪文章

科技媒体36氪文章的保护意识更强,直接抓取,别说图片,连正文文字都获取不到。

这里引用一下 V2EX 上的一篇文章的说法:

本人使用 PHP 的: file_get_contents 和 curl 函数都未曾获取到。就认真研究了下 36 氪的正文加载过程。

看了一下,它应该是使用 js 加载的正文内容。

如果禁用 js 调试,正文就没有内容;否则,就可以正常显示。但是查看了下所有的 js 文件也没看出来头绪,如果使用“网页另存为”本地文件,再用浏览器打开也是没有正文。

是不是使用了什么加密技术来获取正文(为了防止爬虫)?各位探讨一下

就是这个意思,我也遇到了同样的问题,不过我怀疑:它的正文时动态加载的。

看了之后,我又去仔细研究了下,得出结论:

因为它的正文内容的确是使用 JS 动态加载的

幸运的是,实际的数据也已经提前随源代码返回来了,只是没有经过 JS 处理,浏览器中不可见而已。

参考截图:

经过仔细观察发现,可以获取 html 源代码中的 data-dom-id 值为 App-react-component-0 的属性 data-props 的值,就是包含正文内容的 JSON 格式数据。

此处可以使用 DOM 获取,也可以使用正则匹配,本人使用了正则匹配。

正则表达式:

data-dom-id="App-react-component-0"([\s\S]*?)data-props=['|\"]([\s\S]*?)['|\"]\s+data-trace=

匹配结果的第2个元素即为包含正文数据的 JSON 格式数据。

之后,把 JSON 格式数据转换为 数组,即可进一步处理。

preg_match("/data-dom-id=\"App-react-component-0\"([\s\S]*?)data-props=['|\"]([\s\S]*?)['|\"]\s+data-trace=/i", $source, $matches);
$matchesstr = htmlspecialchars_decode($matches[2]);
$matchestarget = json_decode($matchesstr,true);

此处注意,转移实体的反转义。否则 JSON 解码函数结果为空。

4、小结

以上,就是已经用到的方法,总体思路就是:

直接获取 –> 间接获取 –> 正则匹配 –> 替换成可处理格式

不过,这些具体方法本身可能需要随时修正的,具体就看源网站的规则什么时候修改,修改为什么样子了。

掌握核心思考方法和处理机制,任其万变,不离其宗。