get_headers

2020-11-11  本文已影响0人  answer6

采集数据的时候需要抓取第三方的数据,有的资源被重定向,重定向的地址需要再做进一步的判断。
自己用get_headers函数检测了下,发现有多个状态码,才有所了解。


代码示例
/**
 * 递归检测url重定向地址, 直到重定向到rule所指地址
 * 返回该地址
 *
 * @param string $url 待检测的地址
 * @param string $rule 匹配的地址
 * @return mixed
 */
function redirect($url, $rule = 'https://www.google.com/')
{
    $header = get_headers($url, 1);
    //print_r($header);
    // 检测第一个数组元素 是不是被重定向 如果被重定向的话再做下一步
    if (strpos($header[0], '301') !== false || strpos($header[0], '302') !== false) {
        // 检测到跳转
        if (array_key_exists('Set-Cookie', $header)) {
            // 检测到cookie, 进行设置
            $cookies = $header['Set-Cookie'];
            foreach ($cookies as $k => $v) {
                header('Set-Cookie: ' . $v);
            }
        }
        if (array_key_exists('Location', $header)) {
            $url = $header['Location'];
            if (is_array($url)) {
                foreach ($url as $k => $v) {
                    if (strpos($v, $rule) !== false) {
                        // 跳转地址与$rule匹配, 返回该地址
                        return $v;
                    } else {
                        // 不匹配则访问一次中转网址
                        file_get_contents($v);
                    }
                }
            } else {
                if (strpos($url, $rule) !== false) {
                    // 跳转地址与$rule匹配, 返回该地址
                    return $url;
                }
            }
        }
    }
    return false;
}
上一篇 下一篇

猜你喜欢

热点阅读