CodeIgniter源码分析 2 - 路由

2017-11-14  本文已影响0人  钝感165

上一节我们说url的请求本质上是调用控制器的方法,我们分析了下确实也是如此,最终是在CodeIgniter.php中从load_class函数中生成的路由对像$RTR上获取了控制器,方法和参数,并使用call_user_func_array实现了对控制器的方法的调用。但是$RTR对象上的控制器和方法到底是怎么解析来的?

这一节我们进入Router.php中看看CI框架的url解析和路由处理。在解析路由之前,先说下CI支持的url风格以及路由配置。

CI框架的url

CI框架支持三种类型的url分别为

CI框架的路由配置

由于有时候出于某些目的我们并不想暴露我们的控制器和方法,或者我们想对访问的资源做一些区分,这时候我们就可以借助路由机制来实现我们的这种需求,路由配置文件位于applications/config/routes.php中,我们可以配置相关的路由和默认控制器
CI框架的路由支持路由配置方式分别为(这些url风格都属于pathinfo)

好了,通过上面的描述我们发现url的风格和路由的配置多种多样,想想路由解析都觉得好复杂,我们进入Router.php中看看CI框架的url解析和路由处理是怎么样的


Router.php

我们上节利用反射也看到这个$RTR就是CI_Router这个类,也看到相关的控制器和方法都是在路由对象$RTR上取的,所以在构造方法中应该解析了一切,我们的目的只有一个就是弄清楚class和method是怎么解析的?进入Router.php观察构造方法。
首先看到构造方法有个$routing参数,下面的注释说的很明白了,它是在index.php中设置并用来重写路由的,什么意思?就是不管你是那种路由,都将你隐射到同一个地方去,这个$routing是在index.php定义的中,这是CI提供的一个可选的方案,所以它是被注释掉的;

在index.php中$routing的设置被注释掉了
接着往下看到,加载了config对象和Url对象,接着判断url是否启用了查询字符串模式,然后调用set_routing方法 构造方法

进入set_routing方法,该方法的逻辑由两部分构成,查询字符串格式的路由解析和pathinfo格式的路由解析

image.png

查询字符串格式的路由解析

这块是查询字符串风格的url路由解析的最核心的地方了,并且终于能够解答我们一开始的疑问class和method到底是怎么来的?看代码

/*
通过$this->enable_query_strings为true进入查询字符串路由解析,我们前面说了这种url的风格为: 
example.com?c=test&m=index&param=param_value,
接下来通过读取配置directory_trigger值来判断url中是否指定了要访问的目录,
如果设置了就将其中的一些非打印字符给去掉,如果指定了访问的目录,那么就通过set_directory方法设置目录
*/
if ($this->enable_query_strings)
{
    $_d = $this->config->item('directory_trigger');
    $_d = isset($_GET[$_d]) ? trim($_GET[$_d], " \t\n\r\0\x0B/") : '';
    if ($_d !== '')
    {
    $this->uri->filter_uri($_d); //过滤非法字符
    $this->set_directory($_d);
    }

    /*
     接着读取控制器字段的配置值,通过该字段值读取url中要访问的控制器,终于看到了class和method是怎么解析得到的了
     */
    $_c = trim($this->config->item('controller_trigger'));
    if ( ! empty($_GET[$_c]))   //url中的控制器是否存在
    {
                $this->uri->filter_uri($_GET[$_c]);  //和上面一样,校验是否有非法字符
                /*
                  如果从url中读取的控制器类不为控制,那么就设置我们要访问的类,
                  原来$TRT->class读的class就是在这个方法中设置的
                */              
                $this->set_class($_GET[$_c]);  //set_class和set_method下文有截图

                $_f = trim($this->config->item('function_trigger'));//获取方法字段的配置值
                if ( ! empty($_GET[$_f]))
                {
                    $this->uri->filter_uri($_GET[$_f]); //校验非法字符
                    /*
                       如果从url中读取的控制器类不为控制,那么就设置我们要访问的类,
                       原来$TRT->method读的method就是在这个方法中设置的
                    */  
                    $this->set_method($_GET[$_f]);  
                }

                /*
                | 这一块是路由解析中非常重要的一段逻辑,在后面的分析中,我们始终看到凡是
                | 跟路由解析中url对象相关联的代码,其始终都在维护这样一个片段数组,第一个元素是控制器类,第二个是方法
                */
                //在url对象中存储相关的类和方法 
                $this->uri->rsegments = array(
                    1 => $this->class,
                    2 => $this->method
                );
    }
    else  //如果url中控制器是空的,那就设置默认的控制器类和方法
    {
                
                $this->_set_default_controller();
    }
    return;
}

关于_set_default_controller()方法设置默认控制器的逻辑有必要看下,因为当用户只是输入域名的情况总得有所处理吧,进入_set_default_controller方法看下

_set_default_controller()

上面的代码中set_directory(),set_class(),set_method()方法体如下图

//设置url映射的控制器类
public function set_class($class)
    {
        $this->class = str_replace(array('/', '.'), '', $class);
    }

//设置url映射的方法
public function set_method($method)
    {
        $this->method = $method;
    }

//设置要加载控制器类的目录
public function set_directory($dir, $append = FALSE)
{
    if ($append !== TRUE OR empty($this->directory))
    {
        $this->directory = str_replace('.', '', trim($dir, '/')).'/';
    }
    else
    {
        $this->directory .= str_replace('.', '', trim($dir, '/')).'/';
    }
}

查询字符串风格的路由解析就到这里了,接下来看看pathinfo风格的。

pathinfo风格的路由解析

看代码

         /*
             如果存在路由配置文件,加载路由配置和特定环境(例如有些url可能只在测试环境能访问)的路由配置
         */
        if (file_exists(APPPATH.'config/routes.php'))
        {
            include(APPPATH.'config/routes.php');
        }

        if (file_exists(APPPATH.'config/'.ENVIRONMENT.'/routes.php'))
        {
            include(APPPATH.'config/'.ENVIRONMENT.'/routes.php');
        }

        /*
                如果路由配置存在,获取到相应的默认控制器和url短线转换的标识,然后从路由数组中删除这两个,最后将路由数组赋值给routes变量,
                关于translate_uri_dashes见:   
                 https://codeigniter.org.cn/user_guide/general/routing.html?highlight=translate_uri_dashes#id6
              
        */
        if (isset($route) && is_array($route))
        {
            isset($route['default_controller']) && $this->default_controller = $route['default_controller'];
            isset($route['translate_uri_dashes']) && $this->translate_uri_dashes = $route['translate_uri_dashes'];
            unset($route['default_controller'], $route['translate_uri_dashes']);
            $this->routes = $route;
        }

        /* 接下来根据uri_string是否为空来决定走配置配置文件或者默认路由*/
        if ($this->uri->uri_string !== '')
        {
            $this->_parse_routes();
        }
        else
        {
            $this->_set_default_controller();
        }

上面的代码最后一段逻辑中看到$this->uri->uri_string,该属性到底是什么?因为后文的路由解析和此变量关联很大,我们先不要往下分析parse_toutes()方法了,进入url对象对应的文件URI.php中看下uri_string是什么?

URI.php

进入后观察构造方法

public function __construct()
{
         //加载配置对象用来读配置信息 
        
        $this->config =& load_class('Config', 'core');

        // 只处理来自命令行请求或者pathinfo风格的url请求
        if (is_cli() OR $this->config->item('enable_query_strings') !== TRUE)
        {
            $this->_permitted_uri_chars = $this->config->item('permitted_uri_chars');

            
            if (is_cli())  //解析命令行的url请求
            {
                $uri = $this->_parse_argv();
            } 
            else  //pathinfo格式的请求
            {
              
                /*
                  这里读取uri_protocol,并且我们可以在配置文件中看到uri_protocol 的默认值是REQUEST_URI,
                接下来根据uri_protocol的类型在switch...case从句来决定使用哪种解析方式, 总之就两种解析uri的
                方式         
                */
                
                $protocol = $this->config->item('uri_protocol');
                empty($protocol) && $protocol = 'REQUEST_URI';

                switch ($protocol)
                {
                    case 'AUTO': // For BC purposes only
                    case 'REQUEST_URI':
                        $uri = $this->_parse_request_uri();
                        break;
                    case 'QUERY_STRING':
                        $uri = $this->_parse_query_string();
                        break;
                    case 'PATH_INFO':
                    default:
                        $uri = isset($_SERVER[$protocol])
                            ? $_SERVER[$protocol]
                            : $this->_parse_request_uri();
                        break;
                }
            }

            //当url解析完成后,调用_set_uri_string($uri),我们猜这里会不会设置了$this->uri->uri_string?
            $this->_set_uri_string($uri);
        }

        log_message('info', 'URI Class Initialized');
    }

这段代码我们分析完了,但还是有两个疑问

第一个疑问,_parse_request_uri()和_parse_query_string()返回的变量$uri是什么,这两个方法有什么区别?

_parse_request_uri()方法

protected function _parse_request_uri()
{
        //判断浏览器域名的原生url和脚本名是否存在,如果不存在就返回一个空$uri,本质上是判断用户是否只是访问了我们的网站域名
        if ( ! isset($_SERVER['REQUEST_URI'], $_SERVER['SCRIPT_NAME']))
        {
            return '';
        }


        //如果是带有url访问,那么解析这个url,得到查询字符串和相关的path
        $uri = parse_url($_SERVER['REQUEST_URI']);
        $query = isset($uri['query']) ? $uri['query'] : '';
        $uri = isset($uri['path']) ? $uri['path'] : '';

      
        /*解析处理类似example.com/index.php/Test/index这种携带有入口文件的url,本质上是去掉REQUEST_URI中的SCRIPT_NAME,
         注意:REQUEST_URI是浏览器原生url,也就是域名后面的url段*/
        if (isset($_SERVER['SCRIPT_NAME'][0]))
        {
            if (strpos($uri, $_SERVER['SCRIPT_NAME']) === 0)
            {
                $uri = (string) substr($uri, strlen($_SERVER['SCRIPT_NAME']));
            }
            elseif (strpos($uri, dirname($_SERVER['SCRIPT_NAME'])) === 0)
            {
                $uri = (string) substr($uri, strlen(dirname($_SERVER['SCRIPT_NAME'])));
            }
        }

        /*解析处理类似example.com/index.php/?/Test/index?name=tcl这种path位于查询字符串的url,
              解析得到uripath和查询字符串,并将原生的查询字符串重写*/
        if (trim($uri, '/') === '' && strncmp($query, '/', 1) === 0)
        {                     
            $query = explode('?', $query, 2);   
            $uri = $query[0];  
            $_SERVER['QUERY_STRING'] = isset($query[1]) ? $query[1] : '';
        }
        else
        {
            $_SERVER['QUERY_STRING'] = $query;
        }
              
        /*
         将原生查询字符串解析并设置到当前作用域,一旦解析到当前作用域,就可以使用php内置超全局预定义变量访问,
         此时解析原生查询字符串,我们就可以通过超全局预定义变量$_GET[]来获取查询字符串的值,关于超全局预定义变量见:
         http://php.net/manual/zh/language.variables.superglobals.php
        */
        parse_str($_SERVER['QUERY_STRING'], $_GET);
            
         //用户访问的只是根域名就返回  
        if ($uri === '/' OR $uri === '')
        {
            return '/';
        }

        //最后对path做一个清洗,因为url的格式可能为example.com/index.php/.././Test/index这种含有相对路径或绝对路径的url
        return $this->_remove_relative_directory($uri);
    }

_parse_query_string()方法

protected function _parse_query_string()
    {
        //检测是否只是访问了域名
        $uri = isset($_SERVER['QUERY_STRING']) ? $_SERVER['QUERY_STRING'] : @getenv('QUERY_STRING');
        if (trim($uri, '/') === '')
        {
            return '';
        }
        //检测path是否位于查询字符串中,例如example.com/index.php/?/Test/index?name=tcl
        elseif (strncmp($uri, '/', 1) === 0)
        {
            $uri = explode('?', $uri, 2);
            $_SERVER['QUERY_STRING'] = isset($uri[1]) ? $uri[1] : '';
            $uri = $uri[0];
        }
       
       //将查询字符串解析到全局作用域,以使超全局预定义变量能访问
        parse_str($_SERVER['QUERY_STRING'], $_GET);
       
       //对url做清洗
        return $this->_remove_relative_directory($uri);
    }

上述两个方法都用了_remove_relative_directory()对url中的相对路径做清洗,看下此方法

/*
 * 由于url可能是example.com/test../test./other/这种,
 * 此函数就是用来去除url中的相对路径
 *
 * */
protected function _remove_relative_directory($uri)
{
    $uris = array();
    //strtok和str_split类似也都是切割字符串,
    //不同处在于strtok会在第一次切割之后记住切割字符的位置,
    //之后就不再需要传原字符串了
    $tok = strtok($uri, '/');
    while ($tok !== FALSE)
    {
        if (( ! empty($tok) OR $tok === '0') && $tok !== '..')
        {
            $uris[] = $tok;
        }
        $tok = strtok('/');
    }

    return implode('/', $uris);
}

通过对_parse_request_uri()和_parse_query_string()这两个方法分析,我们看到_parse_query_string其实是对uri_protocol不支持REQUEST_URI的降级处理而已,这两个方法都返回了url中的path部分,这样我们就知道原来构造方法中的变量$uri就是url中path,该变量作为参数传递给了$this->_set_uri_string($uri)这个方法。

第二个疑问,$this->_set_uri_string($uri)这个方法会不会设置了我们解析pathinfo风格路由时看到的$this->uri->uri_string这个属性?
_set_uri_string()方法

protected function _set_uri_string($str)
    {
           //很显然uri_string这个属性是在这被设置的,它只是移除了一些非打印字符的$uri变量而已,
           //很清楚了,uri_string就是url中path部分
          $this->uri_string = trim(remove_invisible_characters($str, FALSE), '/');
        /*
          判断path是否为空,为空的$this->uri_string会导致路由解析走默认控制器,这个我们在解读_parse_routes()方法时会看到
        */
        if ($this->uri_string !== '')
        {
            //由于我们的url可能是example.com/Test/test.html这种静态页面,要想解析到正确的path就需要我们把后缀名去掉
            if (($suffix = (string) $this->config->item('url_suffix')) !== '')
            {
                $slen = strlen($suffix);

                if (substr($this->uri_string, -$slen) === $suffix)
                {
                    $this->uri_string = substr($this->uri_string, 0, -$slen);
                }
            }
                      
           /*
              将path分割依然维护一个片段数组,第一个元素是控制器类,第二个是方法
            */
            $this->segments[0] = NULL;
            foreach (explode('/', trim($this->uri_string, '/')) as $val)
            {
                $val = trim($val);
                // 和之前一样,校验是否有非法字符
                $this->filter_uri($val);

                if ($val !== '')
                {
                    $this->segments[] = $val;
                }
            }
            unset($this->segments[0]);
        }
    }

通过解读该方法,我们看到其也维护了一个url片段数组,并且$this->uri->uri_string这个属性就是在这设置的,$this->uri->uri_string就是url中的path部分。

此外,我们在前文的分析中分析遇到了几个工具被频繁使用的工具函数,我们有必要看下它们
第一个,移除非打印字符的的函数remove_invisible_characters()

/*
     * 此函数主要移除ascii码表中非打印字符,
     * 包含0-31,以及127的删除符
     *
     * */
    function remove_invisible_characters($str, $url_encoded = TRUE)
    {
        $non_displayables = array();

        //由于回车\r(13),换行\n(10),制表\t(9)这些用于文本格式的字符不需要过滤,
        //所以下面的处理排除了这三个字符

        if ($url_encoded)
        {
            $non_displayables[] = '/%0[0-8bcef]/';  // url encoded 00-08, 11, 12, 14, 15
            $non_displayables[] = '/%1[0-9a-f]/';   // url encoded 16-31
        }

        $non_displayables[] = '/[\x00-\x08\x0B\x0C\x0E-\x1F\x7F]+/S';   // 00-08, 11, 12, 14-31, 127
        do
        {
            $str = preg_replace($non_displayables, '', $str, -1, $count);
        }
        while ($count);

        return $str;
    }

ascii码表非打印字符见这里

换行符"\n"和回车符"\r",回车符应该确切来说叫做回车换行符
● 换行符就是另起一行 --- "\n" 10 换行(newline)
● 回车符就是回到一行的开头 --- "\r" 13 回车(return)
● Windows系统里面,每行结尾是回车+换行(CR+LF),即"\r\n";
● Unix系统里,每行结尾只有换行LF,即"\n";
● Mac系统里,每行结尾是回车CR 即"\r"。

第二个,过滤恶意字符的函数filter_uri()

/*
 * 这个函数主要过滤一些恶意的字符,因为恶意的攻击者可能从url中发起xss攻击,
 * 所以CI在配置文件config.php中的permitted_uri_chars指定了允许url允许的字符,
 * 一旦检测到恶意字符就报404
 * 
 * permitted_uri_chars本身是一段正则
 * $config['permitted_uri_chars'] = 'a-z 0-9~%.:_\-';
 *
 * */
public function filter_uri(&$str)
{
    if ( ! empty($str) && ! empty($this->_permitted_uri_chars) && ! preg_match('/^['.$this->_permitted_uri_chars.']+$/i'.(UTF8_ENABLED ? 'u' : ''), $str))
    {
        show_error('The URI you submitted has disallowed characters.', 400);
    }
}

至此整个URI对象(CI_URI)的解读就完成了,虽说比较繁琐,但总的来看,URI对象就做了两件事,第一是在访问的url中解析出path,这个path将会用在路由配置中查找真正映射的控制器和方法,第二是在path的基础上维护一个片段数组,这个数组存储了url中的类和方法

继续pathinfo风格的路由解析

现在我们知道上文中pathinfo风格的路出解析中我们看到的代码最后面的$this->uri->uri_string原来就是url中的path部分

        if ($this->uri->uri_string !== '')
        {
            $this->_parse_routes();
        }
        else
        {
            $this->_set_default_controller();
        }

既然得到了path,那就去路由配置文件中匹配真正映射的控制器类和方法,这一切在_parse_routes()方法中实现,在该方法中我们看到其处理了我们之前在CI框架的路由配置提到的四种配置方式

protected function _parse_routes()
    {
        //从url片段数组中组装出path,因为我们知道该数组保存了两个元素,一个是控制器类,另一个是方法
        $uri = implode('/', $this->uri->segments);

        // 这里得到请求方法是因为rest风格的路由配置中需要指明请求的动作,这将帮助我们匹配到rest路由
        $http_verb = isset($_SERVER['REQUEST_METHOD']) ? strtolower($_SERVER['REQUEST_METHOD']) : 'cli';

        /*
         * 这里匹配我们在配置文件中硬编码配置的路由和硬编码的rest风格的路由
         * */
        if (isset($this->routes[$uri]))
        {

            if (is_string($this->routes[$uri]))
            {
                $this->_set_request(explode('/', $this->routes[$uri]));
                return;
            }
            elseif (is_array($this->routes[$uri]) && isset($this->routes[$uri][$http_verb]))
            {
                $this->_set_request(explode('/', $this->routes[$uri][$http_verb]));
                return;
            }
        }

        /*
         * 这里匹配我们没有硬编码的动态路由,从CI框架的路由配置中知道,这几种动态路由为:
         * 通配符路由,正则路由,回调函数路由,这几种路由都转换成了正则路由然后进行了匹配
         * */
        foreach ($this->routes as $key => $val)
        {
            //检查是否为rest风格的动态路由,并获取真正的映射值
            if (is_array($val))
            {
                if (isset($val[$http_verb]))
                {
                    $val = $val[$http_verb];
                }
                else
                {
                    continue;
                }
            }

            //将通配符路由转换成正则路由
            $key = str_replace(array(':any', ':num'), array('[^/]+', '[0-9]+'), $key);

            //根据正则路由去匹配
            if (preg_match('#^'.$key.'$#', $uri, $matches))
            {
                /*
                 * 如果正则路由的映射值$val是回调函数,因为该函数的参数是正则表达式的子匹配,通过array_shift($matches)
                 * 来获取子匹配作为参数,然后通过call_user_func_array($val, $matches);实现对该回调函数的调用并返回真正的映射值
                 * */
                if ( ! is_string($val) && is_callable($val))
                {
                    array_shift($matches);

                    $val = call_user_func_array($val, $matches);
                }
                /* 由于在正则路由中,我们在映射部分还能使用逆向引用,例如$route['login/(.+)'] = 'auth/login/$1';
                那么我们就需要将path中配置到的这部分换成解析逆向引用后的映射值*/
                elseif (strpos($val, '$') !== FALSE && strpos($key, '(') !== FALSE)
                {
                    $val = preg_replace('#^'.$key.'$#', $val, $uri);
                }

                $this->_set_request(explode('/', $val));
                return;
            }
        }

        //如果走到这里还没有匹配到的话,只能将url片段传给_set_request做最后的处理
        $this->_set_request(array_values($this->uri->segments));
    }

在上面的_parse_routes()方法中我们看到从url片段数组中拿到path去路由配置文件去匹配真正的映射值,但是其中有个_set_request()方法是个什么鬼?我们看到其将真正映射值分割并传入其中,这个方法已经非常清楚了维护一个分割了真正映射值的url片段数组

protected function _set_request($segments = array())
    {

        /*
         * 因为即使我们拿到了真正映射的url片段数组,我们还是依然无法确保映射值对应的
         * 控制器类是否存在,这就需要调用_validate_request方法去验证下,并重置url片段数组
         * */
        $segments = $this->_validate_request($segments);
        if (empty($segments))
        {
            $this->_set_default_controller();
            return;
        }

        //短线转下划线,感觉这玩意很鸡肋,最好还是别设置为true
        if ($this->translate_uri_dashes === TRUE)
        {
            $segments[0] = str_replace('-', '_', $segments[0]);
            if (isset($segments[1]))
            {
                $segments[1] = str_replace('-', '_', $segments[1]);
            }
        }

        /*
         * 设置类和方法,这里有一点要注意,如果没有方法,将会以控制器类中的index方法作为默认,
         * 这也是为什么我们访问example.com/Test/ 时发现进入index方法的原因
         * */
        $this->set_class($segments[0]);
        if (isset($segments[1]))
        {
            $this->set_method($segments[1]);
        }
        else
        {
            $segments[1] = 'index';
        }

        //重置url的片段数组的索引
        array_unshift($segments, NULL);
        unset($segments[0]);
        $this->uri->rsegments = $segments;
    }

下面是_validate_request()方法

/*
 *从url片段数组中尝试去加载控制器类,
 * 一旦载入成功后设置目录,并重置url片段数组,
 * */
protected function _validate_request($segments)
{
    $c = count($segments);

    while ($c-- > 0)
    {
        $test = $this->directory
            .ucfirst($this->translate_uri_dashes === TRUE ? str_replace('-', '_', $segments[0]) : $segments[0]);

        if ( ! file_exists(APPPATH.'controllers/'.$test.'.php') && is_dir(APPPATH.'controllers/'.$this->directory.$segments[0]))
        {
            $this->set_directory(array_shift($segments), TRUE);
            continue;
        }

        return $segments;
    }

    //该数组存储了最终映射的控制器类和方法以及相关的参数
    return $segments;
}

下面用流程图理一下整个路由解析的过程


image.png

至此整个路由对象对路由解析的代码解读就结束了,我们发现路由对象就做了四件事

上一篇下一篇

猜你喜欢

热点阅读