程序员

「Text.Read」Day 3. - 30天Hackage之旅

2016-11-24  本文已影响46人  kdepp

Text.Read 做的事情和 Text.Show 刚好相反,是把字符串反序列化为对应的数据类型。反序列化,自然就和语法解析有关,也因此 Text.Read 要比 Text.Show 相对复杂许多。

初步使用

继续使用 Tree 数据结构为例:

import Text.Read

infixr 5 :^:
data Tree a =  Leaf a  |  Tree a :^: Tree a
   deriving (Show, Read)

main = print (read "Leaf 1 :^: (Leaf 2 :^: Leaf 3)" :: Tree Int)

可以看到,Read 的用法十分简单,就是直接用小写的 read 读取一个字符串,并返回希望得到的类型,需要注意的是,必须注明想要得到的类型,如此处的 Tree Int

如果不适用 deriving Read 而选择自己去定义 Read 实例的话,官方的示例是这么写的:

instance (Read a) => Read (Tree a) where
        readsPrec d r =  readParen (d > app_prec)
                         (\r -> [(Leaf m,t) |
                                 ("Leaf",s) <- lex r,
                                 (m,t) <- readsPrec (app_prec+1) s]) r

                      ++ readParen (d > up_prec)
                         (\r -> [(u:^:v,w) |
                                 (u,s) <- readsPrec (up_prec+1) r,
                                 (":^:",t) <- lex s,
                                 (v,w) <- readsPrec (up_prec+1) t]) r
          where app_prec = 10
                up_prec = 5

上半段代码尝试读取 Leaf 的形式,下半段尝试读取 :^: 的形式,app_prec 表示函数调用的优先级是 10, up_prec 表示 :^: 的优先级是 5。看到这里,可能就要问了,readsPrec 到底是在干什么?以及它和我们真正使用的 read 有什么关系?

初探源码

先来看看 read 是怎么定义的?

read :: Read a => String -> a
read s = either errorWithoutStackTrace id (readEither s)

readEither :: Read a => String -> Either String a
readEither s =
  case [ x | (x,"") <- readPrec_to_S read' minPrec s ] of
    [x] -> Right x
    []  -> Left "Prelude.read: no parse"
    _   -> Left "Prelude.read: ambiguous parse"
 where
  read' =
    do x <- readPrec
       lift P.skipSpaces
       return x

readPrec     = readS_to_Prec readsPrec

readS_to_Prec f = P (\n -> readS_to_P (f n))

不要被上面的代码吓到,以上是截取了多个模块中的代码,来展示 readreadsPrec 之间的联系。可以看到,这里绕的弯还不少,大概有这么几个函数需要我们摸清楚门道:

read ==> readEither ==> readPrec ==> readsPrec

注意,这里 readPrecreadsPrec 是两个不同的函数,有的时候真得是要吐槽下 Haskell 函数库中命名的不拘小节,命名的时候如此小的差别,确实不利于阅读源码。
为了讲清楚这些函数,就必须先分别来看一下它们的类型签名。

read :: Read a => String -> a
readEither :: Read a => String -> Either String a
readPrec     :: ReadPrec a
readsPrec :: Int -> ReadS a

哇偶!好多不认识的面孔!这里有一个类型类:Read,有两个陌生的类型:ReadPrecReadS ,都是什么鬼?别着急,慢慢来看:

-- 类型
newtype ReadPrec a = P (Prec -> ReadP a)

newtype ReadP a = R (forall b . (a -> P b) -> P b)
data P a
  = Get (Char -> P a)
  | Look (String -> P a)
  | Fail
  | Result a (P a)
  | Final [(a,String)]
  deriving Functor

type ReadS a = String -> [(a,String)]

-- 类型类
class Read a where
  {-# MINIMAL readsPrec | readPrec #-}
  readsPrec    :: Int -> ReadS a
  readList     :: ReadS [a]

  readPrec     :: ReadPrec a
  readListPrec :: ReadPrec [a]

-- Text.ParserCombinators.ReadP 源码中,对 ReadS 有如下注释

-- Note that this kind of backtracking parser is very inefficient;
-- reading a large structure may be quite slow (cf 'ReadP').


- ReadPrec a
- 可以将 `ReadPrec a` 看作是 `ReadP a` 外面又套了一层 Reader Monad,传入的环境就是当前所处的操作优先级 Precedence。稍微看一下 ReadPrec 的源代码就会发现,其实就是把 ReadP 的很多操作加上了 lift。

- class Read a
- 两组函数,每组两个,一组使用 ReadS,另一组使用 ReadPrec,只要实现 `readPrec` 和 `readsPrec` 中的一个就可以工作。其中, Haskell 2010 Report 中规定要实现的是 `readsPrec`,而`readPrec` 是 GHC 才有的方法,也是 GHC 更推荐使用的方法。事实上,在绝大部分的 Read 实例中,Text.Read 也都是选择去实现 `readPrec`.


## Text.Read.Lex

说了那么多 Read 内部的类型和类型类,再来回看我们在 `instance Read (Tree a)` 中的实现,你会发现其实真正用到的生面孔只有两个函数,即 `readParen` 和 `lex`。没错,我们刚刚说的所有内容,实际上都藏在了这两个函数下。而 `readParen` 又是完全依赖于 `lex` 实现的用于匹配括号的辅助函数,所以接下来,就让我们把焦点放在 “lex” 上。

``` Haskell
lex :: ReadS String             -- As defined by H2010
lex s  = readP_to_S L.hsLex s

可以看到,lex 其实就是简单将 L.hsLex 从 ReadP 转成了 ReadS。所以真正实现都在 L 中,也就是 Text.Read.Lex 中。Text.Read.Lex 模块在 Hackage 上的描述是:

The cut-down Haskell lexer, used by Text.Read

由此可知,Text.Read.Lex 就是一个建议的 Haskell 语法解析器,且是专门写给 Text.Read 用的。翻阅一下它的代码,也可以发现,Lex 就是使用 ReadP 提供的 Parser Combinator 来对 Haskell 语法 (针对由 show 输出的文本)进行解析。

-- ^ Haskell lexemes.
data Lexeme
  = Char   Char         -- ^ Character literal
  | String String       -- ^ String literal, with escapes interpreted
  | Punc   String       -- ^ Punctuation or reserved symbol, e.g. @(@, @::@
  | Ident  String       -- ^ Haskell identifier, e.g. @foo@, @Baz@
  | Symbol String       -- ^ Haskell symbol, e.g. @>>@, @:%@
  | Number Number       -- ^ @since 4.6.0.0
  | EOF
 deriving (Eq, Show)

可以看到,Lex 定义了一些语言的基础元素,不过其中并没有涉及表达式和语句,这是因为 show 输出内容其实就只可能是一个表达式,所以只要好好描述表达式中可能包含的元素就够了。源代码中,有较大篇幅涉及数字和各种字符的解析,虽然值得阅读,但因为和 read 关系不大,所以就不再深入了。

最后再列一下 Text.Read 所有涉及的代码模块:

Text.Read
Text.Read.Lex
GHC.Read
Text.ParserCombinators.ReadP
Text.ParserCombinators.ReadPrec

总结

以上即笔者变读变总结的 Read 类型类的源码分析,希望对于大家理解 Read 能有所帮助。

对于 Read 类型类,大部分时候我们都会直接 deriving 它的实例,最多要实现,也只是简单得套用 readParenlex 就可以搞定了。但对于笔者而言,这里真正有趣的是理解 Read 的实现机制。这里特别有启发的就是两点:

上一篇 下一篇

猜你喜欢

热点阅读