全唐诗清洗语料(简体、繁体)

2018-01-28  本文已影响0人  Emerson_G

2018年1月28日

Emerson_G

《全唐诗》是唐代诗歌全面的收录,全书包括四万多首诗词,两千多位作者,非常好地覆盖了唐朝知名的诗歌。

这里整理了一份全唐诗的结构化的语料,包括简体版本和繁体版本的一一对照。

全唐诗总计900卷,每首诗的结构包括标题、作者、诗三部分。其中“卷七百九十五”和“卷七百九十六”是辑录的“佚句”,只是零散的句子,没有作者或独立成篇。所以,处理的时候,这两卷没做处理。

附语料地址:https://github.com/dream-catcher/learning_blogs/tree/master/Quantangshi_Corpus

结构化格式

整理的结构化JSON信息格式如下:

[

         "index",   #索引id

         "volume_num",#原书的“卷名”

         "simplified_author", #简体版作者

         "simplified_title",  #简体版标题

         "simplified_poem",  #简体版诗正文

         "simplified_poem_orig",#简体版诗原始正文

         "tradtional_author", #繁体版作者

         "tradtional_title",  #繁体版标题

         "tradtional_poem", #繁体版诗

         "tradtional_poem_orig"  #繁体版诗原始正文

]

默认情况下,simplified_poem_orig及tradtional_poem_orig两个字段为null。

如果原始的诗正文中包含说明文字,如括号内的说明或破折号说明联句的作者这类情况,已经对这类句子进行了清洗,把清洗后的诗正文放在simplified_poem及tradtional_poem两个位置,而原始正文放在simplified_poem_orig及tradtional_poem_orig位置。

简单统计

整理的唐诗总计41560首,2317位诗人,简单的统计如下:

白居易:2620

杜甫:1144

李白:847

齐己:779

无名氏:765

刘禹锡:694

元稹:588

贯休:546

韦应物:543

李商隐:530

陆龟蒙:518

许浑:507

刘长卿:502

皎然:492

杜牧:490

罗隐:468

姚合:455

张籍:445

钱起:429

贾岛:401

孟郊:391

岑参:386

王建:379

韩愈:368

张祜:360

皮日休:353

王维:345

温庭筠:343

权德舆:338

方干:336

上一篇 下一篇

猜你喜欢

热点阅读