英汉音译项目启动

2018-11-24 本文已影响16人 K同学啊

author：明天依旧可好
email：mtyjkh@outlook.com
time：2018-11-24

在这里先简单记录一下音译项目具体要实现的目标--利用英文发音的谐音为英文名字找到一个对应且合理的中文名。

英文	中文
Andy	安迪
Aab	奥布
Aaba	阿巴
Aabel	奥贝尔
Aabraek	奥布赖克
Aabrant	阿布兰特
Aaby	奥比
Aabye	奥比
Aach	阿赫
Aad	阿德
Aadahi	阿达希
Aadahl	奥达尔
Aadalbert	阿达尔贝特
Aadasch	阿达施
Aadde	奥德

首先我要将手上的67万条数据（类型上方的数据）进行清理，以下是我的清理记录。

通过观察发现绝大部分来源于日语的英文人名与其对应的中文名在发音上没有对应关系。
进一步探究得知，来源于朝鲜语、越语的语料也不具参考价值。
探究如何判断语料的来源。
判断路径一：“Source”字段中标识为日语、朝鲜语、越语；判断路径二：部分数据的“CnName”字段中也会标明语料来源。
通过python代码删除来源于日语、朝鲜语、越语的语料并将它们分别记录进“sourceIsJapan.csv”、“sourceIsKorea.csv”、“sourceIsVietnam.csv”三个文件中。

代码记录：以防存在不规则数据打断清洗进程，用try语句来处理并将不规则数据记录进“errorRows.csv”文件中。

try:
    if "日" == row["Source"] or "〈日〉" in row["CnName"]:
        dataFrame = dataFrame.drop(index)
        writer_oneRow_toFile("sourceIsJapan.csv", row)

    elif "朝" == row["Source"] or "〈朝〉" in row["CnName"]:
        dataFrame = dataFrame.drop(index)
        writer_oneRow_toFile("sourceIsKorea.csv", row)

    elif "越" == row["Source"] or "〈越〉" in row["CnName"]:
        dataFrame = dataFrame.drop(index)
        writer_oneRow_toFile("sourceIsVietnam.csv", row)            
    else:
        writer_oneRow_toFile("世界人名翻译大辞典 - 1.csv", row)

except:
        writer_oneRow_toFile("errorRows.csv", row)

6.后面发现67万数据即使用代码来处理也特别花费时间，再次对数据进行观察发现，发现这份数据分为俩个部分，我上面提到的数据均是第二部分的数据。

第二部分数据示例

最后我将第二部分数据整体从语料库中删除，生成一个不含第二部分数据的“世界人名翻译大辞典 - 1.csv”文件。

英汉音译项目启动

猜你喜欢

热点阅读