DatistEQ之字母井名可逆向匹配方案设计
一、R系统字母井名现状
基本规则,以井名拼音作为字母井名,对于转换后重复的井名加字母区分。(字母为大写)R系统中共有152853口井,其中字母井名数据现状:
1、320口井,以空格开始。
2、47642口井,拼音字段为空。
3、193个拼音数据项井名重复,涉及394口井。
4、重复井名,拼音编号加字母区分的方式,实用性较差。
二、GE系统拼音井名逆向匹配
13个三维工区3408口井(时深井关系),去重后2963口井。
1、直接匹配仅39口井。
2、转换为大写后,可匹配1292口井,1671口井未匹配。
三、井名重新拼音编号
R系统15万口井名重新拼音编号,重复编号1697个,涉及井数3506口;
新编号下,三维井可匹配2018口井,未匹配905口(可与原库可匹配的32口井)
四、之前讨论基于了两点假设:
第一条假设地物的井来源于R系统?
现有的数据环境中,未处理大小写转换仅有39井能完全匹配上,处理后43%(1292口)能匹配上。
新方案,直接转为拼音后能匹配68%(2018口),剩余部分可与R系统原有井名匹配的仅32口井。
从这些数据上看,第一条假设不完全成立,悲观地说地物仅有1%井来源于R系统。通过简单的拼音规则,可以匹配到68%。
第二条假设,R系统的软件接口中的拼音井名,可逆且科研人员是认可的?
从R系统去重的规则来看,推送的拼音井名,科研人员无法直接使用;其次大量的空值,重复的存在,使得可用可逆这条假设也不成立。看来接口的使用情况也一个假象。
这是一个井名匹配问题。
从R系统软件接口的生态环境角度考虑,一是删除R系统中同一井多个身份的井,二是建立拼音井名命名规则,建立新井添加机制;三是老井拼音井名修改。通过这三点,建立汉字井名与拼音井名唯一对应的字典,完成拼音的井名的可逆向查询工作。
关于三维项目,有30%根据简单的拼音规则不能匹配,同时井名也不来源于R系统。自动匹配,看来只能通过坐标或是文字相似度来进行,一种是动态方式,给定坐标(100米范围)平台给井位,就是平台给猜一个井位(井名上给个标记即可)。另一种方法,静态的维护一张对应关系表(这个方案,个人不建议,系统建立起来了,地物随便命名,维护工作太大)。