物料统一库的整理
企业历史的物料数据呈现不规范状态,但是可以从网络上找到一些相对规范的物料数据,以下简称标准库数据。
问题是,如果将企业现有不规范的数据,利用计算机技术,快速形成企业的规范数据呢?
【建立内外部数据联系】
首先,直接用网络的标准库物料数据是不可以的,因为内部已经有了相应的习惯,无法直接替换。最好的办法是建立联系,就是内部已经用的不规范数据与标准库数据进行关联。
【训练命名实体识别(NER)】
标准库的数据相对结构化,通过数据库可以进行保存与查询。进而,从中可以提炼出实体标识,也就是利用已有的标准库的数据进行命名实体识别(NER)的预计训练。如果大家在一个圈子里,虽然标书不太一样,但是毕竟是物料领域,所以大概率能对不规范的描述完成命名实体识别(NER)。当然,由于非定制件的存在,可能在标准库中缺乏类似的描述,但是通过扩大标准库的范围,可以尽量覆盖非标准件的语言。
利用命名实体识别(NER)技术,从已有的不规范物料信息中提取关键信息,如物料名称、规格、品牌等。
【明确规则的清洗】
在提取关键信息并计算相似度之后,如果存在同义词等问题,可以对不规范的物料数据进行清洗和标准化,以便更好地与您的物料库进行比较。这可能包括将文本转换为小写、删除特殊字符、同义词替换等操作。
【文本相似度对比】
在提取物料的关键信息(物料名称、规格、品牌)后,您可以计算客户提供的物料信息与您的物料库中物料信息的文本相似度。这可以帮助您找到最匹配的物料。可以使用诸如TF-IDF、Word2Vec、BERT等文本表示方法,结合余弦相似度等相似度计算方法来实现。
【文本分类】
根据提取的关键信息和计算出的相似度,您可以使用分类或聚类方法将客户提供的物料数据与您的物料库进行匹配。例如,使用支持向量机、随机森林、神经网络等分类器,或者采用K-means、DBSCAN等聚类算法。