excel导入时有什么提高字段模糊匹配度的方案吗?
问题
业务中有很多涉及地区的数据。地区表是多级的区-镇-村的结构,业务表存储地区表 id 作为外键。使用表格导入时,需要读取表格中的镇、村字段与地区表匹配,获取到地区表的 id,存储到业务表中。
实际使用过程中,用户在使用功能时,拿到的表格数据可能是不标准的。因为地区在很多地方可能都有一些别名或者小名,表格中填写这些不太规范的地区名称录入时,在地区数据表中直接查找是匹配不到的,导致数据录入成功率降低。
为此我们想了一些办法尽量提升这方面的用户体验:
- 提供标准模板,将地区设置为选择框。缺点是提升了用户的工作量,需要人工处理一遍数据。
- 使用正则模糊匹配。这有一些作用,但是受原始数据的标准程度影响,准确率不一。由于原始数据量较大,可能是几万或者几十万,导致错误数据也很多。
- 优化提示。当数据匹配错误时,将错误数据按照原始格式导出给客户并提示数据不规范的原因,让用户尽可能方便的去调整数据重新录入。但是同样当数据量上来时,可能需要人工操作的地方有很多。
目前没有想到什么更好的办法进一步提升用户体验,有什么别的方案可以更好的处理大量数据不规范导入匹配度低的问题吗?