开源实体解析
匹配中日韩姓名, 其他工具做不到
陳大文、Chan Tai Man 和 陈大文 是同一个人。纯语音引擎识别不出来。Dataline 通过三个独立信号 — 语音、字形和规范化 — 跨文字、罗马化和字符形式进行匹配,让真正的匹配不会遗漏。
loading matching engine...
Initializing WASM...
为什么不直接转写成拉丁字母再做语音匹配?
因为将中日韩文字折叠为拉丁字母会在每个阶段丢失信息。拼音是多对一的。NYSIIS 合并不同声母。声调消失。OCR 错误变得不可见。Dataline 独立评估三个信号,一个维度的弱分不会掩盖另一个维度的强匹配。
多信号匹配
每对字符计算三个独立信号 — 语音、字形和规范化 — 评分后再组合。高字形匹配分数不会被低语音分数稀释。
语音距离
拼音和粤拼距离评分,保留 NYSIIS 会合并为同一组的声母区分(zh/z/j、ch/c/q)。
字形相似度
笔画序列比较能捕捉 OCR 和手写错误 — 看起来几乎相同但发音完全不同的字符。
简繁互转
自动跨字符形式规范化。陳 和 陈 无需先转换为拼音即可识别为同一实体。
智能分块
分块键 — 首字符、语音键、地址区域 — 将 O(n²) 比较降至线性时间。单机可扩展至千万级记录。
完整 MDM 管道
分词 → 分块 → 比较 → 聚类 → 存活。声明式字段级存活规则从匹配组中构建黄金记录。
Rust 构建,五条命令即可体验。
基于 Apache 2.0 协议免费开源。无需注册、无需 API 密钥,Cargo 之外无其他依赖。
快速开始
git clone https://github.com/digital-rain-tech/dataline.git cd dataline cargo build cargo test cargo bench