開源實體解析
匹配中日韓姓名, 其他工具做不到
陳大文、Chan Tai Man 和 陈大文 是同一個人。純語音引擎識別不出來。Dataline 透過三個獨立信號 — 語音、字形和正規化 — 跨文字、羅馬化和字元形式進行匹配,讓真正的匹配不會遺漏。
loading matching engine...
Initializing WASM...
為什麼不直接轉寫成拉丁字母再做語音匹配?
因為將中日韓文字折疊為拉丁字母會在每個階段遺失資訊。拼音是多對一的。NYSIIS 合併不同聲母。聲調消失。OCR 錯誤變得不可見。Dataline 獨立評估三個信號,一個維度的弱分不會掩蓋另一個維度的強匹配。
多信號匹配
每對字元計算三個獨立信號 — 語音、字形和正規化 — 評分後再組合。高字形匹配分數不會被低語音分數稀釋。
語音距離
拼音和粵拼距離評分,保留 NYSIIS 會合併為同一組的聲母區分(zh/z/j、ch/c/q)。
字形相似度
筆畫序列比較能捕捉 OCR 和手寫錯誤 — 看起來幾乎相同但發音完全不同的字元。
簡繁互轉
自動跨字元形式正規化。陳 和 陈 無需先轉換為拼音即可識別為同一實體。
智慧分塊
分塊鍵 — 首字元、語音鍵、地址區域 — 將 O(n²) 比較降至線性時間。單機可擴展至千萬級記錄。
完整 MDM 管道
分詞 → 分塊 → 比較 → 聚類 → 存活。宣告式欄位級存活規則從匹配組中建構黃金記錄。
Rust 建構,五條命令即可體驗。
基於 Apache 2.0 協議免費開源。無需註冊、無需 API 金鑰,Cargo 之外無其他依賴。
快速開始
git clone https://github.com/digital-rain-tech/dataline.git cd dataline cargo build cargo test cargo bench