【大紀元9月29日報導】(據中廣新聞許佳惠報導)中研院資訊科學研究所在台北國際發明展上,推出一款具有新詞辨識和詞類標記能力的軟體,這套中文斷詞系統,可以自動幫文件和資料作分類,應用在網站上,可以讓搜尋引擎更有效率,準確度已經達百分之九十六,中研院也把技術轉給下游廠商,將來可望讓民眾生活更方便。
每年大考放榜榜單上,都有一大堆菜市場名,在大家忙著取笑名字的同時,科學家已經看到先機!中研院資訊科學研究所中文詞知識庫小組,就是利用榜單的名字,讓中文斷詞系統更完整。
計畫助理蔡瑜方表示,中文斷詞系統主要是讓網路搜尋引擎可以更準確,同時對一些需要作文件、資料分類的公司,可以更有效率,例如新聞分類,這套系統可以自己統計關鍵詞出現的頻率,然後自動歸類到生活新聞、財經新聞或是政治新聞,這樣一來就不需要人工分類,目前辨識準確度已經有百分之九十六。
蔡瑜方也進一步解釋,這套系統初期是利用辭海建立資料庫,然後才逐步加入詞首跟詞尾,例如某某部、某某會、某某路,系統偵測到這些「部」、「會」、「路」,就會機靈的往前搜字串,然後組成國科會、信義路等等,人名的部分也是一樣,出現姓氏之後,系統會去抓後面的字,看是否為常用名,然後組成一個完整人名。