• <noscript id="xhhbm"></noscript>
    <form id="xhhbm"></form>

    返回首頁 | 網站案例 | 幫助中心

    合作共贏、快速高效、優質的網站建設提供商

    深圳網站建設

    服務熱線:18038067647

    搜索引擎是如何識別出來HTML漢字

    時間:2021-11-7

    搜索引擎分詞是指把HTML里面的一句話,分解成若干個有效的關鍵詞。搜索引擎中的排名結果存儲和處理頁面內容及用戶查詢都是以分詞為基礎,漢字與英文有所不同,英文的單詞與單詞之間有空格作為天然的空格來分隔,搜索引擎程序可以直接把句子劃分為單詞的結合,而中文通常是一句一句的話,需要在一句話中把其中的詞語分解出來,比如說減肥方法4個字,它其實就是兩個詞,一個減肥一個方法。

    中文搜索引擎的分詞方法即為基本上有兩種,一種是基于詞典的匹配,另一種是基于統計。

    基于詞典匹配的方法,是指將待分析的一段漢字與一個事先造好的詞典中的詞條進行匹配,再帶分解漢字,創意中掃描到詞典中,已有的詞條則匹配成功或者說切分出來一個單詞。

    按照掃描方法,基于詞典的匹配法,可以分為正向匹配和逆向匹配,按照匹配長度優先級的不同,又可以分為最大匹配和最小匹配,將掃描方向和長度優先混合又可以產生,正向最大匹配,逆向最大匹配等不同方法。

    基于統計的分值方法,指的是分析大量文本樣本,計算出字與字相鄰出現的統計概率,幾個字的相鄰出現越多就越可能形成一個單子,基于統計的方法的優勢是對新出現此反應更快速,也有利于消極消除歧義。


    建站流程

      深圳網站建設流程