蔡華誠的學習歷程檔案 - 111-1 人工智慧 - 6. 自然語言處理
 


歷程檔案 Portfolio

    6. 自然語言處理

    自然語言處理(英語:Natural Language Processing縮寫作 NLP)是人工智慧語言學領域的分支學科。此領域探討如何處理及運用自然語言;自然語言處理包括多方面和步驟,基本有認知、理解、生成等部分。自然語言認知和理解是讓電腦把輸入的語言變成有意思的符號和關係,然後根據目的再處理。自然語言生成系統則是把計算機數據轉化為自然語言。
    用途
    在許多情況下,學者們需要通過許多不同的資料庫來確定新的研究方向,以識別研究差距並確定迄今為止尚未研究的領域。檢查所有電子資料庫很麻煩,而且經常會遺漏重要的部分。通過使用網路抓取和自然語言處理來縮短識別研究差距所需的時間。在Google學術搜尋上索引的出版物的標題, 自然語言處理標記化(Tokenization)從最高頻率到最低頻率對搭配進行排序。因此,自然語言處理標記化(Tokenization)確定了標題中未提及的關鍵字集,並將最初的想法確定為研究空白 。
    任務和限制
    理論上,NLP是一種很吸引人的人機互動方式。早期的語言處理系統如SHRDLU,當它們處於一個有限的「積木世界」,運用有限的詞彙表對談時,工作得相當好。這使得研究員們對此系統相當樂觀,然而,當把這個系統拓展到充滿了現實世界的含糊與不確定性的環境中時,他們很快喪失了信心。由於理解(understanding)自然語言,需要關於外在世界的廣泛知識以及運用操作這些知識的能力,自然語言認知,同時也被視為一個人工智慧完備(AI-complete)的問題。同時,在自然語言處理中,"理解"的定義也變成一個主要的問題。
    實際問題
    一些NLP面臨的問題實例:

    • 句子「我們把香蕉給猴子,因為(牠們)餓了」和「我們把香蕉給猴子,因為(它們)熟透了」有同樣的結構。但是代詞「它們」在第一句中指的是「猴子」,在第二句中指的是「香蕉」。如果不了解猴子和香蕉的屬性,無法區分。(簡體中文和英文的它/it沒有區分,但在正體中文裡「牠」和「它」是有區別的,只是代詞在中文裡常常被省略,因此需區別屬性並且標示出來)

    不少的中文相關笑話即是利用類似結構的中文造句而成,此類笑話通常帶有「中文博大精深」之類的詞彙,敘述多以老外參加考試為背景。例子如下:

     

    全部共 0則留言
    登入帳號密碼代表遵守學術網路規範


    文章分類 Labels


    最新文章 Top10

    中華科技大學數位化學習歷程 - 意見反應