AI閱卷“翻車” 其實是“翻”在了自然語言處理

2020-10-14 11:01:00來源：科技日報原創(chuàng)版權(quán)禁止商業(yè)轉(zhuǎn)載授權(quán)>>

　　開學(xué)季，美國一款號稱服務(wù)兩萬所學(xué)校的AI閱卷系統(tǒng)遭到質(zhì)疑，學(xué)生們只要借助系統(tǒng)漏洞，輸入相應(yīng)關(guān)鍵詞，即使關(guān)鍵詞之間并無關(guān)聯(lián)，也能輕易獲得高分。

　　隨著人工智能的發(fā)展，不少教育App都應(yīng)用了智能評分系統(tǒng)，評分系統(tǒng)閱卷迅速，及時出分，受到不少師生的歡迎。但同時，也有不少家長吐槽智能評分系統(tǒng)，像英語跟讀App的評分系統(tǒng)，有時候即使擁有英語專業(yè)八級水平的人，測試得分也只有80分。

　　除了應(yīng)用于英語口語的智能評分系統(tǒng)，人工智能還被應(yīng)用于判卷上。不過這種智能閱卷系統(tǒng)也時有“翻車”現(xiàn)象。據(jù)報道，在開學(xué)季，一款號稱服務(wù)于美國兩萬所學(xué)校的AI閱卷系統(tǒng)就受到了質(zhì)疑，學(xué)生們借助它的漏洞，“裸考”就能輕松及格。之所以被學(xué)生們鉆了空子，是由于該系統(tǒng)只是通過關(guān)鍵詞進(jìn)行評分，學(xué)生們只要輸入相應(yīng)關(guān)鍵詞，即使幾個關(guān)鍵詞之間沒有關(guān)系，也能順利過關(guān)甚至獲得高分。

　　閱卷前需先設(shè)定評判標(biāo)準(zhǔn)

　　“自動測評打分系統(tǒng)一般需要先設(shè)定評測的標(biāo)準(zhǔn)，而后根據(jù)設(shè)定的標(biāo)準(zhǔn)去設(shè)計合適的評測算法與模型。”天津大學(xué)智能與計算學(xué)部教授、博士生導(dǎo)師熊德意介紹，比如像口語測評打分，就需要機(jī)器去評判人的發(fā)音是否標(biāo)準(zhǔn)，所讀句子的重音是否正確，讀出的語句是否連貫流暢，連讀部分是否準(zhǔn)確等。

　　AI閱卷系統(tǒng)則涉及到對語言文字的評判，涵蓋很多方面，如語法、語義等，會大量運(yùn)用到自然語言處理技術(shù)。

　　“自然語言處理技術(shù)是人工智能的一個重要分支，研究利用計算機(jī)對自然語言進(jìn)行智能化處理，基礎(chǔ)的自然語言處理技術(shù)主要圍繞語言的不同層級展開，包括音位（語言的發(fā)音模式）、形態(tài)（字、字母如何構(gòu)成單詞、單詞的形態(tài)變化）、詞匯（單詞之間的關(guān)系）、句法（單詞如何形成句子）、語義（語言表述對應(yīng)的意思）、語用（不同語境中的語義解釋）、篇章（句子如何組合成段落）7個層級�！毙艿乱鈴�(qiáng)調(diào)，這些基本的自然語言處理技術(shù)經(jīng)常被運(yùn)用到下游的多種自然語言處理任務(wù)（如機(jī)器翻譯、對話、問答、文檔摘要等）中，自動閱卷中的語言文字評測通常涉及這7個層級的若干層。

　　設(shè)計自動評測指標(biāo)的方法有多種，通常會根據(jù)不同的評判類型去選擇適合的方法�！氨热玳喚硐到y(tǒng)若要進(jìn)行翻譯題的自動評判，可以讓老師事先寫好多個參考譯文答案，然后把學(xué)生的答案和參考答案進(jìn)行類比，計算它們的相似度作為學(xué)生答案好壞的評測指標(biāo)。”熊德意舉例說，機(jī)器翻譯常用的評測指標(biāo)BLEU，就是基于參考譯文和機(jī)器譯文之間的N-grams（N元）匹配度計算相似度的。

　　一個單詞是一元，兩個相連的單詞是二元，還有三元、四元，如果答案中有一個單詞與參考答案中的單詞一致，那么就會給出一個一元評分，類似的可以計算二元、三元、四元的評分。研究人員為不同元設(shè)置不同權(quán)重，然后把得分統(tǒng)籌起來變成一個客觀值，得分越高就說明兩者之間的相似性越高。

　　不同AI評分系統(tǒng)結(jié)果相差甚遠(yuǎn)

　　此次AI閱卷系統(tǒng)“翻車”的導(dǎo)火索是一位美國歷史系教授的兒子在進(jìn)行歷史考試的時候只得到了50%的分?jǐn)?shù)，而她對兒子的答案進(jìn)行評測后，覺得孩子的回答基本沒有問題。

　　同樣的答案，人工評價和機(jī)器評價為何有如此大的出入？

　　“這就是基于AI算法的自動評測面臨的最大挑戰(zhàn)：如何與人工評價保持一致。應(yīng)對這個挑戰(zhàn)需要解決的問題很多。比如如何制定合適的評測標(biāo)準(zhǔn)，主觀題進(jìn)行自動評測必須要有合適的評測標(biāo)準(zhǔn)和規(guī)范；比如如何應(yīng)對語言的千變?nèi)f化，語言的多樣性是自然語言處理技術(shù)的主要挑戰(zhàn)之一，語言的自動測評和自動處理都要面對多樣性的挑戰(zhàn)；比如如何設(shè)計一個綜合性的評測指標(biāo)，雖然目前有各種各樣的指標(biāo)，但是很少有指標(biāo)綜合考慮語言文字的方方面面，例如作文自動閱卷，可能要考慮用詞是否合理（詞匯）、句子是否流暢（句法）、段落組織是否有條理（篇章）、內(nèi)容是否扣題（語義、語用）等�！毙艿乱庹f，上面提到的BLEU就是只考慮了單詞形式的嚴(yán)格匹配，沒有考慮單詞的形態(tài)變化、語義相似性、譯文的句法合理性等因素。

　　“遵循的評測規(guī)則、評判的出發(fā)點不同，相應(yīng)的算法模型都不一樣，因此最后的結(jié)果也會相差甚遠(yuǎn)�！毙艿乱庹f。

　　因此僅僅利用一種評測方法顯然是不全面的，這也就解釋了當(dāng)孩子的母親嘗試在答案里加入“財富、商隊、中國、印度”等題目中的關(guān)鍵詞時，即使這些關(guān)鍵詞之間沒有任何串聯(lián)，她也得了滿分�！翱赡苓@個AI閱卷系統(tǒng)只使用了簡單的關(guān)鍵詞匹配，因此會出現(xiàn)‘關(guān)鍵詞沙拉’也能蒙混過關(guān)的情況�！毙艿乱饨忉�。

　　此外，口語的人工測評與機(jī)器測評也存在較大出入。“近年來，語音識別性能雖然在深度學(xué)習(xí)技術(shù)的推動下取得了顯著的提升，但是在開放環(huán)境、噪音環(huán)境下，這種識別率就會下降很多�！毙艿乱饨忉�，如果機(jī)器“聽”錯了一個單詞，而后機(jī)器進(jìn)行測評，就會形成一個錯誤傳播，也就是上游系統(tǒng)的錯誤會導(dǎo)致下一系統(tǒng)錯誤，錯上加錯，越錯越離譜，測評結(jié)果也會大相徑庭。

　　“目前有很多設(shè)計評測指標(biāo)的方法，還有很多改進(jìn)的方法，如在計算準(zhǔn)確率的同時也計算召回率等。另外，還有對評測指標(biāo)進(jìn)行評測的，即評測的評測，看看哪個評測指標(biāo)更完善，更和人的評價一致。”熊德意感嘆，很多時候，自動評測的難度和對應(yīng)的自然語言處理任務(wù)的難度，從技術(shù)層面來說是一樣的，比如用機(jī)器評價一個譯文的好壞與用機(jī)器生成一個譯文的難度類似，用機(jī)器評判一個文檔摘要的好壞與用機(jī)器生成一個摘要的難度也差不多。

　　可結(jié)合人工評測讓系統(tǒng)更智能

　　“傳統(tǒng)的自動評測指標(biāo)通常是基于符號進(jìn)行計算的，現(xiàn)在深度學(xué)習(xí)等AI技術(shù)也越來越多地應(yīng)用于測評工具中�！毙艿乱饨榻B，使用深度學(xué)習(xí)，可以把語言符號映射到實數(shù)稠密向量的語義空間，利用語義向量計算相似度。哪怕說的詞語和計算機(jī)原本學(xué)習(xí)的不一樣，但只要語義是一致的，機(jī)器就可以進(jìn)行精準(zhǔn)的評價。因此，基于深度學(xué)習(xí)的自動評測某種程度上可以應(yīng)對語言的多樣性挑戰(zhàn)。不過深度學(xué)習(xí)也有一個問題，就是需要大量的數(shù)據(jù)讓機(jī)器進(jìn)行學(xué)習(xí)。

　　基于自監(jiān)督學(xué)習(xí)的預(yù)訓(xùn)練語言模型，近幾年，在語言表示學(xué)習(xí)中，取得了突破性的進(jìn)展�！癘penAI的預(yù)訓(xùn)練語言模型GPT-3，在5000億單詞的海量語料上訓(xùn)練了一個帶有1750億個參數(shù)的神經(jīng)網(wǎng)絡(luò)，通過大量學(xué)習(xí)網(wǎng)絡(luò)上各種語言的文本，GPT-3形成了強(qiáng)大的語言表示能力，可以進(jìn)行多種任務(wù)，比如自動翻譯、故事生成、常識推理、問答等，甚至可以進(jìn)行加減法運(yùn)算，比如其兩位數(shù)加減法正確率達(dá)到100%，五位數(shù)加減法正確率接近10%�！毙艿乱饨榻B，不過，這么龐大的神經(jīng)網(wǎng)絡(luò)，如果用單精度浮點數(shù)存儲，需要700G的存儲空間，另外模型訓(xùn)練一次就花費了460萬美元。因此，即使GPT-3具有較好的零樣本、小樣本學(xué)習(xí)能力，其高昂的成本使其離普遍可用還有很遠(yuǎn)的距離。

　　但是AI作為閱卷評測“老師”，其又有人工不可比擬的優(yōu)勢。比如AI自動批閱卷系統(tǒng)相比人工批閱速度更快，老師不可能一次記住所有的多項選擇題答案，需要不斷檢查標(biāo)準(zhǔn)答案，這是很費時的，自動批閱系統(tǒng)幫助老師大大提高了效率；另外，自動批閱系統(tǒng)更加理性，不受外界條件干擾，不會因疲勞等原因?qū)е抡`判。即使在復(fù)雜的干擾環(huán)境中，仍然可以得到正確的結(jié)果；AI閱卷系統(tǒng)還可以在評分后直接做好學(xué)情分析，統(tǒng)計出考試數(shù)據(jù)、錯題數(shù)據(jù)等教學(xué)材料，幫助老師減負(fù)增效，幫助學(xué)生提高學(xué)習(xí)效率。

　　“將主觀題合理地客觀化，可以降低自動閱卷的難度�！毙艿乱獗硎�，對無法客觀化的主觀題，雖然設(shè)定全面的評測標(biāo)準(zhǔn)比較難，但是設(shè)定某一方面的評測標(biāo)準(zhǔn)還是可行的，比如針對單詞詞法、句子語法的評判，目前準(zhǔn)確率還是挺高的，這類技術(shù)可以從實驗室走向產(chǎn)品應(yīng)用。

　　也可以引入人工評測，對AI閱卷系統(tǒng)打分進(jìn)行復(fù)核與修正，通過這種反復(fù)的修正，累積大量的評測訓(xùn)練數(shù)據(jù)，讓機(jī)器評分變得更加智能。

　　“利用自然語言處理等人工智能技術(shù)，進(jìn)一步完善主觀智能評分系統(tǒng)，將是未來教育領(lǐng)域的一個非常重要的課題�！毙艿乱庹f，以后的AI自動批閱系統(tǒng)肯定會越來越“聰明”，人工智能與教育的結(jié)合也會越來越緊密。（記者陳曦）

編輯：馬文靜

挑戰(zhàn)賽模擬攻擊人工智能應(yīng)對安全風(fēng)險 人工智能在生產(chǎn)、生活中的運(yùn)用越來越廣泛，它的安全性也越來越受到關(guān)注。國內(nèi)高校和企業(yè)發(fā)起一項特殊的比賽，參賽者比的是誰能夠更快、更有效地攻擊人工智能系統(tǒng)，通過這樣的“對抗攻擊”來提高人工智能的水平和安全性。 2020-09-20 21:30:00

陜西清澗：人工智能產(chǎn)業(yè)扶貧探索就業(yè)新路徑 人工智能是新一輪科技革命和產(chǎn)業(yè)變革的重點領(lǐng)域。2019年，清澗縣政府經(jīng)過大量調(diào)研考察，與國內(nèi)電商企業(yè)對接引進(jìn)了人工智能產(chǎn)業(yè)扶貧項目，成為全國第一個縣級試點。目前，清澗縣就職人工智能訓(xùn)練師的百名員工中，困難群眾占到了60%以上，平均月薪酬超過3000元。 2020-09-12 15:17:00

聲音

熱點專題

日韩视频一区二区,国产成人久久精品麻豆二区,日韩亚洲国产欧美精品,亚洲v视频,欧美电影一区,国产午夜精品一区二区三区小说,国产在线观看一区二区三区

AI閱卷“翻車” 其實是“翻”在了自然語言處理

AI閱卷“翻車” 其實是“翻”在了自然語言處理