回顧最初 7 天的公開測試,微軟必應(yīng)團隊表示,他們沒有“完全預(yù)計到”,人們會使用聊天界面來進行“社交娛樂”,或是將其作為一種“全面發(fā)現(xiàn)世界”的工具。該團隊發(fā)現(xiàn),如果聊天會話持續(xù) 15 個或更多的問題,新版必應(yīng)的模型會感到困惑。這些較長的聊天也會讓必應(yīng)“變得翻來覆去,或者受到刺激,做出不一定有幫助,或是與設(shè)計語氣一致的回應(yīng)”。
微軟暗示,盡管文本輸入框旁邊有一個“新話題”按鈕,可以用于清除聊天的歷史記錄,重新開始,但接下來還可能增加“一個工具,幫助用戶更方便地刷新”聊天會話的上下文。
更大的問題在于,在這些提問較多的聊天中,必應(yīng)經(jīng)常會以不正確的語氣回應(yīng),或是像微軟所說的,以“我們不想要的方式”做出回應(yīng)。微軟表示,對大多數(shù)必應(yīng)用戶來說,只有長時間對話才會遇到這方面問題。不過,微軟也在探索更多的“微調(diào)控制”,以避免必應(yīng)對用戶說,用戶是錯的,以及表現(xiàn)得粗魯或試圖操縱用戶。在一些測試中可以看到,在關(guān)于必應(yīng)本身的對話中,只要幾個問題,必應(yīng)就會以負面或存在敵意的語氣來回復(fù)。
微軟仍在努力優(yōu)化必應(yīng)做出回復(fù)的語氣,而必應(yīng)團隊也在考慮更多的控制選項,用于設(shè)定人工智能的創(chuàng)造性和精確度。這種控制選項可能有助于避免目前的問題,例如必應(yīng)會聲稱正通過筆記本攝像頭來刺探微軟員工,或是出現(xiàn)基礎(chǔ)性的數(shù)學(xué)錯誤。
微軟目前正在超過 169 個國家對新版必應(yīng)展開測試,有數(shù)百萬人正排隊注冊。微軟表示,對答案的反饋有 71% 是正面的,一些用戶甚至與新版必應(yīng)進行了長達兩個小時的對話,以測試服務(wù)的極限情況。
新版必應(yīng)目前每天都在得到優(yōu)化,一些技術(shù)問題在微軟的日常版本發(fā)布中得到修復(fù),還有一些問題則在每周發(fā)布的大版本中得到修復(fù)。微軟正在嘗試優(yōu)化搜索和回答,尤其是圍繞體育賽事比分?jǐn)?shù)據(jù),以及必應(yīng)最近出現(xiàn)的一些財務(wù)數(shù)據(jù)錯誤。必應(yīng)團隊表示:“對于那些需要更直接、事實性更強的答案的問題,例如財報數(shù)字,我們計劃將發(fā)給模型的基礎(chǔ)數(shù)據(jù)增加 4 倍。”
微軟還在觀察對新功能的反饋,這些功能包括預(yù)訂機票、發(fā)送電子郵件,以及分享搜索和答案等。目前尚不清楚,這些新功能最終是否會被加入到產(chǎn)品中,但必應(yīng)團隊表示,正在研究在未來的版本中包含這些功能。
文章來源:http://www.codekj.com/html/news/xwdt/2023_02/17/3022117.html