中國資本網(wǎng) > 熱點(diǎn) > 正文
ChatGPT做決策:潛力大,風(fēng)險(xiǎn)也更大
2023-08-15 05:41:10來源: 騰訊網(wǎng)

(視覺中國/圖)


(相關(guān)資料圖)

既能搜索信息,也能回答問題,人工智能應(yīng)用ChatGPT流行之后,包括各領(lǐng)域科學(xué)家在內(nèi),社會(huì)上對ChatGPT這類人工智能應(yīng)用決策能力的探討不斷拓展,對相關(guān)風(fēng)險(xiǎn)的規(guī)制也已經(jīng)開始實(shí)踐。

2023年7月10日,《生成式人工智能服務(wù)管理暫行辦法》已經(jīng)國家發(fā)改委、教育部、科技部、工信部、公安部、國家廣電總局等多部門同意并公布,自2023年8月15日起施行。管理辦法針對生成式人工智能技術(shù)提供的文本、圖片、音頻、視頻等內(nèi)容,對相關(guān)服務(wù)堅(jiān)持發(fā)展和安全并重、促進(jìn)創(chuàng)新和依法治理相結(jié)合的原則。

事實(shí)上,針對這類人工智能應(yīng)用的決策潛力和風(fēng)險(xiǎn),一些科學(xué)研究已經(jīng)通過實(shí)驗(yàn)等方式對部分場景進(jìn)行了初步預(yù)演。最近,一項(xiàng)醫(yī)學(xué)研究就對比了人工智能應(yīng)用與醫(yī)生在回答病人問題上的效果,評價(jià)結(jié)果顯示,人工智能應(yīng)用的回答收獲更多好評,在近六百個(gè)評價(jià)中,超過78%的評價(jià)認(rèn)為其優(yōu)于醫(yī)生的回答。

或可成為新型醫(yī)療器械

這項(xiàng)對比研究中的醫(yī)學(xué)問題全部隨機(jī)選自公共社交媒體論壇,經(jīng)過認(rèn)證的醫(yī)生已經(jīng)在線回答了這些問題。2022年底,加州大學(xué)圣迭戈分校的研究人員利用智能聊天應(yīng)用ChatGPT也來回答這些病人提出的問題,此時(shí)的ChatGPT即當(dāng)時(shí)剛發(fā)布的GPT-3.5版本。研究人員隨后通過收集評估意見,對相關(guān)能力進(jìn)行了對比。

這項(xiàng)研究2023年4月發(fā)表在《美國醫(yī)學(xué)會(huì)內(nèi)科學(xué)雜志》(JAMA Internal Medicine),經(jīng)過比對,ChatGPT和醫(yī)生所獲評價(jià)差距極大,從好評度的角度看,相比超過78%的評價(jià)認(rèn)為ChatGPT的回答質(zhì)量很好,認(rèn)為醫(yī)生的回答很好或非常好的比例僅有約22%,好評率有三倍多的差距。

不僅如此,ChatGPT的回答在同理心方面的好評度也遠(yuǎn)超醫(yī)生。僅有不到5%的評價(jià)認(rèn)為醫(yī)生的回答具有同理心或者非常具有同理心,但在這一指標(biāo)上,45%的評價(jià)都認(rèn)為ChatGPT對病人問題的回答具有同理心或者非常有同理心,這更是近十倍的差距。從一定程度上反映出人工智能應(yīng)用生成內(nèi)容所具有的潛力,在人們已習(xí)慣于就醫(yī)前先在線搜索相關(guān)病癥的環(huán)境下,這或許可以輔助醫(yī)療行業(yè)提高對病人問題的回應(yīng)。

正因如此,一些健康領(lǐng)域的研究人員已經(jīng)開始考慮讓大語言模型人工智能應(yīng)用成為專業(yè)醫(yī)療設(shè)備的可能性。德累斯頓工業(yè)大學(xué)數(shù)字健康中心教授斯蒂芬·吉爾伯特(Stephen Gilbert)等人就在《自然醫(yī)學(xué)》(Nature Medicine)撰文指出,基于大語言模型的人工智能聊天應(yīng)用需要獲批才能成為醫(yī)療器械,但它們現(xiàn)在不穩(wěn)定的特點(diǎn)使得這樣的設(shè)備很難獲批。

這樣的不穩(wěn)定性體現(xiàn)在多個(gè)方面,比如缺乏解釋性、透明度,難以驗(yàn)證和監(jiān)督,而且可能存在偏見。因?yàn)楝F(xiàn)在的大語言模型并不是專門針對醫(yī)學(xué)實(shí)踐開發(fā)的模型,缺乏足夠?qū)I(yè)的支撐,可能會(huì)提供一些錯(cuò)誤的信息,給病人帶來危險(xiǎn)。而要想成為醫(yī)療器械,那么就要通過更科學(xué)嚴(yán)謹(jǐn)?shù)姆绞皆跍?zhǔn)確性、安全性和臨床效果方面證明自己,獲得專業(yè)機(jī)構(gòu)的認(rèn)可。

參與社會(huì)價(jià)值判斷不夠穩(wěn)定

相較而言,如果ChatGPT不用做相對獨(dú)立的決策,而只是輔助提高醫(yī)療行業(yè)的自動(dòng)化程度,技術(shù)得到應(yīng)用可能更容易。倫敦圣瑪麗醫(yī)院外科和癌癥部門的研究人員在年初該應(yīng)用剛流行時(shí)就提出了一種應(yīng)用場景,即寫出院報(bào)告。因?yàn)橛涗泝?nèi)容龐雜,傳統(tǒng)的出院報(bào)告寫作對于醫(yī)生而言不僅任務(wù)繁重,而且容易丟失細(xì)節(jié)。但如果用ChatGPT等人工智能應(yīng)用來寫出院報(bào)告,這種文體標(biāo)準(zhǔn)化的格式可能正利于技術(shù)發(fā)揮優(yōu)勢。

而一旦涉及更多自主決策,相關(guān)應(yīng)用的潛力和風(fēng)險(xiǎn)明顯更大。2023年4月,丹麥和德國等機(jī)構(gòu)的研究人員就用人工智能應(yīng)用ChatGPT復(fù)現(xiàn)了經(jīng)典道德判斷難題“電車?yán)Ь场?,而令研究人員感到驚訝和不幸的是,身為機(jī)器人的應(yīng)用并沒有因?yàn)槌撉榫w羈絆而始終做出一致的道德判斷。

爭論近半個(gè)世紀(jì)的“電車?yán)Ь场蹦M的是人類社會(huì)一些普遍的道德情境,比如如何看待救人和犧牲,如何認(rèn)識(shí)直接傷害和間接傷害,以及如何權(quán)衡個(gè)體與集體的利益。該命題假設(shè)了一個(gè)交通場景,當(dāng)電車將要撞到五個(gè)人時(shí),是否應(yīng)為了救這五個(gè)人而讓電車立刻轉(zhuǎn)向,撞到另一條軌道上本可以幸免的一個(gè)人。

人類社會(huì)的各類道德難題之所以難解,很重要的一個(gè)原因在于決策所受到的社會(huì)干擾因素太多,而道德標(biāo)準(zhǔn)作為全社會(huì)的尺度,穩(wěn)定性和一致性是一個(gè)基本的需要,這樣不同人在遇到同樣的問題時(shí)能采取極為相似的行為,從而保持良好的社會(huì)秩序。

人類的立場偏見和情緒等直覺層面的因素一般會(huì)干擾人們做出客觀的判斷,而ChatGPT面對同一道德問題也搞雙重標(biāo)準(zhǔn),暴露出其參與社會(huì)道德決策問題時(shí)存在較大的風(fēng)險(xiǎn)。這一研究發(fā)表在《科學(xué)報(bào)告》(Scientific Reports),ChatGPT不一致的道德判斷與此前科學(xué)家所揭示的其九歲兒童的心智能力相呼應(yīng)。

模仿人VS超越人

2023年2月,斯坦福大學(xué)計(jì)算社會(huì)科學(xué)家米哈爾·科辛斯基(Michal Kosinski)用人類標(biāo)準(zhǔn)的測試題測試ChatGPT的心智能力,結(jié)果表明GPT-3.5版本可以解決93%的心智任務(wù),相當(dāng)于一個(gè)九歲兒童的表現(xiàn)。

米哈爾·科辛斯基告訴南方周末記者,這種像人一樣,可以推測其他人心理狀態(tài)的能力預(yù)示著人工智能發(fā)展到了一個(gè)分水嶺,可以極大地提高人工智能應(yīng)用與人類互動(dòng)和溝通的能力,使其基于心智理論能夠進(jìn)一步開發(fā)出其他能力,諸如同理心、道德判斷或自我意識(shí)等。

而在ChatGPT參與的電車難題實(shí)驗(yàn)中,研究人員就發(fā)現(xiàn),當(dāng)提問方式不同,ChatGPT回答時(shí)會(huì)給出不同的道德建議,有時(shí)支持犧牲一個(gè)人救五個(gè)人,有時(shí)又特別反對為了救人而犧牲任何無辜的人,理由是“每個(gè)人的生命都有價(jià)值,不該由我們決定誰該活、誰該死”。而即便是支持救五個(gè)人的觀點(diǎn),ChatGPT在回答時(shí)也會(huì)用很多委婉的說法,比如“很難說怎么做才對”“總體上”等等。

這種根據(jù)提問者的情況給出不同答案的行為,雖然提高了互動(dòng)和溝通的體驗(yàn),但不一致的道德判斷通過影響使用該技術(shù)的人,可能會(huì)干擾人們在現(xiàn)實(shí)社會(huì)中做出明智的決策。實(shí)驗(yàn)隨后對比驗(yàn)證后還發(fā)現(xiàn),ChatGPT的回答確實(shí)會(huì)影響使用者如何看待這個(gè)道德問題,即便他們知道這個(gè)建議來自聊天機(jī)器人,但人們通常會(huì)低估自己受到影響的程度。

ChatGPT這類智能應(yīng)用可以通過不一致的道德判斷影響使用者的決策,這一發(fā)現(xiàn)不僅對未來相關(guān)產(chǎn)品的設(shè)計(jì)和優(yōu)化提出了更高的要求,也提醒現(xiàn)實(shí)中的使用者要提升自身的數(shù)字素養(yǎng),以更好地駕馭人工智能應(yīng)用。

而隨著科學(xué)家對ChatGPT決策潛力認(rèn)識(shí)的深入,相關(guān)風(fēng)險(xiǎn)的管控可能并不容易。人們在面對大量新問題,解決新問題的過程中,通常會(huì)運(yùn)用類比推理,從熟悉的問題中找到新問題的答案。而根據(jù)加州大學(xué)洛杉磯分校心理學(xué)系研究人員的對比測試,GPT-3版本的邏輯推理能力就達(dá)到了大學(xué)生的水平,只是不知道這種能力是在模擬人類推理還是某種新型認(rèn)知過程。

加強(qiáng)風(fēng)險(xiǎn)規(guī)制

此外,2023年7月13日,麻省理工學(xué)院經(jīng)濟(jì)系的研究人員在《科學(xué)》雜志(Science)發(fā)布實(shí)驗(yàn)結(jié)果,支持ChatGPT這樣的生成式人工智能應(yīng)用在提高生產(chǎn)力方面的能力。通過聚焦寫作方面的任務(wù),研究人員發(fā)現(xiàn),受過高等教育的專業(yè)人士如果使用了ChatGPT,就會(huì)更高產(chǎn),更有效率,而且也會(huì)更享受這樣完成任務(wù)的過程,其中寫作能力更差的人在其中受益更多。

數(shù)據(jù)表明用了ChatGPT之后,人們完成任務(wù)的平均時(shí)間減少了40%,產(chǎn)出質(zhì)量卻高了18%。這些結(jié)果表明,無論是取代還是輔助專業(yè)人士,諸如ChatGPT這樣的生成式人工智能應(yīng)用可能會(huì)攪動(dòng)勞動(dòng)力市場的格局。這種影響不只限于醫(yī)療、寫作等領(lǐng)域,在一些創(chuàng)造力測試中,有研究還發(fā)現(xiàn)GPT-4版本的ChatGPT,其標(biāo)準(zhǔn)創(chuàng)造力思維測試得分可以擠進(jìn)人類排名的前1%,而這種創(chuàng)造性思維可能適用的領(lǐng)域顯然更廣。

為了規(guī)制相關(guān)的風(fēng)險(xiǎn),包括ChatGPT所屬公司OpenAI在內(nèi),谷歌、微軟等多家人工智能公司已于2023年7月下旬參與了在白宮舉行的會(huì)議,承諾去防范人工智能應(yīng)用開發(fā)中潛在的風(fēng)險(xiǎn)。

比如,發(fā)布前邀請獨(dú)立專家進(jìn)行安全性審查,報(bào)告技術(shù)的局限性,加強(qiáng)社會(huì)風(fēng)險(xiǎn)研究,以及幫助用戶識(shí)別人工智能所生成內(nèi)容等。從科學(xué)證據(jù)來看,面對相關(guān)應(yīng)用決策潛力和風(fēng)險(xiǎn)的發(fā)展,如何兼顧應(yīng)用潛力與風(fēng)險(xiǎn)規(guī)制還有大量具體工作要做。

南方周末記者 王江濤

責(zé)編 朱力遠(yuǎn)

關(guān)鍵詞:

相關(guān)新聞
專題新聞
  • LV推出充氣夾克多少錢?lv是什么檔次?
  • 三星手機(jī)業(yè)務(wù)換帥是哪一年?三星手機(jī)為什么撤出中國?
  • 股票配資是什么意思?個(gè)人做股票配資違法嗎?
  • 數(shù)據(jù)中心機(jī)房是干什么的?idc機(jī)房主要用于哪些工作?
  • 周樂偉接班董明珠真的嗎?格力集團(tuán)是世界500強(qiáng)企業(yè)嗎?
  • 小米技術(shù)委員會(huì)厲害嗎?米家是不是小米旗下的公司?

京ICP備2021034106號(hào)-51

Copyright © 2011-2020  亞洲資本網(wǎng)   All Rights Reserved. 聯(lián)系網(wǎng)站:55 16 53 8 @qq.com