人妻一区二区中文字幕电影 ,久久久久国产精品免费免费搜索,国产91单男3p在线观看

ChatGPT做決策：潛力大，風(fēng)險(xiǎn)也更大

2023-08-15 05:41:10來源： 騰訊網(wǎng)

（視覺中國/圖）

(相關(guān)資料圖)

既能搜索信息，也能回答問題，人工智能應(yīng)用ChatGPT流行之后，包括各領(lǐng)域科學(xué)家在內(nèi)，社會(huì)上對ChatGPT這類人工智能應(yīng)用決策能力的探討不斷拓展，對相關(guān)風(fēng)險(xiǎn)的規(guī)制也已經(jīng)開始實(shí)踐。

2023年7月10日，《生成式人工智能服務(wù)管理暫行辦法》已經(jīng)國家發(fā)改委、教育部、科技部、工信部、公安部、國家廣電總局等多部門同意并公布，自2023年8月15日起施行。管理辦法針對生成式人工智能技術(shù)提供的文本、圖片、音頻、視頻等內(nèi)容，對相關(guān)服務(wù)堅(jiān)持發(fā)展和安全并重、促進(jìn)創(chuàng)新和依法治理相結(jié)合的原則。

事實(shí)上，針對這類人工智能應(yīng)用的決策潛力和風(fēng)險(xiǎn)，一些科學(xué)研究已經(jīng)通過實(shí)驗(yàn)等方式對部分場景進(jìn)行了初步預(yù)演。最近，一項(xiàng)醫(yī)學(xué)研究就對比了人工智能應(yīng)用與醫(yī)生在回答病人問題上的效果，評價(jià)結(jié)果顯示，人工智能應(yīng)用的回答收獲更多好評，在近六百個(gè)評價(jià)中，超過78%的評價(jià)認(rèn)為其優(yōu)于醫(yī)生的回答。

或可成為新型醫(yī)療器械

這項(xiàng)對比研究中的醫(yī)學(xué)問題全部隨機(jī)選自公共社交媒體論壇，經(jīng)過認(rèn)證的醫(yī)生已經(jīng)在線回答了這些問題。2022年底，加州大學(xué)圣迭戈分校的研究人員利用智能聊天應(yīng)用ChatGPT也來回答這些病人提出的問題，此時(shí)的ChatGPT即當(dāng)時(shí)剛發(fā)布的GPT-3.5版本。研究人員隨后通過收集評估意見，對相關(guān)能力進(jìn)行了對比。

這項(xiàng)研究2023年4月發(fā)表在《美國醫(yī)學(xué)會(huì)內(nèi)科學(xué)雜志》（JAMA Internal Medicine），經(jīng)過比對，ChatGPT和醫(yī)生所獲評價(jià)差距極大，從好評度的角度看，相比超過78%的評價(jià)認(rèn)為ChatGPT的回答質(zhì)量很好，認(rèn)為醫(yī)生的回答很好或非常好的比例僅有約22%，好評率有三倍多的差距。

不僅如此，ChatGPT的回答在同理心方面的好評度也遠(yuǎn)超醫(yī)生。僅有不到5%的評價(jià)認(rèn)為醫(yī)生的回答具有同理心或者非常具有同理心，但在這一指標(biāo)上，45%的評價(jià)都認(rèn)為ChatGPT對病人問題的回答具有同理心或者非常有同理心，這更是近十倍的差距。從一定程度上反映出人工智能應(yīng)用生成內(nèi)容所具有的潛力，在人們已習(xí)慣于就醫(yī)前先在線搜索相關(guān)病癥的環(huán)境下，這或許可以輔助醫(yī)療行業(yè)提高對病人問題的回應(yīng)。

正因如此，一些健康領(lǐng)域的研究人員已經(jīng)開始考慮讓大語言模型人工智能應(yīng)用成為專業(yè)醫(yī)療設(shè)備的可能性。德累斯頓工業(yè)大學(xué)數(shù)字健康中心教授斯蒂芬·吉爾伯特（Stephen Gilbert）等人就在《自然醫(yī)學(xué)》（Nature Medicine）撰文指出，基于大語言模型的人工智能聊天應(yīng)用需要獲批才能成為醫(yī)療器械，但它們現(xiàn)在不穩(wěn)定的特點(diǎn)使得這樣的設(shè)備很難獲批。

這樣的不穩(wěn)定性體現(xiàn)在多個(gè)方面，比如缺乏解釋性、透明度，難以驗(yàn)證和監(jiān)督，而且可能存在偏見。因?yàn)楝F(xiàn)在的大語言模型并不是專門針對醫(yī)學(xué)實(shí)踐開發(fā)的模型，缺乏足夠?qū)I(yè)的支撐，可能會(huì)提供一些錯(cuò)誤的信息，給病人帶來危險(xiǎn)。而要想成為醫(yī)療器械，那么就要通過更科學(xué)嚴(yán)謹(jǐn)?shù)姆绞皆跍?zhǔn)確性、安全性和臨床效果方面證明自己，獲得專業(yè)機(jī)構(gòu)的認(rèn)可。

參與社會(huì)價(jià)值判斷不夠穩(wěn)定

相較而言，如果ChatGPT不用做相對獨(dú)立的決策，而只是輔助提高醫(yī)療行業(yè)的自動(dòng)化程度，技術(shù)得到應(yīng)用可能更容易。倫敦圣瑪麗醫(yī)院外科和癌癥部門的研究人員在年初該應(yīng)用剛流行時(shí)就提出了一種應(yīng)用場景，即寫出院報(bào)告。因?yàn)橛涗泝?nèi)容龐雜，傳統(tǒng)的出院報(bào)告寫作對于醫(yī)生而言不僅任務(wù)繁重，而且容易丟失細(xì)節(jié)。但如果用ChatGPT等人工智能應(yīng)用來寫出院報(bào)告，這種文體標(biāo)準(zhǔn)化的格式可能正利于技術(shù)發(fā)揮優(yōu)勢。

而一旦涉及更多自主決策，相關(guān)應(yīng)用的潛力和風(fēng)險(xiǎn)明顯更大。2023年4月，丹麥和德國等機(jī)構(gòu)的研究人員就用人工智能應(yīng)用ChatGPT復(fù)現(xiàn)了經(jīng)典道德判斷難題“電車?yán)Ь场?，而令研究人員感到驚訝和不幸的是，身為機(jī)器人的應(yīng)用并沒有因?yàn)槌撉榫w羈絆而始終做出一致的道德判斷。

爭論近半個(gè)世紀(jì)的“電車?yán)Ь场蹦M的是人類社會(huì)一些普遍的道德情境，比如如何看待救人和犧牲，如何認(rèn)識(shí)直接傷害和間接傷害，以及如何權(quán)衡個(gè)體與集體的利益。該命題假設(shè)了一個(gè)交通場景，當(dāng)電車將要撞到五個(gè)人時(shí)，是否應(yīng)為了救這五個(gè)人而讓電車立刻轉(zhuǎn)向，撞到另一條軌道上本可以幸免的一個(gè)人。

人類社會(huì)的各類道德難題之所以難解，很重要的一個(gè)原因在于決策所受到的社會(huì)干擾因素太多，而道德標(biāo)準(zhǔn)作為全社會(huì)的尺度，穩(wěn)定性和一致性是一個(gè)基本的需要，這樣不同人在遇到同樣的問題時(shí)能采取極為相似的行為，從而保持良好的社會(huì)秩序。

人類的立場偏見和情緒等直覺層面的因素一般會(huì)干擾人們做出客觀的判斷，而ChatGPT面對同一道德問題也搞雙重標(biāo)準(zhǔn)，暴露出其參與社會(huì)道德決策問題時(shí)存在較大的風(fēng)險(xiǎn)。這一研究發(fā)表在《科學(xué)報(bào)告》（Scientific Reports），ChatGPT不一致的道德判斷與此前科學(xué)家所揭示的其九歲兒童的心智能力相呼應(yīng)。

模仿人VS超越人

2023年2月，斯坦福大學(xué)計(jì)算社會(huì)科學(xué)家米哈爾·科辛斯基（Michal Kosinski）用人類標(biāo)準(zhǔn)的測試題測試ChatGPT的心智能力，結(jié)果表明GPT-3.5版本可以解決93%的心智任務(wù)，相當(dāng)于一個(gè)九歲兒童的表現(xiàn)。

米哈爾·科辛斯基告訴南方周末記者，這種像人一樣，可以推測其他人心理狀態(tài)的能力預(yù)示著人工智能發(fā)展到了一個(gè)分水嶺，可以極大地提高人工智能應(yīng)用與人類互動(dòng)和溝通的能力，使其基于心智理論能夠進(jìn)一步開發(fā)出其他能力，諸如同理心、道德判斷或自我意識(shí)等。

而在ChatGPT參與的電車難題實(shí)驗(yàn)中，研究人員就發(fā)現(xiàn)，當(dāng)提問方式不同，ChatGPT回答時(shí)會(huì)給出不同的道德建議，有時(shí)支持犧牲一個(gè)人救五個(gè)人，有時(shí)又特別反對為了救人而犧牲任何無辜的人，理由是“每個(gè)人的生命都有價(jià)值，不該由我們決定誰該活、誰該死”。而即便是支持救五個(gè)人的觀點(diǎn)，ChatGPT在回答時(shí)也會(huì)用很多委婉的說法，比如“很難說怎么做才對”“總體上”等等。

這種根據(jù)提問者的情況給出不同答案的行為，雖然提高了互動(dòng)和溝通的體驗(yàn)，但不一致的道德判斷通過影響使用該技術(shù)的人，可能會(huì)干擾人們在現(xiàn)實(shí)社會(huì)中做出明智的決策。實(shí)驗(yàn)隨后對比驗(yàn)證后還發(fā)現(xiàn)，ChatGPT的回答確實(shí)會(huì)影響使用者如何看待這個(gè)道德問題，即便他們知道這個(gè)建議來自聊天機(jī)器人，但人們通常會(huì)低估自己受到影響的程度。

ChatGPT這類智能應(yīng)用可以通過不一致的道德判斷影響使用者的決策，這一發(fā)現(xiàn)不僅對未來相關(guān)產(chǎn)品的設(shè)計(jì)和優(yōu)化提出了更高的要求，也提醒現(xiàn)實(shí)中的使用者要提升自身的數(shù)字素養(yǎng)，以更好地駕馭人工智能應(yīng)用。

而隨著科學(xué)家對ChatGPT決策潛力認(rèn)識(shí)的深入，相關(guān)風(fēng)險(xiǎn)的管控可能并不容易。人們在面對大量新問題，解決新問題的過程中，通常會(huì)運(yùn)用類比推理，從熟悉的問題中找到新問題的答案。而根據(jù)加州大學(xué)洛杉磯分校心理學(xué)系研究人員的對比測試，GPT-3版本的邏輯推理能力就達(dá)到了大學(xué)生的水平，只是不知道這種能力是在模擬人類推理還是某種新型認(rèn)知過程。

加強(qiáng)風(fēng)險(xiǎn)規(guī)制

此外，2023年7月13日，麻省理工學(xué)院經(jīng)濟(jì)系的研究人員在《科學(xué)》雜志（Science）發(fā)布實(shí)驗(yàn)結(jié)果，支持ChatGPT這樣的生成式人工智能應(yīng)用在提高生產(chǎn)力方面的能力。通過聚焦寫作方面的任務(wù)，研究人員發(fā)現(xiàn)，受過高等教育的專業(yè)人士如果使用了ChatGPT，就會(huì)更高產(chǎn)，更有效率，而且也會(huì)更享受這樣完成任務(wù)的過程，其中寫作能力更差的人在其中受益更多。

數(shù)據(jù)表明用了ChatGPT之后，人們完成任務(wù)的平均時(shí)間減少了40%，產(chǎn)出質(zhì)量卻高了18%。這些結(jié)果表明，無論是取代還是輔助專業(yè)人士，諸如ChatGPT這樣的生成式人工智能應(yīng)用可能會(huì)攪動(dòng)勞動(dòng)力市場的格局。這種影響不只限于醫(yī)療、寫作等領(lǐng)域，在一些創(chuàng)造力測試中，有研究還發(fā)現(xiàn)GPT-4版本的ChatGPT，其標(biāo)準(zhǔn)創(chuàng)造力思維測試得分可以擠進(jìn)人類排名的前1%，而這種創(chuàng)造性思維可能適用的領(lǐng)域顯然更廣。

為了規(guī)制相關(guān)的風(fēng)險(xiǎn)，包括ChatGPT所屬公司OpenAI在內(nèi)，谷歌、微軟等多家人工智能公司已于2023年7月下旬參與了在白宮舉行的會(huì)議，承諾去防范人工智能應(yīng)用開發(fā)中潛在的風(fēng)險(xiǎn)。

比如，發(fā)布前邀請獨(dú)立專家進(jìn)行安全性審查，報(bào)告技術(shù)的局限性，加強(qiáng)社會(huì)風(fēng)險(xiǎn)研究，以及幫助用戶識(shí)別人工智能所生成內(nèi)容等。從科學(xué)證據(jù)來看，面對相關(guān)應(yīng)用決策潛力和風(fēng)險(xiǎn)的發(fā)展，如何兼顧應(yīng)用潛力與風(fēng)險(xiǎn)規(guī)制還有大量具體工作要做。

南方周末記者王江濤

責(zé)編朱力遠(yuǎn)

關(guān)鍵詞：

相關(guān)新聞

專題新聞