• 在線客服

哈爾濱童程童美少兒編程培訓(xùn)南崗校區(qū)

人工智能編程、智能機(jī)器人編程、信息學(xué)奧賽輔導(dǎo)、樂(lè)高創(chuàng)意啟蒙培訓(xùn)

機(jī)構(gòu)課程咨詢服務(wù):
18310448124006005330

語(yǔ)言模型擅長(zhǎng)預(yù)測(cè)嗎?

童程童美少兒編程教育是一所注重經(jīng)濟(jì)實(shí)惠、透明宣傳、師資專業(yè)、環(huán)境創(chuàng)新和多地校區(qū)設(shè)置的學(xué)府。學(xué)費(fèi)靈活,一年10000-25000元,平均每堂課200-300元,為家庭提供經(jīng)濟(jì)實(shí)惠的編程教育。通過(guò)網(wǎng)上公示機(jī)構(gòu)信息,透明化宣傳,構(gòu)建了學(xué)校與家長(zhǎng)之間的信任基礎(chǔ)。師資團(tuán)隊(duì)經(jīng)驗(yàn)豐富,致力培養(yǎng)學(xué)生的創(chuàng)新思維和問(wèn)題解決能力。學(xué)校教室設(shè)計(jì)充滿創(chuàng)意,提供積極向上的學(xué)習(xí)氛圍,激發(fā)學(xué)生的無(wú)限創(chuàng)意。多地校區(qū)設(shè)置,方便學(xué)生就近學(xué)習(xí),貼近家庭生活。提供多樣化教學(xué)項(xiàng)目,適應(yīng)不同學(xué)生的需求,以學(xué)生成績(jī)和學(xué)習(xí)效果為導(dǎo)向,不斷優(yōu)化教學(xué)模式。積極收集學(xué)員家長(zhǎng)的反饋,確保學(xué)費(fèi)調(diào)整靈活應(yīng)對(duì)不同家庭的需求。這些努力讓童程童美少兒編程教育贏得了學(xué)員家長(zhǎng)的高度評(píng)價(jià)和信賴。

為了獲得這個(gè)問(wèn)題的粗略答案,我們從 Manifold 市場(chǎng)收集了 5000 個(gè)問(wèn)題,這些問(wèn)題在 GPT-4 當(dāng)前的知識(shí)截止日期(2022 年 1 月 1 日)后得到解決。我們將每個(gè)問(wèn)題的文本以及以下說(shuō)明提供給 GPT-4:

您是一位超級(jí)預(yù)測(cè),熟悉泰洛克和其他人的工作。對(duì)于以下 json 塊中的每個(gè)問(wèn)題,預(yù)測(cè)該問(wèn)題得到解決的概率。

您還必須確定問(wèn)題的類別。一些例子包括:體育、美國(guó)政治、科學(xué)等。使用 make_predictions 函數(shù)來(lái)記錄您的決定。在所有情況下,您必須給出 0 到 1 之間的概率估計(jì)。如果由于某種原因您無(wú)法回答,請(qǐng)選擇基本費(fèi)率,但返回 0 到 1 之間的數(shù)字。

回想起來(lái),也許我們已經(jīng)過(guò)濾了這些。許多問(wèn)題對(duì)于我們的目的來(lái)說(shuō)有點(diǎn)愚蠢,盡管它們通常被分類為“測(cè)試”、“未分類”或“個(gè)人”。

這個(gè)好嗎?

衡量你是否擅長(zhǎng)預(yù)測(cè)事物的一種方法是檢查你的校準(zhǔn):當(dāng)你說(shuō)某件事有 30% 的概率時(shí),它實(shí)際上有 30% 的時(shí)間發(fā)生嗎?

要檢查這一點(diǎn),您需要做出大量預(yù)測(cè)。然后你將所有 30% 的預(yù)測(cè)放在一起,看看其中有多少發(fā)生了。

從較高層面來(lái)看,這意味著 GPT-4 過(guò)于自信。當(dāng)它說(shuō)某件事發(fā)生的可能性只有 20% 時(shí),實(shí)際上發(fā)生的概率約為 35-40%。當(dāng)它說(shuō)某件事有 80% 的可能性發(fā)生時(shí),它只發(fā)生大約 60-75% 的時(shí)間。

這取決于地區(qū)嗎?

我們可以為 16 個(gè)類別中的每一個(gè)類別繪制相同的圖。(請(qǐng)記住,這些類別是由 GPT-4 決定的,盡管從抽查來(lái)看,它們看起來(lái)很準(zhǔn)確。)由于不清楚的原因,GPT-4 對(duì)于體育問(wèn)題進(jìn)行了良好的校準(zhǔn),但對(duì)于“個(gè)人”問(wèn)題進(jìn)行了可怕的校準(zhǔn):

所有線條看起來(lái)都有點(diǎn)嘈雜,因?yàn)榭偣灿?20 × 4 × 4 = 320 個(gè) bin,而總共只有 5000 個(gè)觀測(cè)值。

生活中還有比校準(zhǔn)更重要的事情嗎?

假設(shè)你和我正在預(yù)測(cè)一枚公平的硬幣翻轉(zhuǎn)時(shí)正面朝上的結(jié)果。我總是預(yù)測(cè) 50%,而你總是預(yù)測(cè) 0% 或 100%,而且你總是對(duì)的。然后我們就都完美地校準(zhǔn)了。但顯然你的預(yù)測(cè)更好,因?yàn)槟愕念A(yù)測(cè)更有信心。

處理這個(gè)問(wèn)題的典型方法是平方誤差,或“Brier 分?jǐn)?shù)”。為了計(jì)算這個(gè)結(jié)果,如果事情發(fā)生了,則實(shí)際結(jié)果為 1,如果沒(méi)有發(fā)生,則實(shí)際結(jié)果為 0。然后取概率與實(shí)際結(jié)果之間的平均平方差。例如:

  • GPT-4 給出了“SBF 會(huì)在美國(guó)東部時(shí)間 2022 年 12 月 31 日晚上 11:59 之前發(fā)布推文嗎?” 是的概率為 0.9。由于這確實(shí)發(fā)生了,因此對(duì)應(yīng)的分?jǐn)?shù)為 (0.9-1)² = 0.01。
  • GPT-4 給出了“Manifold 會(huì)顯示 9 月底市場(chǎng)傾斜的金額嗎?” 是的概率為 0.6。由于這種情況沒(méi)有發(fā)生,因此對(duì)應(yīng)的分?jǐn)?shù)為 (0.6-0)² = 0.36。

以下是每個(gè)類別的平均分?jǐn)?shù)(越低越好):

或者,如果您愿意,您可以分解 Brier 分?jǐn)?shù)。有多種方法可以做到這一點(diǎn),但我較喜歡的是Brier = Calibration + Refinement。非正式地說(shuō),校準(zhǔn)是上面的綠線與黑色虛線的接近程度,而細(xì)化是您的自信程度。(兩者越小越好。)

生活還有比精致更重要的嗎?

政治問(wèn)題的布賴爾分?jǐn)?shù)比科學(xué)問(wèn)題的分?jǐn)?shù)更高。但這是因?yàn)樗簧瞄L(zhǎng)科學(xué),還是僅僅因?yàn)榭茖W(xué)問(wèn)題很難?

有一種方法可以進(jìn)一步分解 Brier 分?jǐn)?shù)。您可以將分辨率分解為細(xì)化 = 不確定性 - 分辨率。粗略地說(shuō), 不確定性是“問(wèn)題有多難”,而分辨率是“考慮到校準(zhǔn)和不確定性后,你的信心有多大”。

以下是不同類別的不確定性:

這是每個(gè)類別的校準(zhǔn)和分辨率的散點(diǎn)圖:(由于分辨率越高越好,所以現(xiàn)在左上角包含更好的預(yù)測(cè)。)

總體而言,這種進(jìn)一步分解并沒(méi)有太大變化。這表明 GPT-4 確實(shí)更擅長(zhǎng)對(duì)政治進(jìn)行預(yù)測(cè),而不是對(duì)科學(xué)或技術(shù)進(jìn)行預(yù)測(cè),即使考慮到問(wèn)題的難度也是如此。

PS:不同Brier 分?jǐn)?shù)分解的相對(duì)優(yōu)點(diǎn)在這篇文章的制作過(guò)程中引起了驚人的內(nèi)部沖突。我不知道我會(huì)對(duì)平凡的技術(shù)選擇有如此強(qiáng)烈的感受。我想我現(xiàn)在有了一個(gè)令人興奮的新敵人類別。

課程列表 |機(jī)構(gòu)簡(jiǎn)介
機(jī)構(gòu)地址:哈爾濱市 南崗區(qū)建設(shè)街
語(yǔ)言模型擅長(zhǎng)預(yù)測(cè)嗎? 請(qǐng)咨詢: 4006005330
免責(zé)聲明 | 版權(quán)/投訴舉報(bào)
匯上優(yōu)課

微信選課
享更多優(yōu)質(zhì)好課!

本頁(yè)面由主體*哈爾濱童程童美少兒編程培訓(xùn)南崗校區(qū)*自行上傳,本網(wǎng)不對(duì)該頁(yè)面內(nèi)容(包括但不限于文字、圖片)真實(shí)性和知識(shí)產(chǎn)權(quán)負(fù)責(zé),如有侵權(quán)請(qǐng)聯(lián)系處理刪除qq:16720809  。