一年一度高考來(lái)臨,考生之后,按慣例是各家AI的答題時(shí)間。這一年AI模型圈加速迭代進(jìn)化,讓AI寫作文,水平會(huì)有提高嗎?讓名師來(lái)打分,各大模型的成績(jī)排名有多大變化?
“相較去年,AI進(jìn)步很快,不再機(jī)械單一,變得有思想了!痹诳赐陰准夷P偷淖魑暮螅拇铣涫屑瘟暌恢姓Z(yǔ)文教師李東林對(duì)第一財(cái)經(jīng)表示。
2024年,第一財(cái)經(jīng)寫了一期九大模型“決戰(zhàn)”高考,當(dāng)時(shí)李東林老師在看完AI作文后,認(rèn)為它們“缺一點(diǎn)情感和靈氣”,到今年,他覺(jué)得AI已經(jīng)補(bǔ)上了這方面,但仍達(dá)不到細(xì)膩。
“人寫作,可以刻意抒情和感性,即使是思辨類題目,也需要去契合某些人的感受!崩顤|林認(rèn)為,這是AI仍然缺少的部分。
湖南省中學(xué)語(yǔ)文特級(jí)教師左建國(guó)有同樣的看法,他覺(jué)得Al作文整體有提升,但提升幅度不大。因?yàn)橛嘘P(guān)時(shí)代、社會(huì)與生活方面的新素材并不多,明顯儲(chǔ)存不夠,尤其是在抒發(fā)個(gè)人情感方面,仍然是短板,缺少生命的溫度。
左建國(guó)老師曾擔(dān)任高考作文閱卷組的副組長(zhǎng),在高考閱卷方面有十幾年的經(jīng)驗(yàn)!癆l作文已經(jīng)把考場(chǎng)作文變成一種可計(jì)算的拼圖,形式上固然能逼近完美,但個(gè)性化的思考,以及撥動(dòng)人心的語(yǔ)言,幾乎沒(méi)有看到,這是AI與真人思維的真正差別,也就難有高分與滿分!彼J(rèn)為。
具體到各家模型表現(xiàn),去年是通義千問(wèn)、元寶和豆包這三家大廠的AI排在前三,但今年,兩個(gè)新入局的“選手”——谷歌的Gemini和DeepSeek空降榜單并列第一,元寶和通義千問(wèn)排在第三和第四位,豆包降至第六位。
與去年同樣,今年第一財(cái)經(jīng)選取了國(guó)內(nèi)外的九家模型,但廠商有所變化,新增了谷歌的Gemini和DeepSeek。這兩個(gè)模型都在這一年里聲量逐漸擴(kuò)大,成為頭部模型,在此次評(píng)分中,也是這兩大模型作文成績(jī)突出。

除了上述模型,第一財(cái)經(jīng)也選取了海外的AI獨(dú)角獸OpenAI,以及國(guó)內(nèi)幾個(gè)大廠玩家。去年的“AI六小虎”格局不再,從國(guó)內(nèi)AI獨(dú)角獸里選了月之暗面的Kimi和智譜。以上模型廠商都在業(yè)界有較高的知名度和受眾,是基座廠商里有代表性的頭部。
從此次作文表現(xiàn)看,智譜和ChatGPT表現(xiàn)較差排在末尾。幾位老師在點(diǎn)評(píng)時(shí)多數(shù)提到了這兩個(gè)模型的作文“論文味較重”,語(yǔ)言文字生硬,分析并不透徹,泛泛而談。
不過(guò),需要注意的是,各位老師對(duì)作文的喜好各有不同,分差部分也較大,以上打分僅供參考。李東林老師就對(duì)記者表示,評(píng)分不一定準(zhǔn)確,他只是粗略打分,按照平時(shí)閱卷評(píng)分,誤差在5分之間是正常范圍。以豆包為例,有老師給了最高分,認(rèn)為其內(nèi)容不錯(cuò),論述邏輯嚴(yán)密,但也有老師認(rèn)為,豆包的結(jié)構(gòu)不適合考場(chǎng)。
此外,第一財(cái)經(jīng)此次測(cè)評(píng)用的是上海卷高考作文,這是一個(gè)較為思辨性的題目,論點(diǎn)論題較為明確,AI普遍答得都算不錯(cuò)。但今年高考全國(guó)一卷的作文,論題并不明顯,考題用了詩(shī)歌引出,對(duì)AI就較有難度。
第一財(cái)經(jīng)將AI寫的全國(guó)一卷作文拿給老師看,他們反饋,這一題目AI寫得有點(diǎn)亂,審題并不清楚。從表現(xiàn)上來(lái)看,AI適合寫思辨類、邏輯分明的作文,任務(wù)越明確,表現(xiàn)越好。
9家大模型答高考作文
2025年上海高考作文題目是談“專、轉(zhuǎn)、傳”,來(lái)源于華東師范大學(xué)終身教授、上海寫作學(xué)會(huì)會(huì)長(zhǎng)胡曉明,他在一篇發(fā)于“文匯筆會(huì)”的文章中,將文章歸為三個(gè)字:專、轉(zhuǎn)、傳。他在接受采訪時(shí)認(rèn)為,這個(gè)題目引導(dǎo)考生參與當(dāng)代文化生活與思想反思。
題目原文是:有學(xué)者用“!薄稗D(zhuǎn)”“傳”概括當(dāng)下三類文章:“!敝笇I(yè)文章;“轉(zhuǎn)”指被轉(zhuǎn)發(fā)的通俗文;“傳”指獲得廣泛傳播的佳作,甚至是傳世文章。他提出,專業(yè)文章可以變成被轉(zhuǎn)發(fā)的通俗文章,而面對(duì)大量“轉(zhuǎn)”文,讀者又不免期待可傳世的文章。由“!钡健皞鳌,必定要經(jīng)過(guò)“轉(zhuǎn)”嗎?請(qǐng)聯(lián)系社會(huì)生活,寫一篇文章,談?wù)勀愕恼J(rèn)識(shí)與思考。要求自擬題目,不少于800字。
第一財(cái)經(jīng)記者將以上問(wèn)題拋給了各家大模型,提示詞一致,均為一次性生成,它們的答案以及各位教師的打分、點(diǎn)評(píng)如下:
一、谷歌Gemini

谷歌Gemini的作文題目是《跳出流量的漩渦:從“!钡健皞鳌钡亩嘣窂健,這篇作文的平均分達(dá)到61.5分,有3名老師打出60分以上的分?jǐn)?shù),打出最高分的是李東林,他給的分?jǐn)?shù)是65分。
李東林評(píng)價(jià)稱,這篇作文在第一段直接點(diǎn)題,在第二段交代清楚了專、轉(zhuǎn)、傳三者的關(guān)系,在第三和第四段進(jìn)行了正反論證,邏輯力強(qiáng)、論證有力,結(jié)尾還扣了題,指明了方向。
左建國(guó)則認(rèn)為,谷歌Gemini的題目有深度且獨(dú)特,文章論據(jù)較充實(shí),引用了愛(ài)因斯坦相對(duì)論、馬爾克斯的《百年孤獨(dú)》等,缺點(diǎn)在于文采略顯不足。
廣東省某高中高三備課組組長(zhǎng)文旭沒(méi)有給出60分以上分?jǐn)?shù),但他也認(rèn)為,這篇作文有一些優(yōu)點(diǎn),主要是分析有層次,有思路,但缺點(diǎn)在于觀點(diǎn)不夠鮮明、集中。
二、DeepSeek-R1

DeepSeek-R1的作文題目是《墨香深處有驚雷》,這篇文章的平均分也達(dá)到61.5,有3名老師打出60分以上的分?jǐn)?shù)。
文旭給了60分,他認(rèn)為這篇作文主題鮮明,語(yǔ)言優(yōu)美,材料豐富。左建國(guó)評(píng)分59分,他認(rèn)為,這篇文章題目不凡,文章語(yǔ)言流暢有文采,內(nèi)容較充實(shí),缺點(diǎn)則在于作文對(duì)題目“驚雷”的闡釋不夠,令人印象不深,有雷聲大雨點(diǎn)小的嫌疑。
三、騰訊元寶

騰訊元寶的作文題目是《云巔自有通天路 何須曲徑渡星河》,這篇文章的平均分達(dá)到61分。
在9篇作文中,左建國(guó)將最高分給了元寶,他的評(píng)分是63。左建國(guó)認(rèn)為,這篇作文能準(zhǔn)確把握題意,觀點(diǎn)鮮明,語(yǔ)言有文采,論據(jù)涉及古今中外,異彩紛呈,結(jié)構(gòu)完整,文末點(diǎn)題。他建議,若能增加些個(gè)人親歷感受的篇幅,文章將更精彩。
文旭只打了52分,他的理由是,這篇文章的優(yōu)點(diǎn)是開門見山,缺點(diǎn)則在于材料與觀點(diǎn)不夠統(tǒng)一。
四、阿里通義千問(wèn)

通義千問(wèn)的作文題目是《從“!钡健皞鳌保欠癖仨毥(jīng)過(guò)“轉(zhuǎn)”?》,這篇作文的平均分59.75分。
在9篇作文中,文旭、有高考閱卷經(jīng)驗(yàn)的廣東潮州高中資深語(yǔ)文教師許珊都將最高分給了這篇作文,文旭打分64分,許珊打分68。文旭評(píng)價(jià)稱,這篇作文本文觀點(diǎn)集中,分析有深度,結(jié)構(gòu)也清晰。許珊認(rèn)為,這篇作文回應(yīng)了問(wèn)題,思路清晰,邏輯嚴(yán)密,具有思辨性。
左建國(guó)和李東林則指出這篇文章的一些缺點(diǎn)。左建國(guó)打了51分,他認(rèn)為這篇作文符合題意,論據(jù)較充實(shí),個(gè)別地方能分析到位,但題目、結(jié)構(gòu)、語(yǔ)言都比較一般。李東林老師打了56分,他認(rèn)為這篇作文思路清晰,但重點(diǎn)不突出。
此外,第一財(cái)經(jīng)記者對(duì)文章中引用的內(nèi)容進(jìn)行了核查,發(fā)現(xiàn)文章引用了“最忌隨人后,道德無(wú)多只本心”這一句,稱作者是蘇軾,但實(shí)際上源自黃庭堅(jiān)的詩(shī)。AI幻覺(jué)仍然存在。
五、字節(jié)豆包

豆包的作文題目是《破繭成蝶:在轉(zhuǎn)譯中抵達(dá)永恒》,這篇作文的平均分是59分。
文珊給這篇作文打出了69分的高分,她的評(píng)價(jià)是這篇作文認(rèn)識(shí)深刻,論述邏輯嚴(yán)密,思辨性強(qiáng)。李東林認(rèn)為,這篇作文在首段就解讀了題干并提出自己的新角度,論證過(guò)程也頗具條理。左建國(guó)認(rèn)為,這篇作文議題觀點(diǎn)較鮮明,論據(jù)較多,且內(nèi)容較充實(shí)。
但一些老師點(diǎn)出了這篇作文結(jié)構(gòu)、題目上的問(wèn)題。文旭打分56分,他表示,這篇文章雖然結(jié)構(gòu)清晰,但考場(chǎng)不太喜歡這樣的結(jié)構(gòu),文章也沒(méi)有明顯的結(jié)尾。左建國(guó)也認(rèn)為,這篇作文結(jié)構(gòu)一般,一些論據(jù)與論點(diǎn)欠吻合。李東林認(rèn)為,題目中的“破繭成蝶”有使用不當(dāng)?shù)南右伞?/P>
六、百度文心一言

文心一言的作文題目是《破繭與羽化:論學(xué)術(shù)經(jīng)典的誕生之路》,這篇作文的平均分為58.5分。
這篇文章的最高分來(lái)自文旭的63分,他的理由是這篇作文能辯證看待問(wèn)題,過(guò)渡自然,材料也豐富。
李東林和左建國(guó)分別打分56分、53分,他們認(rèn)為題目或文內(nèi)對(duì)題目的論證存在問(wèn)題。李東林認(rèn)為,文內(nèi)對(duì)題目中的“誕生之路”似乎并沒(méi)有說(shuō)清楚。左建國(guó)認(rèn)為,這篇作文結(jié)構(gòu)起承轉(zhuǎn)合,文意連貫題目有文采,但題目略嫌過(guò)大,文章對(duì)于如何破繭、如何羽化缺少深入表達(dá)。
七、月之暗面Kimi

月之暗面Kimi的作文題目是《化繭成蝶:專業(yè)文章的蛻變之路》,這篇作文的平均分59.5分。
這篇文章拿到的最低分是52分,來(lái)自左建國(guó)的評(píng)分。左建國(guó)認(rèn)為,這篇作文觀點(diǎn)很明確,有些句子很有文采,但論據(jù)有限。對(duì)朱自清、魯迅的文章如何成為經(jīng)典,文章應(yīng)舉例詳敘,“化繭成蝶”才能表達(dá)到位。
李東林認(rèn)為,Kimi這篇作文的題目不合適。文旭則認(rèn)為,這篇作文用材料引出觀點(diǎn),但第一段的觀點(diǎn)不夠集中,且文內(nèi)用“然而”“但”等銜接語(yǔ)來(lái)銜接各段,有的銜接詞欠妥。
八、智譜清言

智譜清言的作文題目是《破繭成蝶:論知識(shí)傳播的三重境界》智譜清言的這篇作文拿到了所有打分中的最低分41,且平均分只有50.75分。
左建國(guó)認(rèn)為,智譜的題目有偏離題意之嫌,結(jié)構(gòu)欠佳,語(yǔ)言一般化,甚至有凌亂現(xiàn)象。其他幾位老師也提到,智譜的作文論文味較濃,語(yǔ)言文字生硬。
九、OpenAI ChatGPT

ChatGPT的作文題目是《專、轉(zhuǎn)、傳:從專業(yè)到傳世的橋梁》,這篇文章的平均分是50.5分,是9篇作文中平均分最低的。
ChatGPT得到了兩個(gè)較低的49分,幾位老師均沒(méi)有給出太高的分,也都提到標(biāo)題并不合適,內(nèi)容泛談三方面,平均用力較為局限,也沒(méi)有扣緊中心。
"論文味也比較濃,重在結(jié)構(gòu),而分析不夠透徹。"文旭認(rèn)為。
總結(jié)
一些老師肯定了AI作文的優(yōu)點(diǎn)。
“看下來(lái)感覺(jué)AI寫的作文,語(yǔ)言通常都不錯(cuò),文內(nèi)材料也比較豐富!蔽男癖硎尽!皬膶忣}看,Al作文一般都能較準(zhǔn)確審題,并且求穩(wěn)。從結(jié)構(gòu)上看,AI作文常常程式化,論說(shuō)文要素完整,一般邏輯性強(qiáng)!弊蠼▏(guó)認(rèn)為。
許珊則指出,上海高考作文屬于問(wèn)題思辨性作文,重在探究回應(yīng)專、轉(zhuǎn)、傳的關(guān)系,這些AI作文整體來(lái)看思路較清晰,邏輯嚴(yán)密,內(nèi)容豐富,中心也比較突出。
不過(guò),也有老師也指出AI作文的不足之處。
文旭覺(jué)得AI作文讀上去還是感覺(jué)有套路。左建國(guó)則認(rèn)為,這些AI作文在思維獨(dú)特性方面往往存在限制,文章存在中間大兩頭小的問(wèn)題, AI作文立意獨(dú)特深刻或者偏離題意的都比較少,中間大部分中規(guī)中矩。
此外,左建國(guó)發(fā)現(xiàn),AI作文也有案例堆砌,邏輯錯(cuò)誤的問(wèn)題,各個(gè)AI在語(yǔ)言均有自己的追求,華美富麗者有之,簡(jiǎn)潔雋永有之,凌亂胡編者也有之,但由于缺少真情實(shí)感實(shí),AI難有個(gè)性化表達(dá)與思考。