
最新大型研究发现,Gemini等AI助理普遍错误呈现新闻内容,比例将近一半。(路透档案照)
人工智慧(AI)助理已成为数百万人每日获取新闻资讯的主要途径之一,但欧洲广播联盟(EBU)与英国广播公司(BBC)主导的大型研究发现,ChatGPT等AI助理普遍错误呈现新闻内容,且比例将近一半。
研究发现,AI助理无论在任何语言、地区或平台上,均持续错误呈现新闻内容。这些错误包括将新闻与讽刺内容混淆、日期错误,甚至凭空捏造事件。45%的AI答复「至少有1项重大问题」,每5则答复中就有1则存在严重的正确性问题,包括虚构细节与过时资讯。
BBC报导,共有18个国家的22家公共服务媒体(PSM)参与这项研究,涵盖14种语言,针对4种主流AI工具进行深入测试,并发现多项系统性问题。这项研究是以BBC今年2月发表的研究为基础,该研究首次指出AI在处理新闻内容上的问题。
参与媒体的专业记者共评估超过3000笔由OpenAI的ChatGPT、微软的Copilot、Google的Gemini与Perplexity生成的回复,关键标准包括:准确性(accuracy)、资料来源(sourcing)、区分意见与事实(opinion vs.fact),以及提供背景脉络(context)等。
研究发现,45%的AI回复至少存在1项重大问题;31%的回复出现严重的来源问题,包括缺失、误导或错误引用;20%的回复有严重的准确性错误,包含虚构或过时资讯。
例如,问到「天主教教宗是谁」时,ChatGPT回答「方济各」,Copilot和Gemini的答案也是「方济各」,但方济各已于今年4月蒙主宠召,现任教宗为良14世(Leo XIV)。
研究指出,Gemini表现最差,有76%的回答出现重大问题,比例超过其他AI助理的2倍,主要因为其资料来源表现不佳。相较于BBC今年稍早的研究,虽有些许改善,但错误率仍然偏高。
EBU副秘书长坦德(Jean Philip De Tender)指出,这项研究证实,这些问题是跨国、跨语言的系统性现象,恐将危及公众信任;当人们不知该相信谁时,最终可能谁也不相信,进而削弱民主参与。
BBC还公布1项关于受众对AI助理使用与信任度的研究,显示三分之一以上的英国成年人信任AI能准确生成新闻摘要;在35岁以下族群中,比例则接近一半。
然而,这些结果也引发重大疑虑。许多人误以为AI的新闻摘要是准确的,当他们发现错误时,往往会同时责怪新闻媒体与AI开发者,即使错误其实源自AI助理本身。长远来看,这种情况可能削弱公众对新闻与媒体品牌的信任。
来源:自由时报