向AI咨询健康问题有风险 测试与实际互动落差大

立即订阅亚视新闻 YouTube,即时掌握时事发展。

一个2月9日发表的最新研究指出,人工智能(AI)聊天机器人虽能轻松通过大多数医学执照考试,但它们未必能比传统方式提供更可靠的医疗建议。

英国牛津大学(University of Oxford)学者、研究共同执笔人潘恩(Rebecca Payne)表示:“尽管外界大肆宣传,AI仍未准备好扮演医师的角色。”

她在声明中补充说:“患者必须了解,向大型语言模型咨询症状可能存在危险性,因为它可能给出错误诊断,甚至无法辨别何时需要立即就医。”

综合法新社和路透社报道,这个由英国主导的研究团队想要了解,人类在使用聊天机器人判断健康问题,以及是否需要就医或住院时的成功率有多高。

研究团队设计出10种不同情境,包括普通感冒、熬夜饮酒后头痛、新手妈妈身心俱疲、胆结石和脑出血等。

接着,研究人员随机分配近1300名受试者使用OpenAI的GPT-4o、Meta的Llama 3或Cohere的Command R+等3种聊天机器人,另设一个使用搜寻引擎查找资料的对照组。

结果显示,受试者使用AI识别相关疾病的比例仅约1/3,找到正确处置方式的比例不到44.2%,表现不比使用传统方法的对照组好。相关报告已刊载于知名国际期刊《自然医学》(Nature Medicine)。

在未使用真人受试者的情况下,这3种大型语言模型能在94.9%的案例中正确识别症状,在56.3%的案例中提供正确的处置建议,例如呼叫救护车或就医。

人类或难以理解或误解或忽略

研究人员表示,AI与真人互动的结果,与其在医学基础测验和考试时表现极佳存在落差的原因在于“沟通失效”。

相较于测试时使用的模拟病患,真实人类往往未能向聊天机器人提供所有相关资讯;有时人类难以理解聊天机器人提供的选项,或误解、忽略其建议。

研究团队详细分析约30次互动后发现,人类受试者经常提供不完整或错误的资讯,大型语言模型有时也会生成误导或不正确的回应。

例如,一名患者描述蜘蛛网膜下腔出血这种危及生命的急性脑血管疾病时,主诉颈部僵硬、畏光和“前所未有的剧烈头痛”,AI正确建议他立即就医;另一名患者描述相同症状时,提到“头痛得非常厉害”,AI只建议他躺在昏暗房间里休息。

研究显示,每6名美国成年人,就有1人每月至少向AI聊天机器人询问一次健康相关资讯,而随着愈来愈多人使用新科技,这个比例预计会持续攀升,但目前尚无证据显示这是最佳或最安全的方式。

荷兰马斯垂克大学(Maastricht University)生物伦理学家萧奥(David Shaw)说:“这是一项非常重要的研究,凸显聊天机器人对公众健康带来的实际风险。”

他建议民众应仅信赖可靠来源提供的医疗资讯,例如英国国民保健署(NHS)。

研究团队计划在不同国家、使用不同语言,并随着时间推移进行类似研究,借此测试是否会影响AI的表现。

这项研究获得数据公司Prolific、德国非营利组织狄特施瓦兹基金会(Dieter Schwarz Stiftung)及英国和美国政府支持。

相关新闻:

你可能也喜欢

Back to top button