在AI出现之前,"谷歌医生"是任何有奇怪头痛或神秘皮疹的人的第一站。结果通常令人恐惧——咳嗽可能意味着肺癌,头痛可能是脑瘤。在2026年,AI驱动的症状检查器承诺更好的东西:循证分诊。但它们到底有多好?我们测试了五个领先平台。
测试方法
我们选择了10个临床病例——来自医学文献的真实病例描述,涵盖常见病(链球菌咽喉炎、尿路感染)、急诊病(阑尾炎、异位妊娠)和罕见病(格林巴利综合征、嗜铬细胞瘤)。每个病例输入五款AI症状检查器:Ada Health、Babylon Health、WebMD Symptom Checker、Isabel Healthcare和一个通用大语言模型(带医疗提示的GPT-4o)。我们测量了三项指标:正确诊断是否进入前3名建议(Top-3准确率)、工具是否正确识别紧急程度(分诊准确率)、以及是否推荐了适当的下一步行动。
结果:令人惊讶的优势
通用大语言模型的Top-3准确率最高,达到78%,在10个病例中正确识别了主要诊断7例。Ada Health紧随其后为72%,在传染病方面表现尤其出色。Babylon和Isabel并列65%。WebMD的症状检查器落后于52%,在常见病方面表现良好但罕见表现困难。关键发现:所有五款工具都正确标记了急诊病例(阑尾炎、异位妊娠)为需要立即就医——没有一个给危险状况的用户虚假安全保证。突出发现:基于LLM的检查器擅长整合基于规则的系统遗漏的微妙细节。在格林巴利综合征病例中,只有LLM将患者提及的"刺痛感从脚趾开始向上蔓延"与经典的上升性麻痹模式联系起来,而结构化工具囿于更常见的神经病变解释。
它们仍然失败的地方
没有一款工具完美。最令人担忧的失败模式是过度分诊:对于一个简单的紧张性头痛病例,五款工具中有三款提示可能患有脑动脉瘤或脑膜炎,产生了不必要的焦虑。这是AI版的"谷歌医生说可能是癌症"——工具过度倾向于安全一侧,这比遗漏某种病要好,但会增加就医焦虑。另一个限制:所有工具在面对多病症患者时都遇到困难。当病例描述一位糖尿病患者的多种疾病重叠症状时,AI倾向于提出单一的统一诊断,而非识别慢性病的交互作用。
结论
AI症状检查器已跨过有意义的门槛:它们现在显著优于随机谷歌搜索,对于常见和紧急情况,准确度接近电话分诊护士。但它们仍然是初步指导工具,而非诊断工具。最佳用例不是"我得了什么病?"而是"我应该去看医生吗?多快?"对于这个问题,2026年一代的AI检查器提供了真正的价值——前提是你将它们的输出视为出发点而非最终裁决。