AI症状检查器评测

在AI出现之前，"谷歌医生"是任何有奇怪头痛或神秘皮疹的人的第一站。结果通常令人恐惧——咳嗽可能意味着肺癌，头痛可能是脑瘤。在2026年，AI驱动的症状检查器承诺更好的东西：循证分诊。但它们到底有多好？我们测试了五个领先平台。

测试方法

我们选择了10个临床病例——来自医学文献的真实病例描述，涵盖常见病（链球菌咽喉炎、尿路感染）、急诊病（阑尾炎、异位妊娠）和罕见病（格林巴利综合征、嗜铬细胞瘤）。每个病例输入五款AI症状检查器：Ada Health、Babylon Health、WebMD Symptom Checker、Isabel Healthcare和一个通用大语言模型（带医疗提示的GPT-4o）。我们测量了三项指标：正确诊断是否进入前3名建议（Top-3准确率）、工具是否正确识别紧急程度（分诊准确率）、以及是否推荐了适当的下一步行动。

结果：令人惊讶的优势

通用大语言模型的Top-3准确率最高，达到78%，在10个病例中正确识别了主要诊断7例。Ada Health紧随其后为72%，在传染病方面表现尤其出色。Babylon和Isabel并列65%。WebMD的症状检查器落后于52%，在常见病方面表现良好但罕见表现困难。关键发现：所有五款工具都正确标记了急诊病例（阑尾炎、异位妊娠）为需要立即就医——没有一个给危险状况的用户虚假安全保证。突出发现：基于LLM的检查器擅长整合基于规则的系统遗漏的微妙细节。在格林巴利综合征病例中，只有LLM将患者提及的"刺痛感从脚趾开始向上蔓延"与经典的上升性麻痹模式联系起来，而结构化工具囿于更常见的神经病变解释。

它们仍然失败的地方

没有一款工具完美。最令人担忧的失败模式是过度分诊：对于一个简单的紧张性头痛病例，五款工具中有三款提示可能患有脑动脉瘤或脑膜炎，产生了不必要的焦虑。这是AI版的"谷歌医生说可能是癌症"——工具过度倾向于安全一侧，这比遗漏某种病要好，但会增加就医焦虑。另一个限制：所有工具在面对多病症患者时都遇到困难。当病例描述一位糖尿病患者的多种疾病重叠症状时，AI倾向于提出单一的统一诊断，而非识别慢性病的交互作用。

结论

AI症状检查器已跨过有意义的门槛：它们现在显著优于随机谷歌搜索，对于常见和紧急情况，准确度接近电话分诊护士。但它们仍然是初步指导工具，而非诊断工具。最佳用例不是"我得了什么病？"而是"我应该去看医生吗？多快？"对于这个问题，2026年一代的AI检查器提供了真正的价值——前提是你将它们的输出视为出发点而非最终裁决。

AI症状检查器能替代谷歌医生吗？我们测试了5款

测试方法

结果：令人惊讶的优势

它们仍然失败的地方

结论