摘要:目的 评估不同AI工具自动生成外科疾病护理诊断质量的准确性。方法 选择人民卫生社出版的《外科护理学》(第7版)具有典型代表性10个案例,由不同AI工具自动生成外科疾病护理诊断,遴选来自湖南、广西及澳大利亚的护理学院或医学院附属医院的11名专家对10个案例的输出内容进行评价。按病例设计、输入指令、输出护理问题、护理专家评价的步骤,对结果的准确性进行分析。结果11 名专家对 5 个 AI 工具自动生成的外科疾病护理诊断质量认可度较高,其中一般、良好、优秀占比分别为 4.91%、35.45%、59.64%,优秀占比及不同条目得分情况中,5 种 AI 工具按质量从高到低排序均为抖音豆包、Kimi、ChatGPT - 4、文心一言、通义千问,Cronbach"s α 系数达 0.906, Fleiss"s Kappa 值为 0.445,评价一致性较高、评估质量可靠性较高。结论 不同AI工具自动生成外科疾病护理诊断的质量的认可度较高、可靠性良好,但不同AI工具质量有所差别,在实际使用过程中需做进一步准确性判断。