划重点:
⭐️ Hugging Face 为了测试生成人工智能模型在健康相关任务中的表现,发布了新的医疗任务评估基准。
⭐️ Open Medical-LLM 该基准由解剖学、药理学、遗传学和临床实践等多个医学领域组成。
⭐️ 一些医学专家是对的 Open Medical-LLM 强调实际临床实践与医学问题答案存在较大差距,强调基准测试结果不能取代现实世界测试。
站长之家(ChinaZ.com)4月19日 消息:近期,Hugging Face 发布了一个名字 Open Medical-LLM 新的基准测试旨在评估生成人工智能模型在健康相关任务中的表现。
该基准由 Hugging Face 非营利组织 Open Life Science AI 与爱丁堡大学自然语言处理小组的研究人员合作。Open Medical-LLM 其目标是对生成人工智能模型在一系列医学相关任务中的性能进行标准化评估。
Open Medical-LLM 它不是从零开始的基准测试,而是由现有的测试集(如 MedQA、PubMedQA、MedMCQA 等)拼接而成,涵盖解剖学、药理学、遗传学和临床实践等多个医学领域。基准测试包括许多选择性和开放性问题,需要医学推理和理解,涵盖美国和印度的医学执照考试和大学生物学考试题库。
尽管 Hugging Face 将该基准视为医疗界生成的人工智能模型 但一些医学专家在社交媒体上对其进行了“健全评估” Open Medical-LLM 警告指出,实际临床实践与医学问题答案之间存在较大差距。他们强调,在现实世界条件下,基准测试结果不能取代仔细测试。
对此,Hugging Face 克莱门汀研究科学家・弗里尔(Clémentine Fourrier)据社交媒体报道,这些列表只能作为探索特定用例的一种方式第一近似值,但实际上需要更深入的测试阶段来检查模型在真实条件下的局限性和相关性。她指出,医学模型不应该单独由患者使用,而应该被训练成医生的支持工具。
尽管 Open Medical-LLM 基准测试具有一定的参考意义,但结果表也反映了模型在回答基本健康问题时表现不佳。然而,Open Medical-LLM 任何其他基准测试都不能取代经过深思熟虑的现实世界测试。例如,谷歌试图将用于糖尿病视网膜病变筛查的人工智能工具引入泰国的医疗系统,但在实际测试中表现不佳,导致患者和护士对结果的不一致性感到沮丧,缺乏与实际临床实践的协调。
到目前为止,美国食品药品监督管理局批准的139种与人工智能相关的医疗设备中没有一种使用生成人工智能。测试生成人工智能工具在实验室中的性能如何转化为医院和门诊的实际情况,以及这些结果可能随着时间的推移而变化的趋势是极其困难的。
官方博客:https://huggingface.co/blog/leaderboard-medicalllm
Copyright © 2013-2025 bacaiyun.com. All Rights Reserved. 八彩云 版权所有 八彩云(北京)网络科技有限公司 京ICP备2023023517号
本站文章全部采集于互联网,如涉及版权问题请联系我们删除.联系QQ:888798,本站域名代理为阿里云