به گزارش ایسنا، پژوهش جدید «دانشکده پزشکی هاروارد»(Harvard Medical School) به بررسی عملکرد مدلهای زبانی بزرگ در زمینههای گوناگون پزشکی از جمله موارد واقعی اورژانس پرداخت که در آنها حداقل یک مدل دقیقتر از پزشکان انسانی به نظر میرسید.
به نقل از تککرانچ، پژوهشگران گفتند که آزمایشهای متنوعی را برای سنجش عملکرد مدلهای شرکت «اوپنایآی»(OpenAI) در مقایسه با پزشکان انسانی انجام دادهاند. آنها در این آزمایش روی ۷۶ بیمار که به بخش اورژانس مراجعه کرده بودند، تمرکز داشتند و تشخیصهای ارائهشده توسط دو پزشک داخلی را با تشخیصهای تولیدشده توسط مدلهای o1 و4o شرکت اوپنایآی مقایسه کردند. این تشخیصها توسط دو پزشک دیگر ارزیابی شدند که نمیدانستند کدام یک از آنها مربوط به انسان و کدام یک مربوط به هوش مصنوعی است.
پژوهشگران درباره نتیجه این آزمایش نوشتند: در هر تشخیص، پزشک o1 یا بهتر از دو پزشک معالج عمل کرد یا با آنها و پزشک o4 برابر بود. این تفاوتها به ویژه در اولین نقطه تشخیصی (تریاژ اولیه اورژانس) مشهود بود که در آنجا کمترین اطلاعات درباره بیمار و بیشترین فوریت برای تصمیمگیری درست وجود دارد.
پژوهشگران در بیانیه مطبوعاتی دانشکده پزشکی هاروارد درباره این پژوهش تأکید کردند که آنها به هیچ وجه دادهها را از پیش پردازش نکردهاند و همان اطلاعاتی به مدلهای هوش مصنوعی ارائه شد که در پروندههای پزشکی الکترونیکی در زمان هر تشخیص موجود بود.
مدل o1 با این اطلاعات موفق شد تشخیص دقیق یا بسیار نزدیک به دقیق را در ۶۷ درصد موارد تریاژ ارائه دهد؛ در حالی که یک پزشک در ۵۵ درصد موارد تشخیص دقیق یا نزدیک داشت و پزشک دیگر در ۵۰ درصد موارد تشخیص درست داد.
«آرجون مانرای»(Arjun Manrai)، رئیس آزمایشگاه هوش مصنوعی در دانشکده پزشکی هاروارد و یکی از پژوهشگران اصلی این پروژه گفت: ما مدل هوش مصنوعی را تقریباً در برابر هر معیاری آزمایش کردیم و مدل هوش مصنوعی هم مدلهای پیشین و هم مبانی اولیه پزشکان ما را تحتالشعاع قرار داد.
این پژوهش ادعا نکرده که هوش مصنوعی آماده است تا تصمیمهای واقعی درباره مرگ و زندگی را در بخش اورژانس بگیرد. در عوض، گفته شده است که یافتههای این پژوهش نیاز فوری را به آزمایشهای آیندهنگر برای ارزیابی این فناوریها در محیطهای مراقبت از بیمار در دنیای واقعی نشان میدهند.
همچنین، پژوهشگران خاطرنشان کردند که آنها فقط نحوه عملکرد مدلها را هنگام ارائه اطلاعات مبتنی بر متن بررسی کردهاند و بررسیهای موجود نشان میدهند که مدلهای بنیادین کنونی نسبت به ورودیهای غیرمتنی، در استدلال محدودتر هستند.
«آدام رادمن»(Adam Rodman) از پژوهشگران این پروژه هشدار داد که در حال حاضر هیچ چارچوب رسمی برای پاسخگویی درباره تشخیصهای هوش مصنوعی وجود ندارد و بیماران هنوز هم میخواهند انسانها آنها را در تصمیمهای مربوط به زندگی یا مرگ و در تصمیمهای درمانی چالشبرانگیز راهنمایی کنند.
«کریستن پانتاگانی»(Kristen Panthagani)، پزشک اورژانس درباره این پژوهش گفت: این یک پژوهش جالب در حوزه هوش مصنوعی است که تیترهای بسیار اغراقآمیزی را به همراه داشته است؛ به ویژه به این دلیل که تشخیصهای هوش مصنوعی را با تشخیصهای پزشکان داخلی مقایسه میکرد، نه پزشکان اورژانس.
پانتاگانی ادامه داد: اگر قرار است فناوریهای هوش مصنوعی را با توانایی بالینی پزشکان مقایسه کنیم، باید از مقایسه با پزشکانی شروع کنیم که واقعاً در آن تخصص فعالیت میکنند. اگر یک مدل زبانی بزرگ بتواند یک متخصص پوست را در آزمون برد جراحی مغز و اعصاب شکست دهد، تعجب نمیکنم، اما دانستن این موضوع چندان سودمند نیست.
وی افزود: به عنوان یک پزشک اورژانس که برای اولین بار یک بیمار را ویزیت میکند، هدف اصلی من حدس زدن تشخیص نهایی شما نیست. هدف اصلی من این است که مشخص کنم آیا شما به بیماری مبتلا هستید که بتواند شما را بکشد یا خیر.
این پژوهش در مجله «Science» به چاپ رسید.
انتهای پیام
