پژوهشگران «دانشگاه پرینستون»، یک مدل زبانی را آموزش دادهاند و از آن برای بررسی توالیهای ژنوم استفاده کردهاند تا بیماریها را رمزگشایی کنند.
همان هوش مصنوعی که موفقیت آن در به کار بردن نرمافزار کدنویسی و قبولی در آزمون وکالت سرفصل خبرها شد، یاد گرفته است که نوع دیگری از متن را بخواند. این متن جدید حاوی کد ژنتیکی است.
کد ژنتیکی حاوی دستورالعملهایی برای همه عملکردهای زندگی است و از قوانینی پیروی میکند که بیشباهت به زبانهای انسانی نیستند. هر توالی در ژنوم به یک دستور زبان پیچیده و ساختارهایی پایبند است که معنی را ایجاد میکنند. همان طور که تغییر کردن چند کلمه میتواند تاثیر یک جمله را به شدت تغییر دهد، تغییرات کوچک در یک دنباله بیولوژیکی نیز میتوانند تفاوت بزرگی را در عناصر رمزگذاریکننده دنباله ایجاد کنند.
اکنون پژوهشگران دانشگاه پرینستون به سرپرستی منگدی وانگ، کارشناس یادگیری ماشینی این دانشگاه، از مدلهای زبانی برای بررسی توالیهای ژنوم جزئی استفاده کردهاند و آنها را برای مطالعه زیستشناسی و بهبود پزشکی به کار بردهاند.
پژوهشگران در مقاله خود، یک مدل زبانی را شرح دادهاند که از قدرت بازنمایی معنایی خود برای طراحی واکسن آرانای پیامرسان مؤثرتری مانند واکسنهای کووید-۱۹ استفاده میکند.
دانشمندان یک راه ساده را برای خلاصه کردن جریان اطلاعات ژنتیکی دارند. آنها آن را دگم مرکزی زیستشناسی مینامند. اطلاعات از DNA به RNA و سپس به پروتئینها حرکت میکنند. پروتئینها ساختار و عملکرد سلولهای زنده را ایجاد میکنند.
آرانای پیامرسان، اطلاعات را در مرحله نهایی که مرحله تبدیل است، به پروتئین تبدیل میکند، اما فقط بخشی از آرانای پیامرسان حاوی کد پروتئین است. بقیه اطلاعات تبدیل نمیشوند اما جنبههای حیاتی فرآیند تبدیل را کنترل میکنند.
نظارت بر کارآیی تولید پروتئین، یک مکانیسم کلیدی است که واکسنهای مبتنی بر آرانای پیامرسان توسط آن کار میکنند. پژوهشگران دانشگاه پرینستون، مدل زبانی خود را روی منطقه تبدیلنشده متمرکز کردند تا ببینند چگونه میتوانند کارآیی واکسنها را بهبود ببخشند.
پژوهشگران پس از آموزش دادن مدل روی انواع کوچکی از گونهها، صدها توالی بهینهسازیشده جدید تولید کردند و آنها را از طریق بررسیهای آزمایشگاهی مورد تایید قرار دادند. بهترین توالیها توانستند بهتر از چندین معیار پیشرو برای توسعه واکسن عمل کنند؛ از جمله افزایش ۳۳ درصدی که در بازدهی کلی تولید پروتئین به همراه آوردند.
به گفته پژوهشگران، افزایش راندمان تولید پروتئین حتی به مقدار کم، یک تقویت عمده برای درمانهای نوظهور است. واکسنهای آرانای پیامرسان فراتر از کووید-۱۹، وعده محافظت در برابر بسیاری از بیماریهای عفونی و سرطان را نیز نوید میدهند.
وانگ گفت که موفقیت این مدل به احتمال اساسیتری نیز اشاره دارد. این مدل زبانی پس از آموزش دیدن با آرانای پیامرسان گونههای انگشت شماری توانست توالیهای نوکلئوتیدی را رمزگشایی کند و اطلاعات جدیدی را در مورد تنظیم ژن آشکار سازد. دانشمندان بر این باورند که تنظیم ژن، یکی از اساسیترین عملکردهای زندگی است و میتواند کلید کشف منشاء بیماری و اختلال باشد. مدلهای زبانی از این دست میتوانند راه جدیدی را برای بررسی تنظیم ژن ارائه دهند.
زبان بیماری
مدل زبانی جدید به جای آموزش دیدن روی میلیاردها صفحه متن از اینترنت، روی چند صد هزار توالی آموزش داده شد. همچنین، این مدل با اطلاعات بیشتری درباره تولید پروتئینها، از جمله اطلاعات ساختاری و مرتبط با انرژی آموزش دید.
پژوهشگران از مدل آموزشدیده برای ایجاد مجموعهای از ۲۱۱ توالی جدید استفاده کردند. پروتئینهای مورد استفاده مانند پروتئین خوشهای که توسط واکسنهای کووید-۱۹ هدف قرار میگیرد، واکنش ایمنی را به سوی بیماریهای عفونی هدایت میکنند.
پژوهشهای پیشین، مدلهای زبانی را برای رمزگشایی توالیهای بیولوژیکی گوناگون از جمله پروتئینها و DNA ایجاد کردهاند، اما این اولین مدل زبانی است که بر ناحیه تبدیلنشده آرانای پیامرسان تمرکز دارد. علاوه بر افزایش کارآیی کلی، این مدل توانست پیشبینی کند که عملکرد یک توالی در انواع وظایف مرتبط چقدر خوب است.
وانگ خاطرنشان کرد که بررسی یک مجموعه داده محدود و ایجاد مدلی براساس آن برای دانشمندان جویای حیات کافی نیست و باید یک کار جدید انجام شود.
وی افزود: آموزش دادن یک مدل فقط کنار هم قرار دادن همه توالیها نیست، بلکه کنار هم قرار دادن همه بخشهایی است که تاکنون جمع آوری شدهاند. این کار پیشتر انجام نشده بود.
این پژوهش در مجله «Nature Machine Intelligence» به چاپ رسید.