محققان دانشگاه هاروارد یک سیستم هوش مصنوعی جدید به نام gLM توسعه داده اند که قادر است زبان پیچیده ژنومیکس را رمزگشایی کند.
به گزارش تکناک، این سیستم توانایی یادگیری توابع آنزیمی و کنترل مشترک ژنها را دارد و میتواند بدون دخالت انسانی اطلاعات مفیدی از دادههای متاژنومیک فراهم آورد.
سیستمهای هوش مصنوعی (AI) مانند ChatGTP، دنیا را فرا گرفتهاند. کمتر چیزی وجود دارد که آنها به آن دستی ندارند. اما آیا سیستمهای هوش مصنوعی میتوانند زبان زندگی را بیاموزند و به زیستشناسان کمک کنند تا پیشرفتهای هیجانانگیز علمی را آشکار کنند؟
اکنون در یک مطالعه جدید منتشر شده در مجله Nature Communications، یک گروه از محققان به رهبری دکتر یونها هوانگ از دانشگاه هاروارد، پیشگام در توسعه سیستم هوش مصنوعی (AI) هستند که قادر به رمزگشایی زبان پیچیده است.
زبان ژنومی، کد منبع زیستشناسی است. این زبان، توابع بیولوژیکی و دستور زبان تنظیمی رمزگذاری شده در ژنومها را توصیف میکند. محققان پرسیدند آیا میتوانیم یک موتور هوش مصنوعی برای خواندن زبان ژنومی و مسلط شدن به زبان، درک معنا، یا عملکردها و مقررات ژنها ایجاد کنیم؟ آنها از مجموعه دادههای متاژنومی میکروبی که بزرگترین و متنوعترین مجموعه داده ژنومی موجود است را برای ایجاد مدل زبان ژنومی (gLM) استفاده کردند.
فهرست مطالب
چالش دادههای ژنومی
در زیستشناسی، فرهنگ لغتهای شناختهشدهای وجود دارد و محققان با آن واژههای شناخته شده کار میکنند. مشکل این است که یک کسری از کلمات شناخته شده وجود دارد که کمتر از یک درصد از توالیهای بیولوژیکی را تشکیل میدهد.
مدلهای زبان بزرگ (LLM) مانند GPT4معانی کلمات را با پردازش مقادیر زیادی از دادههای متنی متنوع یاد میگیرند که درک روابط بین کلمات را امکانپذیر میسازد. مدل زبان ژنومی (gLM) از دادههای متاژنومی بسیار متنوع، که از میکروبهای ساکن در محیطهای مختلف از جمله اقیانوس، خاک و روده انسان به دست میآید، میآموزد.
با این دادهها، gLM یاد میگیرد که معناشناسی عملکردی و زبانشناسی تنظیمی هر ژن را با یادگیری رابطه بین ژن و بافت ژنومی آن درک کند. gLM مانند LLMها، یک مدل خود نظارت است به این معنی که نمایش معنیدار ژنها را تنها از دادهها میآموزد و نیازی به برچسبهای اختصاص داده شده توسط انسان ندارد.
رونمایی از دنیای ناشناختهها در ژنومیک
محققان تاکنون برخی از رایجترین موجودات مورد مطالعه مانند باکتری E. coli و مگس میوه را توالییابی کردهاند. با این حال، حتی برای ژنومهایی که بیشتر مورد مطالعه قرار گرفتهاند، اکثر ژنها مشخصه ضعیفی دارند. پروفسور پیتر گیرگویس، نویسنده ارشد، این مطالعه گفت:«ما در این عصر انقلابی امیک چیزهای زیادی آموختهایم، از جمله اینکه چقدر نمیدانیم. ما از خود پرسیدیم چگونه میتوانیم محتوا و زمینه یک ژنوم را بهتر درک کنیم؟
این مطالعه نشان میدهد که gLM عملکردهای آنزیمی و ماژولهای ژنی تنظیمشده (به نام اپرون) را میآموزد و زمینه ژنومی را فراهم میکند که میتواند عملکرد ژن را پیشبینی کند.
همچنین این مدل اطلاعات طبقهبندی و وابستگیهای بافتی عملکردهای ژن را میآموزد. بهطور شگفت انگیزی، gLM نمیداند کدام آنزیم را میبیند و حتی نمیداند که توالی از چه باکتریهایی میآید. با این حال، به دلیل اینکه توالیهای زیادی را دیده است و روابط تکاملی بین دنبالهها را در طول آموزش درک میکند، قادر است روابط عملکردی و تکاملی بین دنبالهها را استخراج کند.
پتانسیل gLM در زیستشناسی
ژنها نیز مانند واژهها میتوانند معنای متفاوتی داشته باشند. gLM اجازه میدهد تا چارچوب بسیار ظریفتری برای درک عملکرد ژن ایجاد کند. این برخلاف روش موجود نقشهبرداری یک به یک از توالی تا حاشیهنویسی است که نشاندهنده ماهیت پویا و وابسته به زمینه زبان ژنومی نیست.
گیرگوئیس، یکی از نویسندگان این مطالعه گفت: در آزمایشگاه، ما در یک فرآیند گام به گام یافتن یک ژن، ساخت پروتئین، خالصسازی، مشخص کردن آن و غیره، گیر میافتیم و بنابراین فقط چیزی را که قبلاً میدانیم، کشف میکنیم. با این حال،gLM به زیستشناسان اجازه میدهد تا زمینه یک ژن ناشناخته و نقش آن زمانی که اغلب در گروههای مشابهی از ژنها یافت میشود را بررسی کنند.
این مدل میتواند به محققان بگوید که این گروه از ژنها برای دستیابی به چیزی با هم کار میکنند و میتواند پاسخهایی را ارائه دهد که در فرهنگ لغت ظاهر نمیشوند.
هوانگ گفت: زمینه ژنومی حاوی اطلاعات حیاتی برای درک تاریخچه تکامل و سیر تکاملی پروتئینها و ژنهای مختلف است. در نهایت، gLM این اطلاعات زمینهای را میآموزد تا به محققان کمک کند تا عملکرد ژنهایی را که قبلاً بدون حاشیهنویسی بودند، درک کنند.
روشهای حاشیهنویسی عملکردی سنتی معمولاً بر روی یک پروتئین در یک زمان تمرکز میکنند و تعامل بین پروتئینها را نادیده میگیرند. مارتین اشتاینگر (دستیار دانشگاه ملی سئول)، متخصص بیوانفورماتیک و یادگیری ماشینی، اظهار داشت: gLM با ادغام مفهوم همسایگی ژن با مدلهای زبان، یک پیشرفت بزرگ را نشان میدهد و در نتیجه دید جامعتری از تعاملات پروتئین ارائه میکند.
با مدلسازی زبان ژنومی، زیستشناسان میتوانند الگوهای ژنومی جدیدی را کشف کرده و زیستشناسی جدید را کشف کنند.