کشف زبان زیست‌شناسی با هوش مصنوعی gLM

محققان دانشگاه هاروارد یک سیستم هوش مصنوعی جدید به نام gLM توسعه داده اند که قادر است زبان پیچیده ژنومیکس را رمزگشایی کند.

به گزارش تکناک، این سیستم توانایی یادگیری توابع آنزیمی و کنترل مشترک ژن‌ها را دارد و می‌تواند بدون دخالت انسانی اطلاعات مفیدی از داده‌های متاژنومیک فراهم آورد.

سیستم‌های هوش مصنوعی (AI) مانند ChatGTP، دنیا را فرا گرفته‌اند. کمتر چیزی وجود دارد که آنها به آن دستی ندارند. اما آیا سیستم‌های هوش مصنوعی می‌توانند زبان زندگی را بیاموزند و به زیست‌شناسان کمک کنند تا پیشرفت‌های هیجان‌انگیز علمی را آشکار کنند؟

اکنون در یک مطالعه جدید منتشر شده در مجله Nature Communications، یک گروه از محققان به رهبری دکتر یونها هوانگ از دانشگاه هاروارد، پیشگام در توسعه سیستم هوش مصنوعی (AI) هستند که قادر به رمزگشایی زبان پیچیده است.

زبان ژنومی، کد منبع زیست‌شناسی است. این زبان، توابع بیولوژیکی و دستور زبان تنظیمی رمزگذاری شده در ژنوم‌ها را توصیف می‌کند. محققان پرسیدند آیا می‌توانیم یک موتور هوش مصنوعی برای خواندن زبان ژنومی و مسلط شدن به زبان، درک معنا، یا عملکردها و مقررات ژن‌ها ایجاد کنیم؟ آنها از مجموعه داده‌های متاژنومی میکروبی که بزرگترین و متنوع‌ترین مجموعه داده‌ ژنومی موجود است را برای ایجاد مدل زبان ژنومی (gLM) استفاده کردند.

چالش داده‌های ژنومی

در زیست‌شناسی، فرهنگ لغت‌های شناخته‌شده‌ای وجود دارد و محققان با آن واژه‌های شناخته شده کار می‌کنند. مشکل این است که یک کسری از کلمات شناخته شده وجود دارد که کمتر از یک درصد از توالی‌های بیولوژیکی را تشکیل می‌دهد.

مدل‌های زبان بزرگ (LLM) مانند GPT4معانی کلمات را با پردازش مقادیر زیادی از داده‌های متنی متنوع یاد می‌گیرند که درک روابط بین کلمات را امکان‌پذیر می‌سازد. مدل زبان ژنومی (gLM) از داده‌های متاژنومی بسیار متنوع، که از میکروب‌های ساکن در محیط‌های مختلف از جمله اقیانوس، خاک و روده انسان به دست می‌آید، می‌آموزد.

با این داده‌ها، gLM یاد می‌گیرد که معناشناسی عملکردی و زبان‌شناسی تنظیمی هر ژن را با یادگیری رابطه بین ژن و بافت ژنومی آن درک کند. gLM مانند LLMها، یک مدل خود نظارت است به این معنی که نمایش معنی‌دار ژن‌ها را تنها از داده‌ها می‌آموزد و نیازی به برچسب‌های اختصاص داده شده توسط انسان ندارد.

رونمایی از دنیای ناشناخته‌ها در ژنومیک

محققان تاکنون برخی از رایج‌ترین موجودات مورد مطالعه مانند باکتری E. coli و مگس میوه را توالی‌یابی کرده‌اند. با این حال، حتی برای ژنوم‌هایی که بیشتر مورد مطالعه قرار گرفته‌اند، اکثر ژن‌ها مشخصه ضعیفی دارند. پروفسور پیتر گیرگویس، نویسنده ارشد، این مطالعه گفت:«ما در این عصر انقلابی امیک چیزهای زیادی آموخته‌ایم، از جمله اینکه چقدر نمی‌دانیم. ما از خود پرسیدیم چگونه می‌توانیم محتوا و زمینه یک ژنوم را بهتر درک کنیم؟

این مطالعه نشان می‌دهد که gLM عملکردهای آنزیمی و ماژول‌های ژنی تنظیم‌شده (به نام اپرون) را می‌آموزد و زمینه ژنومی را فراهم می‌کند که می‌تواند عملکرد ژن را پیش‌بینی کند.

همچنین این مدل اطلاعات طبقه‌بندی و وابستگی‌های بافتی عملکردهای ژن را می‌آموزد. به‌طور شگفت انگیزی، gLM نمی‌داند کدام آنزیم را می‌بیند و حتی نمی‌داند که توالی از چه باکتری‌هایی می‌آید. با این حال، به دلیل اینکه توالی‌های زیادی را دیده است و روابط تکاملی بین دنباله‌ها را در طول آموزش درک می‌کند، قادر است روابط عملکردی و تکاملی بین دنباله‌ها را استخراج کند.

پتانسیل gLM در زیست‌شناسی

ژن‌ها نیز مانند واژه‌ها می‌توانند معنای متفاوتی داشته باشند. gLM اجازه می‌دهد تا چارچوب بسیار ظریف‌تری برای درک عملکرد ژن ایجاد کند. این برخلاف روش موجود نقشه‌برداری یک به یک از توالی تا حاشیه‌نویسی است که نشان‌دهنده ماهیت پویا و وابسته به زمینه زبان ژنومی نیست.

گیرگوئیس، یکی از نویسندگان این مطالعه گفت: در آزمایشگاه، ما در یک فرآیند گام به گام یافتن یک ژن، ساخت پروتئین، خالص‌سازی، مشخص کردن آن و غیره، گیر می‌افتیم و بنابراین فقط چیزی را که قبلاً می‌دانیم، کشف می‌کنیم. با این حال،gLM به زیست‌شناسان اجازه می‌دهد تا زمینه یک ژن ناشناخته و نقش آن زمانی که اغلب در گروه‌های مشابهی از ژن‌ها یافت می‌شود را بررسی کنند.

این مدل می‌تواند به محققان بگوید که این گروه از ژن‌ها برای دستیابی به چیزی با هم کار می‌کنند و می‌تواند پاسخ‌هایی را ارائه دهد که در فرهنگ لغت ظاهر نمی‌شوند.

هوانگ گفت: زمینه ژنومی حاوی اطلاعات حیاتی برای درک تاریخچه تکامل و سیر تکاملی پروتئین‌ها و ژن‌های مختلف است. در نهایت، gLM این اطلاعات زمینه‌ای را می‌آموزد تا به محققان کمک کند تا عملکرد ژن‌هایی را که قبلاً بدون حاشیه‌نویسی بودند، درک کنند.

روش‌های حاشیه‌نویسی عملکردی سنتی معمولاً بر روی یک پروتئین در یک زمان تمرکز می‌کنند و تعامل بین پروتئین‌ها را نادیده می‌گیرند. مارتین اشتاینگر (دستیار دانشگاه ملی سئول)، متخصص بیوانفورماتیک و یادگیری ماشینی، اظهار داشت: gLM با ادغام مفهوم همسایگی ژن با مدل‌های زبان، یک پیشرفت بزرگ را نشان می‌دهد و در نتیجه دید جامع‌تری از تعاملات پروتئین ارائه می‌کند.

با مدل‌سازی زبان ژنومی، زیست‌شناسان می‌توانند الگوهای ژنومی جدیدی را کشف کرده و زیست‌شناسی جدید را کشف کنند.

بررسی مقالات دانشگاهی جهان، تحقیق و پژوهش

کشف زبان زیست‌شناسی با کمک هوش مصنوعی gLM

چالش داده‌های ژنومی

رونمایی از دنیای ناشناخته‌ها در ژنومیک

پتانسیل gLM در زیست‌شناسی

ساینا چمنی

دیدگاهتان را بنویسید لغو پاسخ