شرکت Cloudflare، اعلام کرد که ۵۵ درصد از لاگهایی که به مشتریان خود ارسال میکرد، به مدت ۳.۵ ساعت به دلیل بروز یک اشکال فنی از دست رفته است.
به گزارش تکناک، این اشکال در سرویس جمعآوری لاگهای Cloudflare که برای نظارت بر ترافیک سایتها و تحلیل حوادث امنیتی مورد استفاده قرار میگیرد، به وقوع پیوست.
فهرست مطالب
پیکربندی نادرست علت حادثه شرکت Cloudflare
بر اساس اعلام شرکت Cloudflare، این حادثه به دلیل یک پیکربندی نادرست در یکی از اجزای کلیدی سیستم ثبت لاگها به نام “Logfwdr” رخ داده است. این سیستم مسئول ارسال لاگهای جمعآوریشده از شبکه Cloudflare به سیستمهای پاییندستی میباشد.
در جریان بهروزرسانی پیکربندی، یک باگ وارد سیستم شد که به اشتباه یک «پیکربندی خالی» ایجاد و به سیستم اعلام کرد که هیچ مشتری برای ارسال لاگها تنظیم نشده است.
این پیکربندی نادرست باعث شد تا سیستم ارسال لاگها به طور خودکار تمامی لاگها را کنار بگذارد و آنها را ارسال نکند.
همچنین سیستم پیشفرض ایمنی Logfwdr، که طراحی شده بود جلوی از دست رفتن دادهها را در صورت وجود پیکربندیهای نادرست بگیرد، به طور غیرمنتظرهای تعداد زیادی لاگ را به سمت سیستم بافر Buftee ارسال کرد.
مشکلات در سیستم Buftee
سیستم Buftee نیز که مسئول ذخیره موقت لاگها است، زمانی که سیستمهای پاییندستی قادر به پردازش آنها در زمان واقعی نیستند، نتوانست در زمان مشکل به وجود آمده فشار اضافی ناشی از حجم بالای لاگها را تحمل کند.
سیستم Buftee به دلیل پیکربندی نادرست و عدم آزمایش مناسب، با مشکلاتی مواجه گردید و در نهایت به دلیل پردازش ۴۰ برابر بیشتر از ظرفیت خود، خاموش شد و نیاز به راهاندازی مجدد پیدا کرد.
این مسئله باعث شد تا فرایند بازیابی اطلاعات بیشتر تأخیر داشته باشد و لاگهای بیشتری از دست بروند.
اقدامات اصلاحی شرکت Cloudflare
شرکت Cloudflare در واکنش به این حادثه اعلام کرد که چندین تدبیر اصلاحی برای جلوگیری از وقوع چنین مشکلاتی در آینده اتخاذ کرده است.
اولین اقدام معرفی سیستم شناسایی و هشدار پیکربندی نادرست است، که به طور خودکار تیمهای فنی را از هرگونه انحراف در پیکربندیهای ارسال لاگها آگاه میسازد.
همچنین شرکت بیان کرد که Buftee به طور صحیح پیکربندی شده است تا از بروز مشکلات ناشی از افزایش غیرمنتظره حجم لاگها جلوگیری کند.
علاوه بر این، شرکت Cloudflare برنامهریزی کرده است که به طور منظم آزمایشهای بارگذاری برای شبیهسازی افزایشهای ناگهانی حجم دادهها انجام دهد تا از صحت عملکرد سیستمهای ایمنی اطمینان حاصل کند و از بروز هرگونه مشکل مشابه در آینده جلوگیری نماید.
تأثیرات و نظرات
اگرچه این حادثه تأثیر قابل توجهی بر اکثریت مشتریان Cloudflare گذاشته، اما این شرکت اعلام کرده است که تمام تلاش خود را به کار خواهد گرفت تا مطمئن شود که چنین مسائلی در آینده به حداقل برسند.
در همین راستا، شرکت Cloudflare بر اهمیت ارتقای زیرساختها و بهبود فرایندهای شناسایی و پاسخ به حوادث تأکید کرده است.
با توجه به اینکه Cloudflare روزانه بیش از ۵۰ تریلیون لاگ رویداد مشتریان را پردازش میکند، مدیریت صحیح این حجم از دادهها و جلوگیری از از دست رفتن اطلاعات حیاتی یکی از اولویتهای اصلی این شرکت خواهد بود.