說(shuō)起程序員的痛苦時(shí)刻,深夜接到告警電話、短信絕 對(duì)榜上有名,甚至可能留下“鈴聲?PTSD”。
這也從另一個(gè)側(cè)面提醒我們,所有在前臺(tái)給用戶絲滑體驗(yàn)的互聯(lián)網(wǎng)產(chǎn)品,背后都有龐雜的系統(tǒng)和大量的工程師在支撐。而這其中,監(jiān)控平臺(tái)是保證高并發(fā)業(yè)務(wù)穩(wěn)定運(yùn)行的關(guān)鍵。
作為全球上百萬(wàn)款應(yīng)用背后的通信云服務(wù)商,融云的高可用架構(gòu)能保障峰值高達(dá)?3572?億的日消息量?100 %?送達(dá)。同時(shí),“融云北極星【專業(yè)版】”提供完善的實(shí)時(shí)數(shù)據(jù)監(jiān)控能力和異常指標(biāo)告警服務(wù),可供業(yè)務(wù)進(jìn)行全局監(jiān)控和問(wèn)題排查。融云專有云客戶可免費(fèi)使用全部功能,非專有云客戶可通過(guò)「開(kāi)發(fā)者后臺(tái)-北極星-概覽-立即升級(jí)」付費(fèi)開(kāi)通服務(wù)。
“北極星”的業(yè)務(wù)數(shù)據(jù)實(shí)時(shí)統(tǒng)計(jì)、API?監(jiān)控能力,包含總消息量、消息峰值、消息量變化趨勢(shì)在內(nèi)的全局消息數(shù)據(jù),用戶同時(shí)在線數(shù)據(jù),接口調(diào)用?QPS(每秒查詢率) 及報(bào)錯(cuò)情況。
在實(shí)時(shí)監(jiān)控?cái)?shù)據(jù)基礎(chǔ)上,“融云北極星【專業(yè)版】”還上線了豐富的告警功能,可在業(yè)務(wù)調(diào)用融云?IM、RTC?接口的相關(guān)指標(biāo)發(fā)生波動(dòng)時(shí),通過(guò)短信、郵件等方式告知相關(guān)人員及時(shí)排查和采取應(yīng)對(duì)措施。
一、API告警:API?QPS&錯(cuò)誤碼
QPS:可設(shè)置全局或指定某個(gè)?API?的?QPS?閾值,當(dāng)?QPS?大于等于設(shè)定頻率時(shí)觸發(fā)告警。
錯(cuò)誤碼:可指定?HTTP?錯(cuò)誤碼或業(yè)務(wù)返回錯(cuò)誤碼,既可以選擇全部錯(cuò)誤碼,也可選擇某個(gè)指定的錯(cuò)誤碼;可根據(jù)錯(cuò)誤碼出現(xiàn)的頻次設(shè)定告警條件,如?1?分鐘或?1?小時(shí)內(nèi)出現(xiàn)?404?的次數(shù)為?100?次(調(diào)整范圍?1~?10000?次)。
二、消息量告警:全部&指定會(huì)話類型
可選擇全部會(huì)話類型或指定的某個(gè)會(huì)話類型告警,針對(duì)上行、分發(fā)、下行進(jìn)行監(jiān)控;
比較時(shí)段支持與昨日同時(shí)段、上周同時(shí)段、環(huán)比上個(gè)時(shí)段作為對(duì)比參照,可選擇消息量增長(zhǎng)、下降某個(gè)單一維度,也可選擇異常波動(dòng)選項(xiàng)(即無(wú)論增長(zhǎng)還是下降,到達(dá)設(shè)定幅度后均會(huì)觸發(fā)告警)。
API?和消息量告警均支持設(shè)置?1?分鐘、5?分鐘、30?分鐘、1?小時(shí)、3?小時(shí)的告警間隔。同一規(guī)則在設(shè)定的告警間隔內(nèi)不會(huì)重復(fù)發(fā)送告警通知;如規(guī)則設(shè)置為全局時(shí),不同?API?在告警間隔內(nèi)會(huì)多次觸發(fā)。全局監(jiān)控讓“融云北極星”得以對(duì)?IM?和?RTC?服務(wù)進(jìn)行全局追蹤,是保障服務(wù)性能的關(guān)鍵手段;實(shí)時(shí)告警則可以支持開(kāi)發(fā)者掌握業(yè)務(wù)波動(dòng),從而有的放矢地對(duì)業(yè)務(wù)進(jìn)行管理和優(yōu)化。
(推廣)