የጣቢያ አስተማማኝነት ምህንድስና ፣ ለድርጅት ሶፍትዌር የተሰራ
ለዘመናዊ ስርዓቶች የ SRE-ደረጃ አስተማማኝነት ማረጋገጫ። ከማምረትዎ በፊት የስርዓት ባህሪን፣ አስተማማኝነትን እና የውድቀት ሁነታዎችን ያለማቋረጥ ያረጋግጡ።
- ተጠቃሚዎች እነሱን ካጋጠማቸው በፊት መቋረጥን ይከላከሉ።
- ድህረ ሞት ሳይሆን አስተማማኝነትን ያለማቋረጥ ያረጋግጡ
- በድርጅት ሚዛን ላይ የሥራ ስጋትን ይቀንሱ
የዘመናዊው SRE እውነታ
ዳሽቦርዶችን ገንብተሃል፣ ማንቂያዎችን አዘጋጅተሃል እና runbooks ጽፈሃል። ሆኖም ቡድንዎ ለክስተቶች ከመከላከል ይልቅ ምላሽ በመስጠት አሁንም በነቃ ሁነታ ላይ ነው። ባህላዊ ክትትል ከተከሰተ በኋላ የሆነ ችግር እንዳለ ይነግርዎታል። SREዎች ከመሰማራታቸው በፊት አስተማማኝነትን ማረጋገጥ አለባቸው እንጂ ከእውነታው በኋላ መመርመር የለባቸውም።
ክትትል በንድፍ ምላሽ ይሰጣል
ዳሽቦርዶች እና ማንቂያዎች የሆነ ነገር ሲሰበር ይነግሩዎታል። በመጀመሪያ ደረጃ እረፍቱ እንዳይከሰት መከላከል አይችሉም.
ምንም እንኳን SLOs ቢሆንም ክስተቶች አሁንም ይከሰታሉ
የስህተት በጀቶች ፍጥነትን ይከላከላሉ፣ ነገር ግን አንድ መጥፎ ስምሪት አጠቃላይ በጀትዎን ያቃጥላል እና እንዲለቀቅ ያስገድዳል።
የፍጥነት ለውጥ አስተማማኝነትን ይሰብራል።
እያንዳንዱ ማሰማራት አስተማማኝ አደጋ ነው። ፈጣን ማጓጓዣ ማለት እንደገና ወደ ምርት ለመድረስ ተጨማሪ ዕድል ማለት ነው።
ድህረ-ሞት በጣም ዘግይቷል።
ከአጋጣሚዎች መማር ጠቃሚ ነው, ነገር ግን ጉዳቱ ቀድሞውኑ ደርሷል. ተጠቃሚዎች ተጎድተዋል፣ መተማመን ተሸረሸ።
ተዓማኒነት የSRE ኃላፊነት እንጂ መለኪያ አይደለም።
አስተማማኝነት በዳሽቦርድ ላይ ያለ ቁጥር አይደለም። የእርስዎ ስርዓት በለውጥ፣ በጭነት እና በውድቀት ስር የሚኖረው ባህሪ ነው። SREs አስተማማኝነትን የማረጋገጥ ሃላፊነት አለባቸው፣ ነገር ግን ያላረጋገጡትን ማረጋገጥ አይችሉም።
አስተማማኝነት በለውጥ ላይ ያለ ባህሪ ነው።
ቀጣዩ ማሰማራትዎ ወሳኝ የስራ ሂደቶችን ካቋረጠ 99.9% የሚቆይ ቁጥር ትርጉም የለውም። አስተማማኝነት ያለማቋረጥ መረጋገጥ አለበት።
SREዎች መታዘብ ብቻ ሳይሆን ማረጋገጫ ያስፈልጋቸዋል
ታዛቢነት ምን እንደተፈጠረ ይነግርዎታል። ማረጋገጫው ምን እንደሚሆን ይነግርዎታል። ከአጸፋዊ ክትትል ወደ ንቁ ሙከራ ሽግግር።
ተዓማኒነት መፈተሽ አለበት እንጂ መገመት የለበትም
ከመርከብዎ በፊት ባህሪያትን ይፈትሻል። ለምን አስተማማኝ አይሆንም? ማንኛውም ለውጥ ከውድቀት ሁኔታዎች አንጻር መረጋገጥ አለበት።
አስተማማኝነት ማረጋገጫ በተግባር ምን ማለት ነው።
አስተማማኝነት ማረጋገጫ ተጨባጭ እንጂ ረቂቅ አይደለም። ወደ ምርት ከመድረሳቸው በፊት የተወሰኑ ባህሪያትን መሞከር ማለት ነው.
የስራ ፍሰት መበላሸትን መለየት
ከእያንዳንዱ ለውጥ በኋላ ወሳኝ የተጠቃሚ የስራ ፍሰቶች በትክክል መስራታቸውን ያረጋግጡ። ተጠቃሚዎች ከማድረጋቸው በፊት የተበላሹ የፍተሻ ፍሰቶችን፣ ያልተሳካ ማረጋገጫን እና የተበላሸ ፍለጋን ይያዙ።
አለመሳካት ሁነታ ማረጋገጫ
ስርዓትዎ ውድቀቶችን እንዴት እንደሚይዝ ስልታዊ በሆነ መንገድ ይሞክሩ። የወረዳ መግቻዎችን ያረጋግጡ፣ አመክንዮአዊ ሁኔታን፣ ግርማ ሞገስ ያለው ውርደት እና የጊዜ ማብቂያ ባህሪን እንደገና ይሞክሩ።
ለውጥ-ተፅእኖ ማረጋገጫ
የእያንዳንዱን ማሰማራት ፍንዳታ ራዲየስ ይረዱ። የካርታ ጥገኞች፣ የተጎዱ አገልግሎቶችን ይለዩ እና የታችኛውን ተፋሰስ ባህሪ ያረጋግጡ።
በመላ ልቀቶች ላይ የማገገም ግኝት
ሪግሬሽን ወደ ምርት እንዳይደርስ መከላከል። የአፈጻጸም ውድቀትን፣ የተበላሹ ተግባራትን እና የኤፒአይ ውል ጥሰቶችን ለመያዝ በተለቀቁት ላይ ያሉ ባህሪያትን ያወዳድሩ።
ከአደጋዎች በፊት የምልክት ማመንጨት
ክስተቶች ከመከሰታቸው በፊት ሊተገበሩ የሚችሉ ምልክቶችን ያግኙ። የትኞቹ ለውጦች አደገኛ እንደሆኑ፣ የትኞቹ አገልግሎቶች ወራዳ እንደሆኑ እና የትኛዎቹ ማሰማራት ትኩረት እንደሚያስፈልጋቸው ይወቁ።
የአቅም እና የመጠን ማረጋገጫ
በምርት ውስጥ እነሱን ከመምታትዎ በፊት በታቀዱት የጭነት ደረጃዎች ላይ ባህሪን ያረጋግጡ። ትክክለኛ መጠን ያለው መሠረተ ልማት እና ከአቅም ጋር የተያያዙ አደጋዎችን ያስወግዱ.
Zof SRE ቡድኖችን እንዴት እንደሚደግፍ
ዞፍ አሁን ካለው ቁልል ጋር አብሮ የሚሰራ የአስተማማኝነት ማረጋገጫ ንብርብር ነው። የክትትል ምትክ አይደለም፣ ነገር ግን ክስተቶች ከመከሰታቸው በፊት የሚከላከል ንቁ የሙከራ ንብርብር።
ከሲአይ/ሲዲ ቧንቧዎች ጋር ይጣጣማል
አስተማማኝነት ማረጋገጫ በእያንዳንዱ PR፣ በእያንዳንዱ ውህደት፣ በእያንዳንዱ ማሰማራት ላይ በራስ-ሰር ይሰራል። በእጅ ጣልቃ መግባት አያስፈልግም። ወደ ምርት ከመድረሳቸው በፊት አደገኛ ለውጦችን የሚከለክሉ በሮች።
ከ GitHub Actions፣ GitLab CI፣ Jenkins፣ CircleCI ጋር ያዋህዳልከክትትል ጋር አብሮ ይሰራል
Zof Datadogን፣ Prometheusን ወይም የእርስዎን ታዛቢነት ቁልል አይተካም። ከመሰማራቱ በፊት አስተማማኝነትን በማረጋገጥ ያሟላላቸዋል፣ ስለዚህ የእርስዎ ተቆጣጣሪዎች ለማስጠንቀቅ ያነሱ ክስተቶች አሏቸው።
ከ Datadog፣ Prometheus፣ Grafana፣ New Relic፣ PagerDuty ጋር ይሰራልጫጫታ ሳይሆን ተግባራዊ ምልክቶችን ይፈጥራል
እያንዳንዱ የማረጋገጫ ውጤት ሊተገበር የሚችል ነው። የማለፊያ/የመውደቅ ሁኔታን፣ የተወሰነ የብልሽት ዝርዝሮችን እና ለተጎዳው ኮድ ቀጥተኛ አገናኞችን ያጽዱ። ምንም ንቁ ድካም የለም, ምንም የውሸት አዎንታዊ, ምንም ግምት.
አስተማማኝነት ውጤቶች, የአደጋ ግምገማዎች, አዝማሚያ ትንተናSREዎች አስተማማኝነትን ወደ ግራ እንዲቀይሩ ያግዛል።
አስተማማኝነት ማረጋገጫን ከምርት ወደ ቅድመ-ምርት ያንቀሳቅሱ። ከድህረ ሞት ይልቅ ጉዳዮችን በPRs ውስጥ ይያዙ። ያለ SRE ማነቆዎች ገንቢዎች በአስተማማኝ ሁኔታ እንዲላኩ ያበረታቷቸው።
ንዑስ-10-ደቂቃ የግብረመልስ ምልልስ በCIለSRE እና መድረክ ቡድኖች ውጤቶች
አስተማማኝነት ማረጋገጫን በመጠቀም ከSRE ቡድኖች የተገኙ እውነተኛ ውጤቶች።
የጥሪ ቡድንዎን ገጽ ከማቅረባቸው በፊት ወሳኝ ጉዳዮችን ይያዙ
አስተማማኝነት በማወቅ መርከብ በራስ መተማመን የተረጋገጠ ነው።
በጨረፍታ የእያንዳንዱን አገልግሎት አስተማማኝነት ሁኔታ ይወቁ
ያነሱ ገጾች፣ ያነሱ ክስተቶች፣ ደስተኛ መሐንዲሶች
"በወር በአማካይ ከ12 ክስተቶች ወደ 1 ሄድን። በጥሪ ላይ ማሽከርከር አሁን አሰልቺ ነው፣ እናም እኛ የምንፈልገው ያ ነው።"
ኢንተርፕራይዝ ዝግጁ
ለድርጅት SRE ቡድኖች ደህንነት፣ ተገዢነት እና ልኬት መስፈርቶች የተሰራ።
ደህንነት - የመጀመሪያው አርክቴክቸር
- SOC 2 ዓይነት II የተረጋገጠ
- ዜሮ የውሂብ ማቆየት አማራጭ
- የግል ደመና ማሰማራት
- የኤስኤስኦ/SAML ውህደት
ተገዢነት ዝግጁ
- GDPR ያከብራል።
- HIPAA ዝግጁ ነው።
- SOX ኦዲት-ዝግጁ
- ISO 27001 የተስተካከለ
የድርጅት ልኬት
- ባለብዙ ክልል ማሰማራት
- ከፍተኛ ተገኝነት
- የተሰጠ ድጋፍ
- ብጁ SLAs
ተዓማኒነት መከበር ብቻ ሳይሆን ማረጋገጥ ይችላሉ።
ዞፍ እንዴት SRE ቡድኖችን ከአክቲቭ የእሳት ማጥፊያ ወደ ንቁ አስተማማኝነት ማረጋገጥ እንዴት እንደሚረዳቸው ይመልከቱ።
የ30-ደቂቃ ማሳያ · ለኤስአርኢ ቡድኖች ብጁ የተደረገ · አስተማማኝነት ነጥብ በተግባር ላይ ሲውል ይመልከቱ