728x90

쿠버네티스 클러스터의 네트워크 구성에 문제가 생기면
다음과 같은 에러를 만날 수 있습니다. 

root@controlplane:/# k get all -n triton
NAME                                READY   STATUS              RESTARTS   AGE
pod/mysql                           0/1     ContainerCreating   0          67s
pod/webapp-mysql-54db464f4f-5jtq2   0/1     ContainerCreating   0          67s
...
...
root@controlplane:/# k describe pod/webapp-mysql-54db464f4f-5jtq2
Events:
  Type     Reason                  Age                From               Message
  ----     ------                  ----               ----               -------
  Normal   Scheduled               14m                default-scheduler  Successfully assigned triton/webapp-mysql-54db464f4f-648sr to controlplane
  Warning  FailedCreatePodSandBox  14m                kubelet            Failed to create pod sandbox: rpc error: code = Unknown desc = [failed to set up sandbox container "7fba1fad2f3e8297e080cfd1ab1d75615f1d036acf0eb6182514dcebbf2cf089" network for pod "webapp-mysql-54db464f4f-648sr": networkPlugin cni failed to set up pod "webapp-mysql-54db464f4f-648sr_triton" network: unable to allocate IP address: Post "http://127.0.0.1:6784/ip/7fba1fad2f3e8297e080cfd1ab1d75615f1d036acf0eb6182514dcebbf2cf089": dial tcp 127.0.0.1:6784: connect: connection refused, failed to clean up sandbox container "7fba1fad2f3e8297e080cfd1ab1d75615f1d036acf0eb6182514dcebbf2cf089" network for pod "webapp-mysql-54db464f4f-648sr": networkPlugin cni failed to teardown pod "webapp-mysql-54db464f4f-648sr_triton" network: Delete "http://127.0.0.1:6784/ip/7fba1fad2f3e8297e080cfd1ab1d75615f1d036acf0eb6182514dcebbf2cf089": dial tcp 127.0.0.1:6784: connect: connection refused]
  Normal   SandboxChanged          4m (x47 over 14m)  kubelet            Pod sandbox changed, it will be killed and re-created.

 

에러 메세지를 보면 CNI 문제인 것처럼 보입니다.
이때 클러스터가 사용중인 CNI 를 확인할 필요가 있겠죠?

/opt/cni/bin 경로 확인

/opt/cni/bin 경로에서 클러스터에 설치된 CNI 플러그인을 확인할 수 있습니다. 

root@controlplane:/# ls /opt/cni/bin/ -al
total 81676
drwxrwxr-x 2 root root     4096 Sep  4 00:52 .
drwxr-xr-x 3 root root     4096 Aug 25  2021 ..
-rwxr-xr-x 1 root root  4159518 May 13  2020 bandwidth
-rwxr-xr-x 1 root root  4671647 May 13  2020 bridge
-rwxr-xr-x 1 root root 12124326 May 13  2020 dhcp
-rwxr-xr-x 1 root root  5945760 May 13  2020 firewall
-rwxr-xr-x 1 root root  3069556 May 13  2020 flannel
-rwxr-xr-x 1 root root  4174394 May 13  2020 host-device
-rwxr-xr-x 1 root root  3614480 May 13  2020 host-local
-rwxr-xr-x 1 root root  4314598 May 13  2020 ipvlan
-rwxr-xr-x 1 root root  3209463 May 13  2020 loopback
-rwxr-xr-x 1 root root  4389622 May 13  2020 macvlan
-rwxr-xr-x 1 root root  3939867 May 13  2020 portmap
-rwxr-xr-x 1 root root  4590277 May 13  2020 ptp
-rwxr-xr-x 1 root root  3392826 May 13  2020 sbr
-rwxr-xr-x 1 root root  2885430 May 13  2020 static
-rwxr-xr-x 1 root root  3356587 May 13  2020 tuning
-rwxr-xr-x 1 root root  4314446 May 13  2020 vlan
lrwxrwxrwx 1 root root       18 Sep  4 00:52 weave-ipam -> weave-plugin-2.8.1
lrwxrwxrwx 1 root root       18 Sep  4 00:52 weave-net -> weave-plugin-2.8.1
-rwxr-xr-x 1 root root 11437320 Sep  4 00:52 weave-plugin-2.8.1

 

/etc/cni/net.d/ 경로에서 CNI 플러그인 설정 확인하기

그러면 사용중인 CNI 플러그인의 설정은 어디 있을까요?
바로 /etc/cni/net.d/ 경로에 있습니다.
weave 설정 파일만 존재하고 /opt/cni/bin 경로의 내용을 미루어 봤을 때
이 클러스터는 CNI로 weave를 쓰도록 구성되어 있다는 추론이 가능합니다.

root@controlplane:/# ls -al /etc/cni/net.d/
total 12
drwxr-xr-x 2 root root 4096 Sep  4 00:52 .
drwxr-xr-x 3 root root 4096 Sep  4 00:52 ..
-rw-r--r-- 1 root root  318 Sep  4 00:52 10-weave.conflist

 

weave pod 존재 유무 확인

그렇다면 왜 에러가 발생했고 어플리케이션 pod 가 구동되지 않은 것일까요?
weave는 CNI 플러그인이고 설치 및 동작되고 있는 경우 
weave pod이 kube-system 네임스페이스에서 확인되어야 합니다.

root@controlplane:/# k get all -n kube-system
NAME                                       READY   STATUS    RESTARTS   AGE
pod/coredns-74ff55c5b-s8jgh                1/1     Running   0          33m
pod/coredns-74ff55c5b-vnsv7                1/1     Running   0          33m
pod/etcd-controlplane                      1/1     Running   0          34m
pod/kube-apiserver-controlplane            1/1     Running   0          34m
pod/kube-controller-manager-controlplane   1/1     Running   0          34m
pod/kube-proxy-6jssm                       1/1     Running   0          33m
pod/kube-scheduler-controlplane            1/1     Running   0          34m

어라?
그런데 시험 환경에는 weave 관련된 이름이 보이지 않습니다.
weave.works 웹 사이트에서 아래 경로를 방문하여 
커스텀 k8s용 설치 manifest 파일을 확인해 봅시다.

https://www.weave.works/docs/net/latest/kubernetes/kube-addon/

 

Integrating Kubernetes via the Addon

The following topics are discussed: Installation Before installing Weave Net, you should make sure the following ports are not blocked by your firewall: TCP 6783 and UDP 6783/6784. For more details, see the FAQ. Weave Net can be installed onto your CNI-ena

www.weave.works

$ kubectl apply -f "https://cloud.weave.works/k8s/net?k8s-version=$(kubectl version | base64 | tr -d '\n')"

 

위 명령을 수행하여 weave CNI 플러그인을 설치합시다.

weave pod 실행상태 확인

이제 weave plugin이 설치되었으니 pod가 구동되는지 확인해 보겠습니다. 

root@controlplane:/# k get all -n kube-system
NAME                                       READY   STATUS    RESTARTS   AGE
pod/coredns-74ff55c5b-s8jgh                1/1     Running   0          40m
pod/coredns-74ff55c5b-vnsv7                1/1     Running   0          40m
pod/etcd-controlplane                      1/1     Running   0          40m
pod/kube-apiserver-controlplane            1/1     Running   0          40m
pod/kube-controller-manager-controlplane   1/1     Running   0          40m
pod/kube-proxy-6jssm                       1/1     Running   0          40m
pod/kube-scheduler-controlplane            1/1     Running   0          40m
pod/weave-net-9kbqw                        2/2     Running   0          43s

아까 보이지 않던 pod/weave-net-xxxxx가 보입니다. 
이제 서비스 클러스터의 pod 상태를 보겠습니다. 

root@controlplane:/# k get all -n triton
NAME                                READY   STATUS    RESTARTS   AGE
pod/mysql                           1/1     Running   0          12m
pod/webapp-mysql-54db464f4f-5jtq2   1/1     Running   0          12m

pod의 상태가 Running으로 바뀌었습니다. 
describe로 상태를 보면 특별히 CNI 이슈가 해소된 것에 대한 메세지는 남지 않는 것 같습니다. 
다만 pod가 잘 동작하는 것으로 이슈가 해소된 것을 알 수 있겠네요!


k8s 관리자라면 꼭 공부해야 하는 CKA는 아래 강의를 추천드립니다.
강사가 제공하는 별도 Lab 환경이 정말 진국인 강의입니다!

 

Certified Kubernetes Administrator (CKA) Practice Exam Tests

Prepare for the Certified Kubernetes Administrators Certification with live practice tests right in your browser - CKA

www.udemy.com

조금더 개발자에게 필요한 내용을 담은 CKAD를 준비한다면 역시 아래 강의가 좋겠습니다!

 

Kubernetes Certified Application Developer (CKAD) Training

Learn concepts and practice for the Kubernetes Certification with hands-on labs right in your browser - DevOps - CKAD

www.udemy.com

 

본 포스팅은 제휴마케팅을 통해 소정의 수수료를 지급 받을 수 있습니다.

728x90
728x90

성능 측정은 인프라의 기본입니다.
특히 서버와 네트워크의 성능 측정은 현업에서 자주 요구되는 시험 중 하나입니다. 
다양한 방법의 시험이 있겠지만, 리눅스 환경에서는 iperf라는 걸출한 도구가 있어 시험이 쉽습니다. 
물론 실제 어플리케이션의 성능 측정 등은 nGrinder와 같은 부하 도구를 사용해야 합니다. 


CentOS 환경에 iperf3 설치하기

iperf의 가장 최신 버전은 3 입니다. 
각 리눅스 환경에서 패키지 매니저를 이용하여 쉽게 설치 가능합니다. 
제 경우는 CentOS 환경이라 yum 으로 설치를 진행했습니다. 

$ sudo yum install iperf3
...
...
Dependencies Resolved

======================================================================================================================
 Package                    Arch                       Version                         Repository                Size
======================================================================================================================
Installing:
 iperf3                     x86_64                     3.1.7-2.el7                     base                      79 k

Transaction Summary
======================================================================================================================
Install  1 Package

Total download size: 79 k
...
...
Running transaction
  Installing : iperf3-3.1.7-2.el7.x86_64                                                                          1/1
  Verifying  : iperf3-3.1.7-2.el7.x86_64                                                                          1/1

Installed:
  iperf3.x86_64 0:3.1.7-2.el7

 

기본적인 사용 방법 : 서버와 클라이언트의 구성

iperf3는 서버 역할을 할 데몬과 클라이언트 역할을 할 데몬을 실행함으로써 시험을 수행하게 됩니다. 
성능 측정을 하고자 하는 대상 장비, 인스턴스에서 iperf3를 서버 모드로 실행하고 
다른 장비에서 iperf3를 클라이언트 모드로 실행하여 성능을 측정합니다. 

 

서버 모드로 iperf3 실행하기

iperf3를 서버 모드로 실행하기 위해서는 -s 파라메터를 지정합니다. 
서버의 성능은 대역폭 혹은 전송량으로 표기되는데
-f 파라메터 뒤에 소문자 m, g, t 등을 사용하면 대역폭으로
-f 파라메터 뒤에 대문자 M, G, T 등을 사용하면 전송량으로 표기합니다.

iperf2는 기본적으로 5201 포트로 수신을 합니다만
다른 포트를 사용하기 위해 -p 파라메터와 포트 번호를 지정할 수도 있습니다.

// 서버 모드로 iperf3를 실행
$ iperf3 -s

// 서버 모드로 iperf3를 실행하되 대역폭을 Mbps로 표기
$ iperf3 -s -f m

// 서버 모드로 iperf3를 실행하되 대역폭을 Gbps로 표기
$ iperf3 -s -f g

// 서버 모드로 iperf3를 실행하되 전송량 GB/sec로 표기
$ iperf3 -s -f G

// 기본 포트(5201)가 아닌 지정된 포트로 서버 구동
$ iperf3 -s -f g -p 1234
-----------------------------------------------------------
Server listening on 1234
-----------------------------------------------------------

 

클라이언트 모드로 iperf3 실행하여 시험 수행하기

서버를 구동했다면 이제 클라이언트를 구동할 차례입니다. 
옵션은 서버로 쓸때와 비슷한데요
접속 대상 iperf3 서버 IP를 -c 옵션으로 지정한다는 정도의 차이가 있습니다. 

// 서버 10.20.30.40 으로 시험 패킷을 전송
$ iperf3 -c 10.20.30.40

// 서버 10.20.30.40를 1234번 포트로 연결하여 시험 패킷을 전송
$ iperf3 -c 10.20.30.40 -p 1234

// 시험 패킷을 전송하되 단위를 Mbps로 표기
$ iperf3 -c 10.20.30.40 -p 1234 -f m

// 시험 패킷을 전송하되 단위를 MB/sec로 표기
$ iperf3 -c 10.20.30.40 -p 1234 -f M

 

시험 심화 : UDP 시험

기본적으로 iperf3는 TCP 시험을 수행합니다.
그런데 UDP 도 널리 쓰이고 있기 때문에 시험이 필요할 수 있습니다.
이때는 다음과 같이 -u 옵션을 사용하면 됩니다. 
서버는 -u 옵션을 사용하지 않아도 되고, 클라이언트에서만 -u 옵션을 사용하면 됩니다.

$ iperf3 -c 10.20.30.40 -p 1234 -f M -u
Connecting to host 10.20.30.40, port 1234
[  4] local 10.20.30.50 port 32888 connected to 10.20.30.40 port 1234
[ ID] Interval           Transfer     Bandwidth       Total Datagrams
[  4]   0.00-1.00   sec   116 KBytes  0.11 MBytes/sec  82
[  4]   1.00-2.00   sec   129 KBytes  0.13 MBytes/sec  91
[  4]   2.00-3.00   sec   127 KBytes  0.12 MBytes/sec  90
[  4]   3.00-4.00   sec   129 KBytes  0.13 MBytes/sec  91
[  4]   4.00-5.00   sec   127 KBytes  0.12 MBytes/sec  90
[  4]   5.00-6.00   sec   129 KBytes  0.13 MBytes/sec  91
[  4]   6.00-7.00   sec   127 KBytes  0.12 MBytes/sec  90
[  4]   7.00-8.00   sec   129 KBytes  0.13 MBytes/sec  91
[  4]   8.00-9.00   sec   127 KBytes  0.12 MBytes/sec  90
[  4]   9.00-10.00  sec   129 KBytes  0.13 MBytes/sec  91
- - - - - - - - - - - - - - - - - - - - - - - - -
[ ID] Interval           Transfer     Bandwidth       Jitter    Lost/Total Datagrams
[  4]   0.00-10.00  sec  1.24 MBytes  0.12 MBytes/sec  0.006 ms  0/897 (0%)
[  4] Sent 897 datagrams

iperf Done.

 

시험 심화 : 다중 TCP 연결 시험

현실의 서버들은 단일 TCP 연결이 아니라 다중 TCP 연결을 쓰게 됩니다. 
iperf3는 이런 상황을 대비하여 다중 스트림을 쏠 수 있는 기능도 제공합니다.
-t 옵션을 사용하면서 뒤에 스트림 숫자를 지정해 주면 됩니다. 

$  iperf3 -c 10.20.30.40 -p 1234 -f m -P 20

 


소개한 옵션들은 사실 기본적인 옵션들입니다. 
각자의 상황에 필요한 옵션은 공식 문서를 통해 찾아 보는게 좋겠습니다!

https://github.com/esnet/iperf

 

GitHub - esnet/iperf: iperf3: A TCP, UDP, and SCTP network bandwidth measurement tool

iperf3: A TCP, UDP, and SCTP network bandwidth measurement tool - GitHub - esnet/iperf: iperf3: A TCP, UDP, and SCTP network bandwidth measurement tool

github.com

 

728x90
728x90

앞선 글에서 계속 이어집니다.
별 내용은 없습니다만, 앞의 글은 아래 링크로 보실 수 있습니다. 

 

SRE와 DevOps의 차이는 무엇일까? #1 (부제 - SRE는 무엇을 해야 하는가)

구글이 NEXT 2018의 IO116 세션으로 발표했던 Improving Reliability with Error Budgets, Metrics and Tracing in Stackdriver를 읽으면서 일부 내용을 요약해 봤습니다. 내용을 읽으면서 한번 요약을 해보고 이..

ondemand.tistory.com

 


 

  • 증상을 모니터링해야 한다, 원인이 아니라...
  • 너무 많은 알람은 도움이 되지 않는다

 

  • 에러 버짓이 너무 빨리 줄어들면 -> 예산이 소진되기 전에 응답해야 한다
  • 에러 버짓이 너무 천천히 줄어들면 -> 장기 개선 과제를 통해 펄스 알람을 피해야 한다

 

  • 꼭 Stackdriver를 써야 하는 것은 아님
  • SLO 모니터링은 어떻게 정의하는 가
    • 지연과 가용성중 어느 것을 기준으로 삼을 것인지 결정
    • SLI 임계치를 설정
    • 모니터링 윈도우(=컴플라이언스 기간) 정의
    • 요청수를 기준으로 할지 정상/비정상 시간을 기준으로 할지 결정
    • 결국 에러 버짓이 떨어질 때 알람을 발생시켜야 함

 

Stackdriver를 비롯하여 사용가능한 도구가 다르기 때문에... 장표 막 넘기고 4컷으로 요약

일단 알러팅이 정확해야 지치지 않는다

하나씩 레이어를 치우면서 원인을 찾아보자

서로 다른 도메인의 데이터를 관계시켜 원인을 찾아보자

추적 데이터, 높은 빈도로 출현하는 데이터의 조합?
이를 바탕으로 가설을 세우고 시험해 보는 것은 빠른 원인 판단에 도움이 됨

 

728x90
728x90

구글이 NEXT 2018의 IO116 세션으로 발표했던
Improving Reliability with Error Budgets, Metrics and Tracing in Stackdriver를 읽으면서  일부 내용을 요약해 봤습니다. 

내용을 읽으면서 한번 요약을 해보고
이후에는 제가 생각하는 SRE의 R&R에 대해서 
이야기 해볼까 합니다. 


 

Agile이 동작하는 구간은 Business to Development 의 구간 
DevOps는 Development to Operations 구간에서 동작

 

DevOps = Practices, Guidelines, Culture
Site Reliability Engineering = Practices, Beliefs for Practices, Job role

SRE가 Operation을 대하는 자세는 
- 자동화에 큰 관심과 노력을 기울여야 하고 
- sysadmin 들이 보통 해오던 일들과 도구를 통해 같은 역할을 수행 
- 신뢰성 있는, 운영하기 좋은 서비스 아키텍쳐를 from the scratch 로 디자인

SRE = 시스템 엔지니어링과 소프트웨어 개발의 교차로

 

SRE가 신경써야 하는 Practices들.
오너십의 분산, 에러 예산 내에서의 에러 수용 -> 실패 비용 줄이기, 자동화, 측정

 

 

인터렉션은 어떻게 정의해야 하는가?
분산되어 있는 서비스 전반에 걸쳐 요청과 응답이 문제 없는가?

 

결국 이런것, 즉 정상 여부를 판별할 수 있는 기준이 필요하고
SLI (Service Level Indicator) = 좋은 상태인지 구분할 수 있는 측정치
SLO (Service Level Objective) = SLI가 도달해야 하는 최상단 목표 수치
SLA (Service Level Agreement) = SLO 추구의 결과
의 3종 셋트를 정의할 수 있어야 한다.

(To be continued...)

728x90

+ Recent posts