etcd重置

发表于 2020-05-18 更新于 2023-11-07 分类于 Kubernetes 本文字数： 632 阅读时长 ≈ 2 分钟

获取现有etcd集群状态

1	ETCDCTL_API=3 etcdctl --endpoints=33.41.0.187:3379 -w table endpoint status --cluster #查看集群leader 节点

阅读全文 »

etcd数据库异常

发表于 2020-05-03 更新于 2023-11-07 分类于 Kubernetes 本文字数： 1.6k 阅读时长 ≈ 6 分钟

Etcd 维护

Etcd 集群少不了日常维护来保持其可用性。这些运维操作一般都是自动化且期间 Etcd 不会停止对外服务，或者严重影响 Etcd 集群的性能。

所有的运维管理都在操作 Etcd 的存储空间。存储空间的配额用于控制 Etcd 数据空间的大小，如果 Etcd 节点磁盘空间不足了，配额会触发告警，然后 Etcd 系统将进入操作受限的维护模式。为了避免存储空间消耗完导致写不进去，应该定期清理 key 的历史版本。在清理 Etcd 节点存储碎片之后，存储空间会重新进行调整。最后，定期对 Etcd 节点状态做快照备份，以便在错误的运维操作引起数据丢失或数据不一致时进行数据恢复。

阅读全文 »

nginx日志时间输出

发表于 2020-04-26 更新于 2023-11-07 分类于 Kubernetes 本文字数： 416 阅读时长 ≈ 2 分钟

nginx 日志打印响应时间 request_time 和 upstream_response_time

设置log_format，添加request_time，$upstream_response_time，位置随意

log_format  main  '"$request_time" "$upstream_response_time" $remote_addr - $remote_user [$time_local] "$request" '

                      '$status $body_bytes_sent "$http_referer" '

                      '"$http_user_agent" "$http_x_forwarded_for"';

阅读全文 »

k8s节点下线

发表于 2020-04-20 更新于 2023-11-07 分类于 Kubernetes 本文字数： 202 阅读时长 ≈ 1 分钟

下线一般有两种情况,一般是故障或者是迁移。故障节点下线只需要直接摘除下来就可以，因为会从新调度到新的节点。而正常节点迁移则需要先排干节点，即将所有pod在此节点上迁移出去其他节点。

阅读全文 »

Golang sync.Mutex用法（互斥量用法）

发表于 2020-04-18 更新于 2023-11-07 分类于 Kubernetes 本文字数： 1.2k 阅读时长 ≈ 4 分钟

介绍

golang 中的 sync 包实现了两种锁：

Mutex：互斥锁

RWMutex：读写锁，RWMutex 基于 Mutex 实现

阅读全文 »

centos7安装kernel 4.x

发表于 2020-04-15 更新于 2023-11-07 分类于 Kubernetes 本文字数： 471 阅读时长 ≈ 2 分钟

Install Linux Kernel 4.4.5 LTS in CentOS 7

I tested this tutorial on CentOS 7 64 bit edition. Although, these steps should work on RHEL 7.

Note: Since this kernel is just released, the latest kernel haven’t pushed into the ELRepo yet. It stills shows the 4.4.4 version. I think the latest kernel will be pushed to the repository in few hours.

To install the latest kernel, add ELRepo repository.

Add ELRepo GPG key:

阅读全文 »

理解Go Context机制

发表于 2020-04-03 更新于 2023-11-07 分类于 Kubernetes 本文字数： 3.9k 阅读时长 ≈ 14 分钟

1 什么是Context

最近在公司分析gRPC源码，proto文件生成的代码，接口函数第一个参数统一是ctx context.Context接口，公司不少同事都不了解这样设计的出发点是什么，其实我也不了解其背后的原理。今天趁着妮妲台风妹子正面登陆深圳，全市停工、停课、停业，在家休息找了一些资料研究把玩一把。

阅读全文 »

docker看veth对

发表于 2020-04-01 更新于 2023-11-07 分类于 Kubernetes 本文字数： 145 阅读时长 ≈ 1 分钟

找到网卡对应的方式，在主机上执行如下命令

docker exec -it <container-name> bash -c 'cat /sys/class/net/eth0/iflink'

# 假设返回 12
grep -l 12 /sys/class/net/veth*/ifindex
# 此时会有如下类似返回
/sys/class/net/veth11d4238/ifindex
# veth11d4238 即主机上的另一半

阅读全文 »

python 图片文字识别+二维码识别

发表于 2020-03-11 更新于 2023-11-07 分类于 Python 本文字数： 316 阅读时长 ≈ 1 分钟

文字识别

python的pytesseract为文字识别提供了很好的支持。整个实现只需要一行关键代码即可。

前提安装

1 2	yum install -y tesseract-langpack-chi_sim tesseract-langpack-chi_tra tesseract pip install pytesseract

代码示例

from PIL import Imageimport
import pytesseract
text=pytesseract.image_to_string(Image.open(file_path), lang='chi_sim')
print(text)

识别语言：中文简体(chi_sim), 繁体(chi_tra)

阅读全文 »

集群日志审计

发表于 2020-03-10 更新于 2023-11-07 分类于 Kubernetes 本文字数： 817 阅读时长 ≈ 3 分钟

集群做了什么？产生了什么影响？

在容器引擎的日常运维中，经常遇到客户反馈线上问题，例如: cloud-controller-manager 服务无法启动，集群初始化卡状态，kubectl top no 命令返回错误，master节点某些pod被kill掉等；值班同学遇到这些问题时，通常会进入集群各个节点查看服务日志，找到产生问题的原因；经过一段时间对值班反馈问题的整理，发现线上服务出现异常的根本原因主要集中在以下几类： 1. 客户修改或删除集群服务配置文件 2. 客户勿删集群资源 3. 节点系统服务异常或资源不足；为了更加便捷高效的排查问题，我们引入了集群审计，用于追踪系统日志，配置文件变更，k8s资源操作，将集群在某个时间段内做了什么，产生了什么影响，变得一目了然。

服务架构

集群审计数据源

Kubernetes-Audit

kubernetes资源操作追踪审计日志

启动和配置

kube-apiserver源生支持kubernetes集群操作审计功能，在启动kube-apiserver服务时加入以下参数即可：

--audit-policy-file=/etc/kubernetes/audit-policy.yaml  # 指定审计策略配置文件路径
--audit-log-path=/var/log/kubernetes/audit.log         # 指定审计日志输出路径
--audit-log-maxage=7                                   # 审计日志保留天数
--audit-log-maxbackup=4                                # 审计日志备份数量
--audit-log-maxsize=10                                 # 审计日志文件大小，文件超过指定大小后将循环覆盖写入

kube-apiserver

1	/etc/kubernetes/manifests/kube-apiserver.yaml 展开源码

审计策略文件

1	/etc/kubernetes/audit-policy.yaml 展开源码

Inotifywait

inotify日志，记录集群节点文件变更（包括：创建，修改，删除，移动操作）

启动和配置

/usr/bin/inotifywait -mrq -d -o /var/log/inotify.log --timefmt '%Y-%m-%d %H:%M:%S' --format '{"datetime": "%T", "event": "%e", "fpath": "%w%f"}' -e create,delete,modify,move --exclude "(.swp|.inc|.svn|.rar|.tar.gz|.gz|.txt|.zip|.bak|.log|sed*[[:alpha:]])" /etc

Syslog

linux系统日志

Filebeat

Filebeat是一个轻量级日志传输Agent，可以将指定日志转发到Logstash、Elasticsearch、Kafka、Redis等中。Filebeat占用资源少，而且安装配置也比较简单，支持目前各类主流OS及Docker平台。

启动和配置

/etc/filebeat/filebeat.yml 展开源码

审计日志汇总展示

Kibana使用

Kibana服务地址：http://kibana.kce.ksyun.com:8601/app/kibana#/home?_g=()

进入Kibana页面后，导航栏中选择”Discover” => 在index下拉菜单中选择 “kce-online-audit-*” => 在页面最上面的输入框中输入 “cluster_uuid: ${cluster_uuid}” 按集群uuid过滤审计日志 => “回车”进行搜索查询

审计日志包含三个数据源，在审计中使用”tags”进行标识区分； objectRef.resource和verb 是 kube-apiserver字段，用于快速查看集群中哪些资源做了什么操作； event和fpath 是 inotify字段，用于快速查看哪些文件产生了哪些变更事件

由于syslog的message字段内容数据量大小不一致，切内容非格式化，故没有在Kibana展示模板进行单独配置，如果需要批量查看syslog审计日志可按tags过滤，并定义查看指定审计字段