тестовые тачки -k8凯发
-
деплой
-
выкладка (после билда)
-
общее время
-
до 15 минут на тачке
- если запущено окружение - выкладка тормозит (теория)
- последовательная выкладка (по идее можно весь core параллельно, ops'ы в конце)
-
не всегда успешна
-
can't delete (stop) service
- resources
- timeout
-
can't start service
- configuration files missed
- code error
- ошибка окружения (не развернут другой сервис)
- не стопится hm
-
билд
-
сносит все данные для билда (большое время билда)
- тратит время на копирование
-
build по сути не работает, всегда rebuild
- решение: можно развернуть билд-сервер (дима кармазин)
-
время билда
-
постбилд эвентс (копирование)
- решение: толик покопает
- покопать логи по npm, занимается копированием
- если не меняется - должен кэшировать (демон для npm)
-
npm качает всё из инета
- решение: развернуть зеркало
-
запуск тулз и скриптов
-
билд
- не работают с галкой skipbuild
- решение: починить в tc (clean policy always) (толик)
-
cassandra
- schemaactualizer
- cassandradatamanager
- кассандра иногда отваливается!
-
sql
- sqldatamanager
- архивные скрипты последовательно не накатываются (новая тачка)
- решение: для первого билда нужна отдельная конфига (?)
- конкретный архивный скрипт содержит баг (0.70)
- files *.sql (deploy)
- для первого развертывания нужно запускать все *.sql файлы
- convertdb
-
elastic
- elasticdatamanager
- для первого развертывания нужен createdb
- если сервисы не запущены или нет данных - может не запуститься (:
-
git checkout
- время достигает нескольких минут
-
eof 70% error
- костыль: чиним перезапуском агента
- authorization error
-
commit missed error
- костыль: разработчики чинят руками
-
железо
-
окружение хоста
-
сколько виртуалок на хосте?
- профиль нагрузки соседних виртуалок
- что стоит на соседних виртуалках
- как часто и активно они используются
-
какие hdd на хосте
- если нет ssd - плохо
- если ssd < 240 gb, то сложно развернуть больше 2х виртуалок
- обычно стоят гибридные диски, нужно понимать как они работают
- остальное железо на хосте
- хост сдох (завис)
-
виртуалка
- количество свободной оперативки
- количество свободной памяти на жд (важно понимать как работают гибридные диски)
- решение: начинка виртуалки и хоста стандартна (спс)
-
внешний софт
-
операционная система (win)
- службы, которые кладут наш софт
- настройки винды
- установленный софт
- java процессы
- решение: стандартизировать внешний софт и ставить скриптами (спс)
-
наш софт
-
3 узла
-
порядок разворачивания
- доступность managersercvice для кс
- доступность апи площадки для тестирования
-
elastic
- обновление версий
-
cassandra
-
админский кластер кассандры
- лежит отдельно, можем про него забыть
- replication factor = 1
- бэкапы (можно потерять)
-
лишние данные (логи)
- transaction logs sql
- cassandra logs
- elastic logs
- services and ui logs
- при переключении веток нужно прибивать старую конфигу tc
-
тяжелые запросы
- кладём sql
-
нет индексов
- решение: копировать схему с боевой (инфраструктура)
-
не хватает данных
-
ограничения (edi)
- костыль: посмотреть ошибку в hm и добавить недостающую сеть руками
-
тарифы
- экспортируем с боевой
- копируем только одиночно, не умеем группой
- данные, заливаемые тулзами на боевой
-
тесты
-
деплой проходит в небольшом проценте случаев
- cassandra
- npm
- git
- долго
-
окружение
-
кс
-
тачки
- легла полка (спс порешали)
- за тачки отвечают спс, а закупают аит
-
сервисы кса не стабильны
- большое кол-во логов (кончается место)
-
баги, долгая доставка на тестовую
- таска в jira
- решение: деплой через octopus (андрей шалин)
- ogrs service падает
-
индексы кса не стабильны
-
не хватает ресурсов
- место кончается (?)
-
внезапная пересборка индекса (бускадор)
- разворачивание
- упал, пересобирают
- бускадор теряет данные
- один файлик постоянно теряется
- индексы сбрасываются
- бускадоры начинают падать каскадами
-
ибраиндекс счетов
- тормозит
- отваливаются stale'ы
- кончается место(?)
- отваливается live
- отваливается весь кс :(
- большая нагрузка (бизнес)
- следит спс
-
продуктовые апи
- апи дд часто падает
-
электричество
- тачки тупо вырубаются
- после перезапуска что-то не стартует