тестовые тачки -k8凯发

  1. деплой
    1. выкладка (после билда)
      1. общее время
        1. до 15 минут на тачке
          1. если запущено окружение - выкладка тормозит (теория)
          2. последовательная выкладка (по идее можно весь core параллельно, ops'ы в конце)
      2. не всегда успешна
        1. can't delete (stop) service
          1. resources
          2. timeout
        2. can't start service
          1. configuration files missed
          2. code error
          3. ошибка окружения (не развернут другой сервис)
      3. не стопится hm
    2. билд
      1. сносит все данные для билда (большое время билда)
        1. тратит время на копирование
        2. build по сути не работает, всегда rebuild
          1. решение: можно развернуть билд-сервер (дима кармазин)
      2. время билда
        1. постбилд эвентс (копирование)
          1. решение: толик покопает
        2. покопать логи по npm, занимается копированием
        3. если не меняется - должен кэшировать (демон для npm)
        4. npm качает всё из инета
          1. решение: развернуть зеркало
      3. запуск тулз и скриптов
        1. билд
          1. не работают с галкой skipbuild
          2. решение: починить в tc (clean policy always) (толик)
        2. cassandra
          1. schemaactualizer
          2. cassandradatamanager
          3. кассандра иногда отваливается!
        3. sql
          1. sqldatamanager
          2. архивные скрипты последовательно не накатываются (новая тачка)
          3. решение: для первого билда нужна отдельная конфига (?)
          4. конкретный архивный скрипт содержит баг (0.70)
          5. files *.sql (deploy)
          6. для первого развертывания нужно запускать все *.sql файлы
          7. convertdb
        4. elastic
          1. elasticdatamanager
          2. для первого развертывания нужен createdb
          3. если сервисы не запущены или нет данных - может не запуститься (:
    3. git checkout
      1. время достигает нескольких минут
      2. eof 70% error
        1. костыль: чиним перезапуском агента
      3. authorization error
      4. commit missed error
        1. костыль: разработчики чинят руками
  2. железо
    1. окружение хоста
      1. сколько виртуалок на хосте?
        1. профиль нагрузки соседних виртуалок
        2. что стоит на соседних виртуалках
        3. как часто и активно они используются
      2. какие hdd на хосте
        1. если нет ssd - плохо
        2. если ssd < 240 gb, то сложно развернуть больше 2х виртуалок
        3. обычно стоят гибридные диски, нужно понимать как они работают
      3. остальное железо на хосте
      4. хост сдох (завис)
    2. виртуалка
      1. количество свободной оперативки
      2. количество свободной памяти на жд (важно понимать как работают гибридные диски)
    3. решение: начинка виртуалки и хоста стандартна (спс)
  3. внешний софт
    1. операционная система (win)
      1. службы, которые кладут наш софт
      2. настройки винды
    2. установленный софт
    3. java процессы
    4. решение: стандартизировать внешний софт и ставить скриптами (спс)
  4. наш софт
    1. 3 узла
      1. порядок разворачивания
        1. доступность managersercvice для кс
        2. доступность апи площадки для тестирования
      2. elastic
        1. обновление версий
      3. cassandra
        1. админский кластер кассандры
          1. лежит отдельно, можем про него забыть
        2. replication factor = 1
      4. бэкапы (можно потерять)
    2. лишние данные (логи)
      1. transaction logs sql
      2. cassandra logs
      3. elastic logs
      4. services and ui logs
      5. при переключении веток нужно прибивать старую конфигу tc
    3. тяжелые запросы
      1. кладём sql
      2. нет индексов
        1. решение: копировать схему с боевой (инфраструктура)
    4. не хватает данных
      1. ограничения (edi)
        1. костыль: посмотреть ошибку в hm и добавить недостающую сеть руками
      2. тарифы
        1. экспортируем с боевой
        2. копируем только одиночно, не умеем группой
      3. данные, заливаемые тулзами на боевой
    5. тесты
      1. деплой проходит в небольшом проценте случаев
        1. cassandra
        2. npm
        3. git
      2. долго
  5. окружение
    1. кс
      1. тачки
        1. легла полка (спс порешали)
        2. за тачки отвечают спс, а закупают аит
      2. сервисы кса не стабильны
        1. большое кол-во логов (кончается место)
        2. баги, долгая доставка на тестовую
          1. таска в jira
          2. решение: деплой через octopus (андрей шалин)
        3. ogrs service падает
      3. индексы кса не стабильны
        1. не хватает ресурсов
          1. место кончается (?)
        2. внезапная пересборка индекса (бускадор)
          1. разворачивание
          2. упал, пересобирают
          3. бускадор теряет данные
          4. один файлик постоянно теряется
          5. индексы сбрасываются
          6. бускадоры начинают падать каскадами
        3. ибраиндекс счетов
          1. тормозит
          2. отваливаются stale'ы
          3. кончается место(?)
          4. отваливается live
          5. отваливается весь кс :(
          6. большая нагрузка (бизнес)
          7. следит спс
    2. продуктовые апи
      1. апи дд часто падает
    3. электричество
      1. тачки тупо вырубаются
      2. после перезапуска что-то не стартует
网站地图