[Tarantool-discussions] Мозгоштурм: Фейловер с режимом деградации

Konstantin Osipov kostja.osipov at gmail.com
Sun Aug 15 10:56:54 MSK 2021


* Дмитрий Обухов via Tarantool-discussions <tarantool-discussions at dev.tarantool.org> [21/08/15 03:02]:

Сначала надо реализовать изменение конфигурации как часть
протокола Рафт, и реализовать raft learner расширение протокола,
описанное в PhD.

Проблему чётного числа узлов нужно решать именно с помощью raft
learners (non-voting nodes).

Режим автоматического уменьшения размера кворума описан в PhD и
был реализован, по сути это автоматическая инициация configuration
change после длительной недоступности одного узла. 

Репликационный фактор, как и placement/locality - это свойство
данных, а не свойство топологии. Для одной таблицы он может быть
3, для других 7, при этом дата центра может быть хоть 2 хоть 10. И
менятьего должен DBA а не СУБД автоматически. То что в тарантуле
это "слито" воедино - просто наследственность.
 
> А вот давайте попробуем пообсуждать здесь. Может такой формат больше народу подойдёт.
>  
> В этом релизе у нас появляется автоматический фейловер «на борту» Тарантула — RAFT.
>  
> Это прекрасное событие, однако у него есть некоторые недостатки:
> 
> - Беспроблемные гарантированные выборы возможны только если число участников выборов нечётное. Или число кворума больше половины числа участников на 1. Для 2 — это 2. Для 3 это 2. Для 4 это 3.
>  
> Кроме того ещё несколько вводных в виде F.A.Q:
>  
> Q: Для чего пользователи ставят репликасет в нескольких ДЦ?
> A: Чтобы при недоступности одного (или нескольких) ДЦ сервис продолжал работу.
>  
> Q: Если сервис располагается в X датацентрах, умерли все кроме одного последнего. Хочет ли пользователь чтоб его сервис был доступен клиентам?
> A: Безусловно
>  
> Q: Какая инсталляция по нескольким ДЦ самая популярная?
> A: Инсталляция на 2 независимых ДЦ (минимальный случай резервирования, экономически самый дешёвый)
>  
>  
> Если порефлексировать над этими вводными, то мы можем сформулировать требования к «идеальному» фейловеру:
>  
> - Работоспособность сервиса должна сохраняться «до последнего ДЦ»
> - Из предыдущего пункта следует необходимость поддержки «режима деградации» — по аналогии с режимом деградациии в RAID: отключили винчестер, избыточность исчезла, но RAID продолжает работу
> - Работоспособность сервиса не должна «предпочитать» чётные/нечётные числа, а должна сохраняться при снижении числа работоспособных узлов от N до 1.
>  
>  
> Исходя из перечисленного, я вижу RAFT — это только подузел такого механизма, а над ним действуют какие-то правила, которые плавно снижают кворум, выводя из игры недоступные узлы, вплоть до 1 (кворума нет, остался последний боец).
>  
> Очевидно (мне очевидно, я могу ошибаться), что такой фейловер невозможен, если только сами узлы будут решать кто главный: рано или поздно ситуация что кластер разделился на две независимые половины, каждая со своим главным — произойдёт.
>  
> Если взглянуть на многие пользовательские сервисы, то увидим, что пользователи заходят на них через одну точку входа: на mail.ru — через адрес mail.ru. На сервис банка — через адрес банка. И так далее. Возможно, если разместить stateful мониторы в этих точках, то подобный фейловер можно реализовать?
>  
> Есть у кого-то мысли как построить подобный фейловер?
>  
> --
> Дмитрий Обухов

-- 
Konstantin Osipov, Moscow, Russia


More information about the Tarantool-discussions mailing list