From mboxrd@z Thu Jan 1 00:00:00 1970 Return-Path: Received: from [87.239.111.99] (localhost [127.0.0.1]) by dev.tarantool.org (Postfix) with ESMTP id 5C7196ECE3; Fri, 14 Jan 2022 13:33:48 +0300 (MSK) DKIM-Filter: OpenDKIM Filter v2.11.0 dev.tarantool.org 5C7196ECE3 DKIM-Signature: v=1; a=rsa-sha256; c=relaxed/simple; d=tarantool.org; s=dev; t=1642156428; bh=jTEoz3VUSW6Ttt14l+iqPtt6hNNg+6ecwI1LiXhx08g=; h=Date:To:Cc:References:In-Reply-To:Subject:List-Id: List-Unsubscribe:List-Archive:List-Post:List-Help:List-Subscribe: From:Reply-To:From; b=o8ykjc34jipiQwUi/7gdyz+l+84R1PFA2TigD0z3MWoQLP75JpP2pSvy0h1UoV00r 2SZivc0fz4Vzc+fSWV1EvgylodW6C0mfOzYx5+dvx4TQxfb5I/1TDC3tygVCzdj33p 7yqxMu7haZQHc3pEzRP+2IE7NK8jMYtEm1bYiqUA= Received: from mail-lf1-f45.google.com (mail-lf1-f45.google.com [209.85.167.45]) (using TLSv1.3 with cipher TLS_AES_128_GCM_SHA256 (128/128 bits) key-exchange X25519 server-signature RSA-PSS (2048 bits) server-digest SHA256) (No client certificate requested) by dev.tarantool.org (Postfix) with ESMTPS id 1BD2E6ECE3 for ; Fri, 14 Jan 2022 13:33:47 +0300 (MSK) DKIM-Filter: OpenDKIM Filter v2.11.0 dev.tarantool.org 1BD2E6ECE3 Received: by mail-lf1-f45.google.com with SMTP id b14so10359555lff.3 for ; Fri, 14 Jan 2022 02:33:47 -0800 (PST) X-Google-DKIM-Signature: v=1; a=rsa-sha256; c=relaxed/relaxed; d=1e100.net; s=20210112; h=x-gm-message-state:date:from:to:cc:subject:message-id:references :mime-version:content-disposition:content-transfer-encoding :in-reply-to:user-agent; bh=0j8JVgwuNLFlKUsjC7dGWBgkGiNjrvi+MLPH+xpMS/A=; b=f4MS5U/ylGXtcX0LoA8IulVz5rSXyJBE9uqG3BDln8AejOE5fBIN4F7MEai3V7M2y/ YWEKTkV0qlqEqJcOmBd+PCmLUbjh/jKd4I7799GqmooRPnRV+Phj8V+dMjlyKR3LlfAE EiSJstKfYIC/JhXBjFAW9yK224nnlk+xaI6sWqEAeBq3z2se9rn6b9XMkFwf1ftq7KSv KGt98iYUjNJAUHt08AMs7CQOcCAvadN2MSIWTrmlD0WIeGDpRy3HXKam9BbEAR5OzqQA L7+kCdDSx8hWTlkQ+bJy4E8PbTEXxLjVsYfGItqHaMRMcUQWovzaIUKIHL/pu1MGukNW xOXg== X-Gm-Message-State: AOAM533RCjDt+To/t2L5D/IZD7Zt0EgGc+wik7fpy/jq51PxGpMi4ynM lJcy1QOLv+2getf1Nu2GXu8HpNmOMu0= X-Google-Smtp-Source: ABdhPJwh1ppP4g/udY61dSqYK1inC467MVv8gmeYEd0A9ICKjG6eXlmzrcrqDrsmRvao6zDXhIkVrg== X-Received: by 2002:a05:651c:882:: with SMTP id d2mr5960554ljq.311.1642156425938; Fri, 14 Jan 2022 02:33:45 -0800 (PST) Received: from grain.localdomain ([5.18.251.97]) by smtp.gmail.com with ESMTPSA id g2sm289211ljj.84.2022.01.14.02.33.44 (version=TLS1_3 cipher=TLS_AES_256_GCM_SHA384 bits=256/256); Fri, 14 Jan 2022 02:33:44 -0800 (PST) Received: by grain.localdomain (Postfix, from userid 1000) id 9AE345A0020; Fri, 14 Jan 2022 13:33:43 +0300 (MSK) Date: Fri, 14 Jan 2022 13:33:43 +0300 To: Serge Petrenko Cc: Vladislav Shpilevoy , tml Message-ID: References: <20211230202347.353494-1-gorcunov@gmail.com> <20211230202347.353494-3-gorcunov@gmail.com> <1641824923.419591282@f764.i.mail.ru> <77b533c1-0c2f-c11d-0aa6-4109674a7025@tarantool.org> <63f0bdcc-4ab1-6fa9-411f-ddce6e0aa215@tarantool.org> <5cc5a52d-e6a7-b4cc-d2a1-23a9b1758288@tarantool.org> <1e296ade-8121-4ba3-7762-5695729544c3@tarantool.org> <4e7c8864-8692-9701-388c-5fbd94db9998@tarantool.org> MIME-Version: 1.0 Content-Type: text/plain; charset=utf-8 Content-Disposition: inline Content-Transfer-Encoding: 8bit In-Reply-To: <4e7c8864-8692-9701-388c-5fbd94db9998@tarantool.org> User-Agent: Mutt/2.0.7 (2021-05-04) Subject: Re: [Tarantool-patches] [PATCH v27 2/3] qsync: order access to the limbo terms X-BeenThere: tarantool-patches@dev.tarantool.org X-Mailman-Version: 2.1.34 Precedence: list List-Id: Tarantool development patches List-Unsubscribe: , List-Archive: List-Post: List-Help: List-Subscribe: , From: Cyrill Gorcunov via Tarantool-patches Reply-To: Cyrill Gorcunov Errors-To: tarantool-patches-bounces@dev.tarantool.org Sender: "Tarantool-patches" On Fri, Jan 14, 2022 at 01:20:27PM +0300, Serge Petrenko wrote: ... > > Давай по-русски, тут какое-то недопонимание. > > > > В старых версиях Кирилл пытался лочить слишком мелко. Протестировать такое было > > тяжеловато. Потому та версия не зашла - тестов было 0. > > В общем после обсуждения в чате я понял твою идею. > В предпоследней версии (26) уже не было таких мелких локов. > Там лочились функции лимба целиком. Да, и там вылезало, что некоторые функции реентарные, некоторые переменные надо было переводить в режим read-safe (например, тестирование того, что очередь пуста, хотя мы в этот момент могли лок забрать). там куча проблем повылезала связанная с общей архитектурой. поэтому идею с локами лимба в той форме, в которой мне хотелось ее увидеть, пришлось отложить. > > > > I am confused because of this sentence. "Cover everything we don't know" is > > > > rather opposite to fine-grained locking. I voted for big locks because > > > > apparently it was too hard to implement smaller more precise locks. > > > > > > > > > Besides, simply locking issue_promote/issue_demote should be > > > > > much easier than implementing the fine-grained locking patch. > > > > Yes. I remember the proposal was to lock entire promote/demote and other > > > > qsync/raft functions from beginning to end. Because it should be relatively > > > > easy. I didn't look at the code in this patch though, can't comment it. > > > This particular patch only locks applier_apply_synchro_request(), txn_limbo_process() > > > and txn_limbo_is_replica_outdated(), so that applier cannot apply a request from an > > > already stale term. > > > > > > My proposal is to lock box_issue_promote() and box_issue_demote() > > > (not whole promote/demote) to get rid of another race: when promote is written > > > to WAL, but not yed processed. > > Почему не лочить целиком promote/demote? Может если локи были бы шире, то не > > нужно было бы и на триггеры портировать все как в новом тикете? > > Как ты и написал в чате, залочить их прямо целиком не получится. Там есть > место, где мы ждём применения CONFIRM/ROLLBACK/etc. > > Лочить какой-то большой кусок промоута (но не весь промоут) я пока смысла не > вижу. Может получиться что там опять какой-то дедлок будет или ещё что-то, и мы > будем кучу времени с этим разбираться (непонятно ради чего). > > В общем, Кирилл, я предлагаю в этом патче добавить лок на весь > box_issue_promote()/demote(). Выглядит так, что это не добавит проблем, > зато это точно закроет багос с тем, что после отправленного на запись > PROMOTE апплаер может применить реквест из уже устаревшего терма. Добро! > Нужно будет и тест на это сделать, но он выглядит довольно просто: > сделать на ноде 1 промоут, на ноде 2 сделать > error.injection.set(ERRINJ_WAL_WRITE_COUNTDOWN, 2) > (или как там надо чтобы терм записался, а промот завис) box.ctl.promote() > на ноде 1 что-нибудь вставить в синхронный спейс > на ноде 2 убрать ерриндж и проверить что вставка в спейс не прошла. > > С тестом на демоут чуть сложнее будет, потому что он только на мастере > может работать. Хорошо, попробую. Я пока начал переводить текущйи тест в формат luatest, ну когда время позволяет. > > > What you're talking about is what I call "fine grained locking", and it turned > > > out rather hard to implement, so Cyrill abandoned this idea for now. > > fine grained значит "мелко-зернистый". То есть локи были бы на мелкие куски кода, > > как сначала Кирилл пытался сделать. Я как раз за наоборот топлю - блокировать > > сразу большие куски, а не "мелко". > > Ага, теперь понятно.