From mboxrd@z Thu Jan 1 00:00:00 1970 Return-Path: Received: from [87.239.111.99] (localhost [127.0.0.1]) by dev.tarantool.org (Postfix) with ESMTP id 34C766ECE3; Fri, 14 Jan 2022 13:20:31 +0300 (MSK) DKIM-Filter: OpenDKIM Filter v2.11.0 dev.tarantool.org 34C766ECE3 DKIM-Signature: v=1; a=rsa-sha256; c=relaxed/simple; d=tarantool.org; s=dev; t=1642155631; bh=qz3TTpMOUcLI/ouBmv6loXtxbwNeKTKNcpnTWE/PhGc=; h=Date:To:Cc:References:In-Reply-To:Subject:List-Id: List-Unsubscribe:List-Archive:List-Post:List-Help:List-Subscribe: From:Reply-To:From; b=b0cxOabCELVGrpStOSXjV8E910+85Cys4RsKBMUInhVX5SB3ffAV66FyzMyXiesXI SEZa341P61/oVdGL7eH3FB4TYFcZrsUI5ZNhduHRpHbXya2X6p/DaHX6Akzf2ZELpo H0Fi7wob560zHYq96/dez18J/udjYqrbEODkg98w= Received: from smtp49.i.mail.ru (smtp49.i.mail.ru [94.100.177.109]) (using TLSv1.2 with cipher ECDHE-RSA-AES256-GCM-SHA384 (256/256 bits)) (No client certificate requested) by dev.tarantool.org (Postfix) with ESMTPS id 5BC896ECE3 for ; Fri, 14 Jan 2022 13:20:28 +0300 (MSK) DKIM-Filter: OpenDKIM Filter v2.11.0 dev.tarantool.org 5BC896ECE3 Received: by smtp49.i.mail.ru with esmtpa (envelope-from ) id 1n8Jh5-0007St-IQ; Fri, 14 Jan 2022 13:20:28 +0300 Message-ID: <4e7c8864-8692-9701-388c-5fbd94db9998@tarantool.org> Date: Fri, 14 Jan 2022 13:20:27 +0300 MIME-Version: 1.0 User-Agent: Mozilla/5.0 (Macintosh; Intel Mac OS X 10.15; rv:91.0) Gecko/20100101 Thunderbird/91.4.1 Content-Language: ru To: Vladislav Shpilevoy , Cyrill Gorcunov Cc: tml References: <20211230202347.353494-1-gorcunov@gmail.com> <20211230202347.353494-3-gorcunov@gmail.com> <1641824923.419591282@f764.i.mail.ru> <77b533c1-0c2f-c11d-0aa6-4109674a7025@tarantool.org> <63f0bdcc-4ab1-6fa9-411f-ddce6e0aa215@tarantool.org> <5cc5a52d-e6a7-b4cc-d2a1-23a9b1758288@tarantool.org> <1e296ade-8121-4ba3-7762-5695729544c3@tarantool.org> In-Reply-To: <1e296ade-8121-4ba3-7762-5695729544c3@tarantool.org> Content-Type: text/plain; charset=UTF-8; format=flowed Content-Transfer-Encoding: 8bit X-4EC0790: 10 X-7564579A: EEAE043A70213CC8 X-77F55803: 4F1203BC0FB41BD9CD668969C51240A4E46AFC9489BAD7D1B9372C8EC8C10A71182A05F5380850400B0D324CE14EFC3BE5403F48EFDC0CA420E21DFFDB13893B6ED2456F4D69A43E X-7FA49CB5: FF5795518A3D127A4AD6D5ED66289B5278DA827A17800CE77EB2E345998A721DEA1F7E6F0F101C67BD4B6F7A4D31EC0BCC500DACC3FED6E28638F802B75D45FF8AA50765F79006379EF8ECDDDA8246E28638F802B75D45FF36EB9D2243A4F8B5A6FCA7DBDB1FC311F39EFFDF887939037866D6147AF826D8E27B0453E0894FEBC65869B15069F73B117882F4460429724CE54428C33FAD305F5C1EE8F4F765FC8C7ADC89C2F0B2A5A471835C12D1D9774AD6D5ED66289B52BA9C0B312567BB23117882F44604297287769387670735201E561CDFBCA1751F6FD1C55BDD38FC3FD2E47CDBA5A96583BA9C0B312567BB2376E601842F6C81A19E625A9149C048EEC24E1E72F37C03A04DC33E588678F033D8FC6C240DEA7642DBF02ECDB25306B2B78CF848AE20165D0A6AB1C7CE11FEE3AD0E433DBF1FBFA39735652A29929C6CC4224003CC836476EA7A3FFF5B025636E2021AF6380DFAD1A18204E546F3947CB11811A4A51E3B096D1867E19FE1407959CC434672EE6371089D37D7C0E48F6C8AA50765F7900637C970FD8DF19C51D2EFF80C71ABB335746BA297DBC24807EABDAD6C7F3747799A X-C1DE0DAB: 0D63561A33F958A56E0CEE0F72DBA4DDDCACD65634A7F65932A5435E09B9BC33D59269BC5F550898D99A6476B3ADF6B47008B74DF8BB9EF7333BD3B22AA88B938A852937E12ACA75C4D20244F7083972410CA545F18667F91A7EA1CDA0B5A7A0 X-C8649E89: 4E36BF7865823D7055A7F0CF078B5EC49A30900B95165D343FB425EC7F4D4A4B5A1BB36D62778BE0FC65C5370C3483BCAECFDCD03DF4510E9D2F64C6A14C61A81D7E09C32AA3244CD2EF7E4F41E9536DBD6C075E3D5EDD453FD9C8CA1B0515E0FACE5A9C96DEB163 X-D57D3AED: 3ZO7eAau8CL7WIMRKs4sN3D3tLDjz0dLbV79QFUyzQ2Ujvy7cMT6pYYqY16iZVKkSc3dCLJ7zSJH7+u4VD18S7Vl4ZUrpaVfd2+vE6kuoey4m4VkSEu530nj6fImhcD4MUrOEAnl0W826KZ9Q+tr5ycPtXkTV4k65bRjmOUUP8cvGozZ33TWg5HZplvhhXbhDGzqmQDTd6OAevLeAnq3Ra9uf7zvY2zzsIhlcp/Y7m53TZgf2aB4JOg4gkr2biojieoUMt/u5LjVbLp9abu+nQ== X-Mailru-Sender: 11C2EC085EDE56FA38FD4C59F7EFE407DFE9EF6EDEA38A8C26DEAF2B91F12A562077D099FD2AFC046BB2E709EA627F343C7DDD459B58856F0E45BC603594F5A135B915D4279FF0574198E0F3ECE9B5443453F38A29522196 X-Mras: Ok Subject: Re: [Tarantool-patches] [PATCH v27 2/3] qsync: order access to the limbo terms X-BeenThere: tarantool-patches@dev.tarantool.org X-Mailman-Version: 2.1.34 Precedence: list List-Id: Tarantool development patches List-Unsubscribe: , List-Archive: List-Post: List-Help: List-Subscribe: , From: Serge Petrenko via Tarantool-patches Reply-To: Serge Petrenko Errors-To: tarantool-patches-bounces@dev.tarantool.org Sender: "Tarantool-patches" 14.01.2022 02:32, Vladislav Shpilevoy пишет: > > On 13.01.2022 11:13, Serge Petrenko wrote: >> >> 13.01.2022 00:30, Vladislav Shpilevoy пишет: >>> Hi! >>> >>> On 12.01.2022 15:01, Serge Petrenko wrote: >>>> 11.01.2022 23:39, Cyrill Gorcunov пишет: >>>>> On Mon, Jan 10, 2022 at 05:28:43PM +0300, Serge Petrenko wrote: >>>>>>      Hi! Thanks for the patch! >>>>>>           box_issue_promote() and box_issue_demote() need fine-grained locking >>>>>>      anyway. >>>>>>      Otherwise it’s possible that promote() is already issued, but not yet >>>>>>      written to WAL, and some >>>>>>      outdated request is applied by applier at that exact moment. >>>>> True. And in previous series Vlad has asked to not move in code which is >>>>> not covered by tests. So I think this is a task for the next part. Currently >>>>> we cover only the race between appliers. >>>> Let's ask Vlad, then. >>>> >>>> I feel like we should fix this now, not waiting for a full fine-grained locking >>>> patch. >>>> >>>> First of all, this is a known bug (and fine-grained locking was meant to >>>> cover everything we don't know of, just in case). >>> I am not sure I understand what you both are talking about here. Sergey, do >>> you mean 'fine-grained locking' as big critical sections covering a lot of >>> code at once or as many small critical sections? >> I mean "locking every limbo function", like Cyrill tried to do that in the >> previous patch version. > Давай по-русски, тут какое-то недопонимание. > > В старых версиях Кирилл пытался лочить слишком мелко. Протестировать такое было > тяжеловато. Потому та версия не зашла - тестов было 0. В общем после обсуждения в чате я понял твою идею. В предпоследней версии (26) уже не было таких мелких локов. Там лочились функции лимба целиком. > >>> I am confused because of this sentence. "Cover everything we don't know" is >>> rather opposite to fine-grained locking. I voted for big locks because >>> apparently it was too hard to implement smaller more precise locks. >>> >>>> Besides, simply locking issue_promote/issue_demote should be >>>> much easier than implementing the fine-grained locking patch. >>> Yes. I remember the proposal was to lock entire promote/demote and other >>> qsync/raft functions from beginning to end. Because it should be relatively >>> easy. I didn't look at the code in this patch though, can't comment it. >> This particular patch only locks applier_apply_synchro_request(), txn_limbo_process() >> and txn_limbo_is_replica_outdated(), so that applier cannot apply a request from an >> already stale term. >> >> My proposal is to lock box_issue_promote() and box_issue_demote() >> (not whole promote/demote) to get rid of another race: when promote is written >> to WAL, but not yed processed. > Почему не лочить целиком promote/demote? Может если локи были бы шире, то не > нужно было бы и на триггеры портировать все как в новом тикете? Как ты и написал в чате, залочить их прямо целиком не получится. Там есть место, где мы ждём применения CONFIRM/ROLLBACK/etc. Лочить какой-то большой кусок промоута (но не весь промоут) я пока смысла не вижу. Может получиться что там опять какой-то дедлок будет или ещё что-то, и мы будем кучу времени с этим разбираться (непонятно ради чего). В общем, Кирилл, я предлагаю в этом патче добавить лок на весь box_issue_promote()/demote(). Выглядит так, что это не добавит проблем, зато это точно закроет багос с тем, что после отправленного на запись PROMOTE апплаер может применить реквест из уже устаревшего терма. Нужно будет и тест на это сделать, но он выглядит довольно просто: сделать на ноде 1 промоут, на ноде 2 сделать error.injection.set(ERRINJ_WAL_WRITE_COUNTDOWN, 2) (или как там надо чтобы терм записался, а промот завис) box.ctl.promote() на ноде 1 что-нибудь вставить в синхронный спейс на ноде 2 убрать ерриндж и проверить что вставка в спейс не прошла. С тестом на демоут чуть сложнее будет, потому что он только на мастере может работать. > >> What you're talking about is what I call "fine grained locking", and it turned >> out rather hard to implement, so Cyrill abandoned this idea for now. > fine grained значит "мелко-зернистый". То есть локи были бы на мелкие куски кода, > как сначала Кирилл пытался сделать. Я как раз за наоборот топлю - блокировать > сразу большие куски, а не "мелко". Ага, теперь понятно. -- Serge Petrenko