szeptember 2015 havi bejegyzések

Linked szerver MySQL-re

Nem régiben találkoztam egy érdekes problémával. Felhasználók linked szerveren keresztül futtattak mindenféle mysql lekérdezést, amiktől időnként eldőlt a mysql. A probléma a “mysql működésében volt”. Ez így csúnya, de nehéz szebben kifejezni. A lényeg, hogy a mysql default izolációs szintje a REPEATABLE READ, ami újraolvasásnál garantálja, hogy a kiolvasott érték másodjára is ugyanaz lesz, illetve hogy alapból nem lock-okat használ, mint az MS, hanem sorverziózik, mint az Oracle. MS-nél ez a SNAPSHOT izolációs szint, amivel a dirty read elkerülhető, ugyanis a sorveziózásnak köszönhetően a sornak egyszerre több verziója van. Az eredeti, és a módosult session-önként. Amíg a tranzakció nincs commit-olva, addig mindenki az eredetit látja. A hátránya, hogy overhead teljesítményben és helyügyileg is (a mysql-nél az erre szánt hely fogyott el), hiszen másolni kell a sorokat és adott ideig megtartani.

Ha az üzleti igények megengedik, akkor egy csapásra megoldja a problémát READ UNCOMMITTED izolációs szint beállítása a mysql-ben az adott linked szerveres session-re. Ezt elég 1 helyen, az ODBC driverben átírni. Ki kell keresni az “Initial Statement” mezőt és beírni a set session transaction isolation level read uncommitted bűvös szavakat.

Nézzünk róla egy képet:
01_mysql_default_transaction_isoldation_level

Ellenőrizni több utasítással is lehet, egy lehetséges (persze mysql-ben): SELECT @@session.tx_isolation;

Reklámok

Hiányzó index megkerülése

Előfordul olyan eset, amikor kéne egy index, de nincs. Feltenni nem tudjuk, nem akarjuk, nem lehet, stb, a lényeg, hogy nem is lesz, de a query-t fel kellene gyorsítani. Ilyen esetben meg lehet próbálkozni hasonlóságokat keresni az adatbázisban, amikre támaszkodva kicsit másképp, de megírható az sql kód, ami ugyanazt az eredményhalmazt adja vissza, viszont teljesítményben nagyságrendekkel felülmúlja azt.

Kifejtem egy egyszerű példán keresztül, aztán le is demózzuk. Van egy transactions táblánk sok sorral az alábbi mezőkkel:
– id: egyedi azonosító, folyamatosan növekvő sorszámmal
– user_id: adott user-hez tartozik a tranzakció
– amount: a tranzakció összege
– create_date: a tranzakció dátuma (kb. adatbázisba kerülés időpontja)
– egyéb, számunkra most lényegtelen oszlopok

A táblán 1 index van, az id mezőn, ami primary key és clustered index is.

A feladat, hogy számoljuk meg adott időponttól a felhasználói tranzakciókat. Ebben az esetben a lekérdezés ez lenne:

select
	count(*) as cnt
from transactions
where create_date >= @datum

Index híján ebből clustered index scan lesz, ami jelen esetben egyenlő a teljes tábla beolvasásával és ez nem szokott hatékony lenni. Ilyenkor jöhet az ötletelés, az ötlet pedig itt a hasonlóságon alapul. Az id és a create_date mezők hasonlítanak egymásra abban, hogy mindketten kb. növekvő sorrendben haladnak. Nézzünk erről egy képet:

missing_index_01

Azokat a sorokat keressük, ahol a create_date >= ‘2010-01-17’ -el. A zöld vonal alatti rész a miénk és itt már látszik, hogy a 16-os id-tól kellenének a sorok. Ebben az esetben a lekérdezésünk már így nézne ki:

select
	count(*) as cnt
from transactions
where create_date >= '2010-01-17'
  and id >= 16
group by user_id

Ezzel már sikerül kizárni a tábla 3/4-ed részét ami sok sornál jelentős adatmennyiség. Mivel a gyakorlatban az adatbázisokban a dátum nem szokott monoton nőni, ezért a dátumszűrést célszerű továbbra is meghagyni. A következő feladat megtalálni a 16-os id-t. Ezt olcsón a logaritmikus kereséssel tehetjük meg.

A terv készen is lenne, de még meg kell oldani, hogy a gyakorlatban az adatbázisban a dátumok nem monoton nőnek, hanem egyszer-egyszer nagyobb időpont kerül a kisebb elé, bár kis időkülönbség van köztük. Pl: a fenti képen a 16-os és a 18-es id dátumait megcseréljük. Ilyenkor van az, hogy kicsit alá kell lőni a dátumnak és nem azt az id-t keressük, amihez a ‘2010-01-17’ tartozik, hanem a két nappal azelőtti, ‘2010-01-15’, ami a 14-es id. Ekkor a lekérdezés már így fog kinézni:

select
	count(*) as cnt
from transactions
where create_date >= '2010-01-17'
  and id >= 14
group by user_id

Ez tök jó, de mi van, ha nincs ‘2010-01-15’-ös dátum? Erre kell megadni egy tartománykeresést. Pl: Olyan id-t keresünk, ami ‘2015-01-12’ és ‘2015-01-15’ között van. Az SQL szerver pedig meg fogja találni a 11-14 id-k valamelyikét, nekünk mindegy is, hogy melyiket, a lényeg, hogy legyen egy id-nk, amivel a tábla nagy részét ki lehet zárni a where feltételben.

 

Egy millió soron fogunk dolgozni, de ennek a sokkal többszörösén is jól használható a logika, sőt, minél több a sor, valószínűleg annál nagyobb a nyereség. És akkor a demó.

Hozzuk létre az objektumokat és adatokat:

use [tempdb]
go

if object_id('dbo.transactions', 'U') is not null
	drop table dbo.transactions
go

if object_id('dbo.usp_transactions_count_by_date_with_hop_search', 'P') is not null
	drop procedure dbo.usp_transactions_count_by_date_with_hop_search
go

if object_id('dbo.usp_transactions_count_by_date', 'P') is not null
	drop procedure dbo.usp_transactions_count_by_date
go

if object_id('dbo.v_proc_stat', 'V') is not null
	drop view dbo.v_proc_stat
go

-- Később ezt a view-t kérdezzük le, egyetlen szerepe, a blog hosszának csökkentése.
create view dbo.v_proc_stat
as
	select top 10
		p.[name],
		s.[execution_count],
		s.[total_elapsed_time],
		s.[total_worker_time],
		s.[total_logical_reads],
		s.[total_logical_writes],
		s.[plan_handle]
	from sys.[procedures] p
	join sys.[dm_exec_procedure_stats] s
		on p.[object_id] = s.[object_id]
	where p.[name] in ('usp_transactions_count_by_date', 'usp_transactions_count_by_date_with_hop_search')
	order by p.[name]
go

-- Tábla készítés
create table dbo.transactions (
	id int not null,
	user_id int not null,
	amount int not null constraint df_transactions_amount default 0,
	create_date datetime not null,
	char_field char(40) not null
	constraint pk_transactions primary key clustered (id)
)
go

-- Adatok betöltése
;with cte as (
	select top 1000000
		row_number() over(order by (select null)) as id
	from sys.[columns] c1
	cross join sys.[columns] c2
	cross join sys.[columns] c3
	cross join sys.[columns] c4
	cross join sys.[columns] c5
	cross join sys.[columns] c6
	cross join sys.[columns] c7

)


insert into [dbo].[transactions] with (tablock)
    ( [id] ,
     [user_id] ,
     [amount] ,
     [create_date],
		 [char_field]
    )
select
	id,
	[id] % 20000 + 1 as user_id,
	left(abs(checksum(newid())),4) as amount,
	dateadd(mi, id, '2010-01-01 00:00:00.000') as create_date,
	'' as charfield
from [cte]

go

-- Ellenőrzés
select top 20 * 
from [dbo].[transactions] 
where [id] >= 499995 
order by [id] 
go

-- Dátumok növekvő sorrendjének megbontása
;with cte as (
	select top 10 
		[id], 
		create_date,
		1000009 - id as upd_id
	from [dbo].[transactions] 
	where id >= 500000
	order by [id]
)
 
update c1
set c1.create_date = c2.create_date
from cte c1 
join cte c2 
	on c1.[id] = c2.[upd_id]

go
-- Ellenőrzés
select top 20 * 
from [dbo].[transactions] 
where [id] >= 499995 
order by [id] 
go

-- Tárolt eljárás logaritmikus kereséssel
create procedure dbo.usp_transactions_count_by_date_with_hop_search
	@search_date datetime 
as

	set nocount on;
	
	declare @search_date_from datetime = dateadd(mi, - 15, @search_date)
	declare @search_date_to datetime = dateadd(mi, - 8, @search_date)

	/*
	select 
		@search_date as search_date, 
		@search_date_from as search_date_from, 
		@search_date_to as search_date_to
	*/

	declare @hop int = 0
	declare @max_hop int = 30

	declare @min_id int 
	declare @max_id int
	declare @tmp_id int
	declare @result_id int

	declare @min_date datetime
	declare @max_date datetime
	declare @tmp_date datetime

	declare @end int = 0

	select top 1
			@min_id = [id], 
			@min_date = [create_date]
	from [dbo].[transactions]
	order by [id] asc


	select top 1
			@max_id = [id], 
			@max_date = [create_date]
	from [dbo].[transactions]
	order by [id] desc	while (@end = 0)
	begin
		select top 1 
			@tmp_id = [id],
			@tmp_date = [create_date]
		from [dbo].[transactions]
		where [id] >= ((@max_id - @min_id) / 2) + @min_id
		order by [id] 

		if @search_date_from between @min_date and @tmp_date 
		begin
			set @max_date = @tmp_date
			set @max_id = @tmp_id
		end
		else if @search_date_from between @tmp_date and @max_date
		begin
			set @min_date = @tmp_date
			set @min_id = @tmp_id
		end

		if @min_date between @search_date_from and @search_date_to
		begin
			set @end = 1
			set @result_id = @min_id
		end
		else if @max_date between @search_date_from and @search_date_to
		begin
			set @end = 1
			set @result_id = @max_id
		end

		set @hop += 1;

		if @hop >= @max_hop
		begin
			set @end = 1;
			set @result_id = 0;
		end
	end

	/*
	select 
		@hop as hop, 
		@max_hop as max_hop,
		@result_id as result_id
	*/

	select 
		count(*) as cnt
	from [dbo].[transactions] 
	where [id] >= @result_id
		and [create_date] >= @search_date
go

-- Tárolt eljárás "normál" kereséssel
create procedure dbo.usp_transactions_count_by_date
	@search_date datetime
as
	set nocount on;

	select 
		count(*) as cnt
	from [dbo].[transactions] 
	where [create_date] >= @search_date
go

Futtasuk az első tesztünket és lássuk az eredményt is:

/* id = 500002: tábla közepe */
exec dbo.[usp_transactions_count_by_date_with_hop_search] @search_date = '2010-12-14 05:27:00.000'
go 10
exec dbo.[usp_transactions_count_by_date] @search_date = '2010-12-14 05:27:00.000'
go 10

select * from v_proc_stat
go

03_index_search

Látszik, hogy kicsit olcsóbb volt a logaritmikus kereséses módszer.
Töröljük a planokat, aztán jöjjön a következő teszt, a tábla végéről keresünk:

-- select * from v_proc_stat plan_handle mezőjéből kell behelyettesíteni a varbinarit
DBCC FREEPROCCACHE (0x05001B00CC7C5D4380584F3A0200000001000000000000000000000000000000000000000000000000000000) WITH NO_INFOMSGS
DBCC FREEPROCCACHE (0x05001B00935869421015C7C50100000001000000000000000000000000000000000000000000000000000000) WITH NO_INFOMSGS
go

/* id = 999892: tábla vége */
exec dbo.[usp_transactions_count_by_date_with_hop_search] @search_date = '2011-11-26 09:01:00.000'
go 10
exec dbo.[usp_transactions_count_by_date] @search_date = '2011-11-26 09:01:00.000'
go 10

select * from v_proc_stat
go

Nézzük az eredményt:
04_index_search
Láthatjuk, hogy sokkal, de sokkal hatékonyabb volt a logaritmikus keresés.
Nézzük tesztet a tábla eleljéről is:

DBCC FREEPROCCACHE (0x05001B00CC7C5D4380584F3A0200000001000000000000000000000000000000000000000000000000000000) WITH NO_INFOMSGS
DBCC FREEPROCCACHE (0x05001B00CC7C5D4380584F3A0200000001000000000000000000000000000000000000000000000000000000) WITH NO_INFOMSGS
go

/* id = 10: tábla eleje */
exec dbo.[usp_transactions_count_by_date_with_hop_search] @search_date = '2010-01-01 00:10:00.000'
go 10
exec dbo.[usp_transactions_count_by_date] @search_date = '2010-01-01 00:10:00.000'
go 10

select * from v_proc_stat
go

Az eredmény:
05_index_search
Láthatjuk, hogy itt kicsit rosszabb volt a logaritmikus keresés.

Nézzük egy összesített tesztet is:

DBCC FREEPROCCACHE (0x05001B00CC7C5D4380584F3A0200000001000000000000000000000000000000000000000000000000000000) WITH NO_INFOMSGS
DBCC FREEPROCCACHE (0x05001B00935869421015C7C50100000001000000000000000000000000000000000000000000000000000000) WITH NO_INFOMSGS
go


exec dbo.[usp_transactions_count_by_date_with_hop_search] @search_date = '2010-12-14 05:27:00.000'
go 10
exec dbo.[usp_transactions_count_by_date] @search_date = '2010-12-14 05:27:00.000'
go 10

exec dbo.[usp_transactions_count_by_date_with_hop_search] @search_date = '2011-11-26 09:01:00.000'
go 10
exec dbo.[usp_transactions_count_by_date] @search_date = '2011-11-26 09:01:00.000'
go 10

exec dbo.[usp_transactions_count_by_date_with_hop_search] @search_date = '2010-01-01 00:10:00.000'
go 10
exec dbo.[usp_transactions_count_by_date] @search_date = '2010-01-01 00:10:00.000'
go 10


select * from v_proc_stat
go

Az eredmény:
06_index_search

Itt is jelentős teljesítmény növekedést értünk el.

A fenti példákból jól látszott, hogy akkor volt sokkal hatékonyabb a logaritmikus kereséses módszer a teljes táblaolvasással szemben, ha a tábla egy jelentős részét sikerült kizárni. Én pont így használom az  sok-sok millió soros táblákon és marha gyors. A scriptből többet is ki lehet hozni, aki akarja, annak hajrá! 🙂