TSQL-Tasks: Колоночные индексы.

В MS SQL 2012 появился новый вид индексов - колоночные индексы. Эти индексы помогают лучше оптимизировать запросы некоторых видов к таблицам с большим числом строк. Колоночные индексы помогают оптимизировать запросы, в которых используется группировка и агрегирующие функции. А также запросы к таблицам с большим числом столбцов, в случае, когда в запросе используется значительно меньший набор столбцов. Данный вид индексов полезен при разработке хранилищ данных, в которых есть громадные таблицы, используется схема данных типа звезда.

Почему же колоночные индексы так называются? Данные в этих индесах хранятся не построчно, а векторно. Представим, что у нас есть таблица со столбцами t1, t2, t2, со строками Row1, Row2, Row3, Row4. В обычном индексе эти столбцы будут храниться так:

[ Row1 (t1, t2, t3) ], [ Row2 (t1, t2, t3) ], [ Row3 (t1, t2, t3) ], [ Row4 (t1, t2, t3) ]

Это классический пример построчного хранения данных. В частности, если в запросе требуется вернуть столбцы t1, t3, то столбец t2 все равно приходится читать. Он между t1 и t3.

В случае, если столбцы t1, t2, t3 входят в колоночный индекс, то хранение данных будет таким:

[(Row1, t1), (Row2, t1), (Row3, t1), (Row4, t1)], [(Row1, t2), (Row2, t2), (Row3, t2), (Row4, t2)], [(Row1, t3), (Row2, t3), (Row3, t3), (Row4, t3)]

Понятно, что если требуется читать не все столбцы таблицы, а только часть из них, то при работе с колоночным индексом не требуется делать лишних операций чтения. В результате на больших объемах скорость многих запросов может вырастать на порядок. Продемонстрируем это на примере. Создадим таблицу:

if object_id ( N'dbo.DataVal', N'U' ) is not null

begin

; throw 50000, 'Таблица dbo.DataVal уже существует в базе данных.', 1

return

end

create table dbo.DataVal

(

iItemId int identity ( 1, 1 ) not null,

dtDate date not null,

vcVal1 money not null,

vcVal2 money not null,

vcVal3 money not null,

vcVal4 money not null,

constraint PK_Data_iItemId primary key clustered ( iItemId asc ) on [PRIMARY]

) on [PRIMARY]

Наполним таблицу тестовыми данными:

insert into dbo.DataVal with ( tablock ) ( dtDate, vcVal1, vcVal2, vcVal3, vcVal4 )

select

dateadd ( [dd], abs ( binary_checksum ( newid () ) ) / power ( 10, 8 ), '2014-01-01' ),

abs ( binary_checksum ( newid () ) ) / power ( 10., 5 ),

abs ( binary_checksum ( newid () ) ) / power ( 10., 5 )

from

master.dbo.spt_values tab1

cross join

master.dbo.spt_values tab2

go 2

Изучим производительность такого запроса: