Удаление дубликатов

В данной статье рассмотрен пример создания и выполнения задачи ETL с удалением на выходе дублирующихся значений.

Предполагается наличие в репозитории трех таблиц: T_Source, T_Destination и T_Duplicate. Структура таблиц должна быть идентичная, среди полей имеется поле с идентификатором «Value», по этому полю будет осуществляться проверка дубликатов. Также в репозитории должна быть создана задача ETL с идентификатором «ETLTASKS». При выполнении указанного ниже примера в задаче ETL создается четыре объекта: источник репозитория, преобразователь «Удаление дубликатов» и два приемника (в один поступают уникальные данные, во второй - дубликаты). Для всех объектов устанавливаются необходимые свойства, настраиваются связи:

После создания и сохранения объектов происходит выполнение задачи ETL. Однотипный код, применяемый к различным объектам, вынесен в отдельные процедуры/функции.

Пример

См. также:

Примеры | IEtlPlainDataDeduplicate