В этой статье:

Базовые свойства

Редактирование входа

Редактирование выхода

Редактирование выхода с ошибочными записями

Настройки

Проверяемые поля

Дедубликатор

Удаление дубликатов

Преобразователь «Удаление дубликатов» - объект, выполняющий удаление дубликатов в данных. На входе объекта один источник, на выходе - два приёмника. Данная операция производит удаление дублирующих значений на основе заданного индекса. Для определения удаляемых строк формируется условие, на основании которого происходит отбор записей.

Для эффективного удаления дубликатов данные источника должны быть упорядочены по индексу. После выполнения операции данные остаются упорядоченными.

При использовании преобразователя «Удаление дубликатов» из таблицы:

Key Date Value
4 Summer 1111
1 Winter 2222
5 Summer 3333
2 Winter 4444
4 Summer 1111
6 Summer 5555
5 Summer 3333
3 Winter 6666

можно получить таблицу без дублирования:

Key Date Value
4 Summer 1111
1 Winter 2222
5 Summer 3333
2 Winter 4444
6 Summer 5555
3 Winter 6666

и таблицу из удаленных дубликатов:

Key Date Value
4 Summer 1111
5 Summer 3333

Таким образом удаление дубликатов производилось, если одновременно совпадали значения всех полей.

Базовые свойства

В базовых свойствах задается наименование объекта, идентификатор и примечание.

Редактирование входа

Для задания списка полей и связи для входа используйте страницу «Редактирование входа».

 

На странице доступны следующие параметры:

Идентификатор

Связь с объектом

Поля

Примечание. Скриншот сделан на примере мастера редактирования приёмника данных «Репозиторий».

Редактирование выхода

Для задания списка полей и связи для выхода используйте страницу «Редактирование выхода».

На странице доступны следующие настройки:

Идентификатор

Связь с объектом

Поля

Примечание. Скриншот сделан на примере мастера редактирования источника данных «Репозиторий».

Редактирование выхода с ошибочными записями

На странице «Редактирование выхода с ошибочными записями» задается связь с приёмником, в который будет экспортироваться информация об ошибочных записях, которые не были обработаны преобразователем:

Укажите идентификатор выхода с ошибками и выберите доступную связь с объектом-приёмником, в который будет экспортироваться информация об ошибочных записях.

Настройки

Кнопка «Настройки» позволяет задать дополнительные настройки, которые будут применяться при возникновении ошибочных записей:

Укажите максимальное количество ошибочных записей, информация о которых будет экспортирована. По умолчанию установлено значение «-1», при этом экспортируется информация обо всех ошибочных записях.

Примечание. При наличии большого количества ошибочных записей, экспорт информации о них может замедлить выполнение задачи ETL.

Если задано максимальное количество выводимых записей, то также выберите действие, выполняемо при превышении этого количества. По умолчанию вывод записей прекращается.

Примечание. Скриншот сделан на примере мастера редактирования преобразователя данных «Разделение».

Проверяемые поля

На странице «Проверяемые поля» укажите входные поля, значения которых будут проверяться на дублирование.

Для создания списка проверяемых полей:

Для удаления выбранного поля из списка проверяемых нажмите кнопку «Удалить».

Если ни одно проверяемое поле не задано, то при переходе на следующую страницу будет запрошено подтверждение выполняемого действия.

Дедубликатор

На странице «Дедубликатор» задайте условие, на основании которого происходит отбор записей для удаления.

Формирование условия производится в окне редактора, для вызова которого нажмите кнопку .

Правило отбора дубликатов определяется переключателем в группе «Правила отбора»:

См. также:

Преобразователи данных