В этой статье:
Преобразователь «Удаление дубликатов» - объект, выполняющий удаление дубликатов в данных. На входе объекта один источник, на выходе - два приёмника. Данная операция производит удаление дублирующих значений на основе заданного индекса. Для определения удаляемых строк формируется условие, на основании которого происходит отбор записей.
Для эффективного удаления дубликатов данные источника должны быть упорядочены по индексу. После выполнения операции данные остаются упорядоченными.
При использовании преобразователя «Удаление дубликатов» из таблицы:
Key | Date | Value |
4 | Summer | 1111 |
1 | Winter | 2222 |
5 | Summer | 3333 |
2 | Winter | 4444 |
4 | Summer | 1111 |
6 | Summer | 5555 |
5 | Summer | 3333 |
3 | Winter | 6666 |
можно получить таблицу без дублирования:
Key | Date | Value |
4 | Summer | 1111 |
1 | Winter | 2222 |
5 | Summer | 3333 |
2 | Winter | 4444 |
6 | Summer | 5555 |
3 | Winter | 6666 |
и таблицу из удаленных дубликатов:
Key | Date | Value |
4 | Summer | 1111 |
5 | Summer | 3333 |
Таким образом удаление дубликатов производилось, если одновременно совпадали значения всех полей.
В базовых свойствах задается наименование объекта, идентификатор и примечание.
Для задания списка полей и связи для входа используйте страницу «Редактирование входа».
На странице доступны следующие параметры:
Примечание. Скриншот сделан на примере мастера редактирования приёмника данных «Репозиторий».
Для задания списка полей и связи для выхода используйте страницу «Редактирование выхода».
На странице доступны следующие настройки:
Примечание. Скриншот сделан на примере мастера редактирования источника данных «Репозиторий».
На странице «Редактирование выхода с ошибочными записями» задается связь с приёмником, в который будет экспортироваться информация об ошибочных записях, которые не были обработаны преобразователем:
Укажите идентификатор выхода с ошибками и выберите доступную связь с объектом-приёмником, в который будет экспортироваться информация об ошибочных записях.
Кнопка «Настройки» позволяет задать дополнительные настройки, которые будут применяться при возникновении ошибочных записей:
Укажите максимальное количество ошибочных записей, информация о которых будет экспортирована. По умолчанию установлено значение «-1», при этом экспортируется информация обо всех ошибочных записях.
Примечание. При наличии большого количества ошибочных записей, экспорт информации о них может замедлить выполнение задачи ETL.
Если задано максимальное количество выводимых записей, то также выберите действие, выполняемо при превышении этого количества. По умолчанию вывод записей прекращается.
Примечание. Скриншот сделан на примере мастера редактирования преобразователя данных «Разделение».
На странице «Проверяемые поля» укажите входные поля, значения которых будут проверяться на дублирование.
Для создания списка проверяемых полей:
перетащите выбранное поле из списка «Исходные поля» в список «Выбранные поля»;
в списке «Исходные поля» выберите поле, а в списке «Выбранные поля» - вход. Нажмите кнопку «Добавить».
Для удаления выбранного поля из списка проверяемых нажмите кнопку «Удалить».
Если ни одно проверяемое поле не задано, то при переходе на следующую страницу будет запрошено подтверждение выполняемого действия.
На странице «Дедубликатор» задайте условие, на основании которого происходит отбор записей для удаления.
Формирование условия производится в окне редактора, для вызова которого нажмите кнопку .
Правило отбора дубликатов определяется переключателем в группе «Правила отбора»:
Запись удовлетворяет условию. Из записей-дублей в приёмник будет передана первая запись, удовлетворяющая заданному условию;
Запись не удовлетворяет условию. Из записей-дублей в приёмник будет передана первая запись, неудовлетворяющая заданному условию.
См. также: