Интерфейсы инструмента в веб-приложении и настольном приложении отличаются и не имеют обратной совместимости. Задачи ETL, созданные в веб-приложении, могут некорректно отображаться в настольном приложении и наоборот.
В этой статье:
Преобразователь «Удаление дубликатов» - объект, выполняющий удаление записей, содержащих дублирующиеся значения полей. На входе объекта один источник, на выходе - два приёмника. Для работы преобразователя на странице «Проверяемые поля» создайте список полей, по которым будут формироваться уникальные комбинации значений и производиться поиск дублирующихся комбинаций. Для ускорения работы преобразователя по выбранным полям предварительно будет выполняться сортировка записей. На странице «Дедупликатор» задайте выражение, которое будет вычислено на дублирующихся записях, и правило отбора единственной записи, которая в дальнейшем будет передана в приёмник.
При использовании преобразователя «Удаление дубликатов» из таблицы:
Key | Date | Value |
4 | Summer | 1111 |
1 | Winter | 2222 |
5 | Summer | 3333 |
2 | Winter | 4444 |
4 | Summer | 1111 |
6 | Summer | 5555 |
5 | Summer | 3333 |
3 | Winter | 6666 |
можно получить таблицу без дублирования:
Key | Date | Value |
4 | Summer | 1111 |
1 | Winter | 2222 |
5 | Summer | 3333 |
2 | Winter | 4444 |
6 | Summer | 5555 |
3 | Winter | 6666 |
и таблицу из удаленных дубликатов:
Key | Date | Value |
4 | Summer | 1111 |
5 | Summer | 3333 |
Таким образом удаление дубликатов производилось, если одновременно совпадали значения всех полей.
Для задания списка полей и связи для входа используйте страницу «Редактирование входа».
На странице доступны следующие параметры:
Примечание. Скриншот сделан на примере мастера редактирования приёмника данных «Репозиторий».
На странице «Редактирование выхода» задаётся связь с объектом-приёмником, в который будут выгружаться данные при выполнении задачи ETL.
Примечание. Страница является общей для всех коннекторов и преобразователей данных, кроме преобразователей «Разделение» и «Алгоритм пользователя». Рассмотрим настройку списка полей и связи выхода на примере мастера редактирования источника данных «Репозиторий».
На странице доступны следующие настройки:
На странице «Редактирование выхода с ошибочными записями» задаётся связь с объектом-приёмником, в который будет экспортироваться информация об ошибочных записях, которые не были обработаны преобразователем.
Примечание. Страница является общей для всех преобразователей данных, кроме преобразователей «Объединение» и «Алгоритм пользователя». Рассмотрим настройку списка полей и связи выхода на примере мастера редактирования преобразователя данных «Разделение».
На странице доступны следующие настройки:
На странице «Проверяемые поля» укажите входные поля, значения которых будут проверяться на дублирование.
Для создания списка проверяемых полей:
перетащите выбранное поле из списка «Исходные поля» в список «Выбранные поля»;
в списке «Исходные поля» выберите поле, а в списке «Выбранные поля» - вход. Нажмите кнопку «Добавить».
Для удаления выбранного поля из списка проверяемых нажмите кнопку «Удалить».
По выбранным полям будет сформирован индекс, принцип действия которого аналогичен индексу реляционных таблиц. Также для ускорения работы по выбранным полям будет осуществлена сортировка записей. После удаления дубликатов записи в приёмник попадут в отсортированном виде.
Если ни одно проверяемое поле не задано, то вычисление дубликатов будет осуществляться по комбинациям значений всех полей источника. Сортировка записей при этом не производится. Работа в таком режиме может занять длительное время.
На странице «Дедупликатор» задайте условие, на основании которого происходит отбор записей для удаления.
Формирование условия производится в окне редактора, для вызова которого нажмите кнопку «Настройка».
Правило отбора дубликатов определяется переключателем в группе «Правила отбора»:
Запись удовлетворяет условию. Из записей-дублей в приёмник будет передана первая запись, удовлетворяющая заданному условию;
Запись не удовлетворяет условию. Из записей-дублей в приёмник будет передана первая запись, неудовлетворяющая заданному условию.
См. также:
Начало работы с инструментом «Задача ETL» в веб-приложении | Преобразователи данных