Для работы с инструментом в продукте «Форсайт. Аналитическая платформа» версии 10 используйте новый интерфейс.

В этой статье:

Базовые свойства

Редактирование входа

Редактирование выхода

Редактирование выхода с ошибочными записями

Проверяемые поля

Дедупликатор

Удаление дубликатов

Преобразователь «Удаление дубликатов» - объект, выполняющий удаление записей, содержащих дублирующиеся значения полей. На входе объекта один источник, на выходе - два приёмника. Для работы преобразователя на странице «Проверяемые поля» создайте список полей, по которым будут формироваться уникальные комбинации значений и производиться поиск дублирующихся комбинаций. Для ускорения работы преобразователя по выбранным полям предварительно будет выполняться сортировка записей. На странице «Дедупликатор» задайте выражение, которое будет вычислено на дублирующихся записях, и правило отбора единственной записи, которая в дальнейшем будет передана в приёмник.

При использовании преобразователя «Удаление дубликатов» из таблицы:

Key Date Value
4 Summer 1111
1 Winter 2222
5 Summer 3333
2 Winter 4444
4 Summer 1111
6 Summer 5555
5 Summer 3333
3 Winter 6666

можно получить таблицу без дублирования:

Key Date Value
4 Summer 1111
1 Winter 2222
5 Summer 3333
2 Winter 4444
6 Summer 5555
3 Winter 6666

и таблицу из удаленных дубликатов:

Key Date Value
4 Summer 1111
5 Summer 3333

Таким образом удаление дубликатов производилось, если одновременно совпадали значения всех полей.

Базовые свойства

В базовых свойствах задаются наименование объекта, идентификатор и примечание.

Редактирование входа

Для задания списка полей и связи для входа используйте страницу «Редактирование входа».

На странице доступны следующие параметры:

Идентификатор

Связь с объектом

Поля

Примечание. Скриншот сделан на примере мастера редактирования приёмника данных «Репозиторий».

Редактирование выхода

На странице «Редактирование выхода» задаётся связь с объектом-приёмником, в который будут выгружаться данные при выполнении задачи ETL.

Примечание. Страница является общей для всех коннекторов и преобразователей данных, кроме преобразователей «Разделение» и «Алгоритм пользователя». Рассмотрим настройку списка полей и связи выхода на примере мастера редактирования источника данных «Репозиторий».

На странице доступны следующие настройки:

Идентификатор

Связь с объектом

Поля

Редактирование выхода с ошибочными записями

На странице «Редактирование выхода с ошибочными записями» задаётся связь с объектом-приёмником, в который будет экспортироваться информация об ошибочных записях, которые не были обработаны преобразователем.

Примечание. Страница является общей для всех преобразователей данных, кроме преобразователей «Объединение» и «Алгоритм пользователя». Рассмотрим настройку списка полей и связи выхода на примере мастера редактирования преобразователя данных «Разделение».

На странице доступны следующие настройки:

Идентификатор

Связь с объектом

Поля

Дополнительные настройки

Проверяемые поля

На странице «Проверяемые поля» укажите входные поля, значения которых будут проверяться на дублирование.

Для создания списка проверяемых полей:

Для удаления выбранного поля из списка проверяемых нажмите кнопку «Удалить».

По выбранным полям будет сформирован индекс, принцип действия которого аналогичен индексу реляционных таблиц. Также для ускорения работы по выбранным полям будет осуществлена сортировка записей. После удаления дубликатов записи в приёмник попадут в отсортированном виде.

Если ни одно проверяемое поле не задано, то вычисление дубликатов будет осуществляться по комбинациям значений всех полей источника. Сортировка записей при этом не производится. Работа в таком режиме может занять длительное время.

Дедупликатор

На странице «Дедупликатор» задайте условие, на основании которого происходит отбор записей для удаления.

Формирование условия производится в окне редактора, для вызова которого нажмите кнопку «Настройка».

Правило отбора дубликатов определяется переключателем в группе «Правила отбора»:

См. также:

Начало работы с инструментом «Задача ETL» в веб-приложении | Преобразователи данных