Зарисовки о жизни в ИТ - Зарисовка #1
Блог Никсейл
Август 2016
Зарисовки о жизни в ИТ - Зарисовка #1
logo_2011.jpg

Как приготовить хранилище данных для FM&RA системы (кулинарная)

Приготовление хранилища – процесс творческий и интересный. И, на вид, не очень сложный. Нужно взять примерно сотню гетерогенных потоков данных, нарезать при помощи ETL-процессов, поперчить доопределением при загрузке и разложить по серверам. Только в таком варианте получится еще не съедобно - данные нужно не только загрузить.

Поэтому добавляем соус: для него нам потребуется логирование, проверка качества данных, специализированные хранилища для разных типов данных, а также единый реестр данных (по которому потребители смогут проверять наличие необходимых данных). Сверху кладем «вишенку» системы мониторинга, и объявляем блюдо готовым.

P.S. Когда в систему нужно добавить модуль ETL, то может показаться, что в этом нет ничего сложного - инструментов для ETL есть великое множество, от именитых вендоров, с разнообразным функционалом… Вот только в ситуации, когда потоков данных и данных в этих потоках становится реально много, сам ETL процесс оказывается самой простой и линейной частью системы, а самое интересное – вокруг него. В первую очередь, учет, качество и обработка исключительных ситуаций. Кстати, об ошибках… Их ведь в данных быть не должно.

Но ошибки иногда все-таки встречаются в каждом из источников: то выгрузка пустая получилась, то дубли прилетели, то длину поля с номером урезали. И если источников много, то ошибки в систему приходят непрерывно. Причем система должна их выявлять и не пускать некачественные данные в дальнейшую обработку. Иначе, когда ошибка будет выявлена пользователем, она уже расползется по десяткам отчетов и контролей и устранять ее будет весьма проблематично и времяемко.

To be continued…

Автор: Сергей Булатицкий.

  • Facebook
  • Вконтакте