Datamanagement: uitdaging in Hadoop

Hadoop is een plat file systeem, met als grote voordeel de schaalbaarheid en de snelheid waarmee je een gegeven kunt terugvinden. Dat kan je doen met programmeren in Mapreduce, of simpeler met Hive. Met Hive kan je SQL-en op Hadoop.

Je moet dat filesysteem wel vullen. Dat kan je ook doen met Hive, met bijvoorbeeld een CREATE table. (Zie Hive DDL). De data verdwijnt in een directory van het Hadoop File systeem, en Hive houdt een definitie voor je vast. Maar hoe houd je bij waar de originele data vandaan komt, en hoe weet je of de geladen data actueel is? Dat houdt Hive niet voor je bij. En als je een analyse doet op de data, dan is het wel zo prettig als je kan aantonen waar de data vandaan komt (lineage). En zo ontstaat er een datamanagement uitdaging. En in dat gat springen dan weer leveranciers. Een voorbeeld is Revelytix, dat met Loom een geheugen bijhoudt van dataset, jobs en queries.
20130810-021636.jpg
Een heel ander voorbeeld is GlobalIDS, welke een soort van Master Data Management biedt over al je databronnen, inclusief Hadoop file systemen.

Kortom, met alleen een Hadoop implementatie ben je er nog niet.

Geef een reactie

Vul je gegevens in of klik op een icoon om in te loggen.

WordPress.com logo

Je reageert onder je WordPress.com account. Log uit / Bijwerken )

Twitter-afbeelding

Je reageert onder je Twitter account. Log uit / Bijwerken )

Facebook foto

Je reageert onder je Facebook account. Log uit / Bijwerken )

Google+ photo

Je reageert onder je Google+ account. Log uit / Bijwerken )

Verbinden met %s