データの量と複雑さが急速に増大し続ける中、あらゆる規模の組織が、今日の厳しい規制やコンプライアンス基準を満たしながら、データ、アナリティクス、AIの民主化に苦戦しています。では、何が足かせになっているのでしょうか。その答えは、多くの場合、BIからMLに至るまで、データ活用の全領域をカバーする包括的かつ実行可能なデータガバナンス戦略の欠如にあります。
データガバナンスの課題は多岐にわたっています。まず、一般的な企業では、データがデータウェアハウスやデータレイク間でサイロ化されているため、権限管理、監査、データの発見と共有が困難になっています。
しかし、データはファイルやテーブルに限りません。ダッシュボード、機械学習モデル、ノートブックなどの最新のデータ資産もあり、それぞれに独自の権限モデルがあるため、これらすべての資産に対するアクセス権限を一貫して管理することは困難です。データ資産がアクセス管理ソリューションの異なる複数のクラウドにまたがって存在する場合、問題はさらに大きくなります。
Databricks Unity Catalog は、レイクハウスにおけるデータと AI のための業界初の統合ガバナンスソリューションです。Unity Catalog は、クラウドの種類やプラットフォームを問わず、構造化データ、非構造化データ、ML モデル、ノートブック、ダッシュボード、ファイルなどのさまざまなデータやデータアセットのシームレスな管理を可能にします。
このような状況において、Databricksが提供する統合ガバナンスソリューションであるUnity Catalogは、データやAI活用におけるガバナンスの課題のほとんどを解決します。
本セッションでは、DatabricksのLakehouseアーキテクチャの主要コンポーネントであるUnity Catalogの内部構造を詳細に理解することを目的としています。
コンテンツ :
- Unity Catalogの紹介 : メタデータとユーザー管理の一元化を通じてデータエステートの統一ビューを提供するUnity Catalogの役割に焦点を当てます。その後、Hive Metastoreとの統合や3レベルネームスペースの概念など、Unity Catalogのコンポーネントについて掘り下げます。
- Unity Catalogを使用したデータアクセスパターンとクエリのライフサイクルについて : Unity Catalogがクラウド全体のデータアクセス管理をどのように簡素化するか、またデータ共有へのシンプルでオープンで簡単なアプローチのためにDelta Sharingとどのように統合するかについても説明します。
- Lineageの概念と、API経由でエクスポートして他のツールにインポートする方法
- Unity CatalogがETLツールやCatalogパートナーなどのパートナーとどのように連携し、共通のエンフォースメントレイヤーを提供するかについても説明します。
セッションの最後には、ソフトウェア開発ライフサイクルのセットアップやデータサイエンスのシナリオにおける役割など、Unity Catalogを使用するためのベストプラクティスについて議論する。また、Unity Catalogへの移行のベストプラクティスについても触れます。
このセッションご参加にあたり、DatabricksとDelta Lakeの事前知識があることを推奨します。このセッションが終了する頃には、参加者はUnity Catalogの技術的な利点を深く理解していることでしょう。