Censusは、企業がデータセットを処理および変換する方法を刷新する新機能、Census Storeを発表した。この革新的なアプローチにより、ウェアハウスを設定する必要がなくなり、あらゆる規模の企業にとってコスト効率の高いソリューションになる。Census Storeは、クラウドまたはAmazon S3などの分散ストレージシステムに保存された大規模なデータセットを管理するために特別に設計されたオープンソースのテーブル形式であるApache Iceberg上に構築されている。
Apache Icebergストレージシステムは、3つの主要コンポーネントで構成されている。1つ目はオブジェクトストレージで、通常はS3バケット、Azure BLOB、またはGoogle Cloudストレージだ。このコンポーネントは、Parquet、JSON、CSV、画像など、あらゆる形式で生データを保存するのに優れている。2つ目のコンポーネントはRESTカタログで、データの目次として機能する。既存のファイル、その場所、および関連ファイルを構造化されたクエリー可能な方法で追跡する。3つ目のコンポーネントはクエリーエンジンで、これにより企業は実用的なインサイトを得るためにデータセットを構築および管理できる。
Apache Icebergストレージシステムには、ウェアハウスをオブジェクトストレージに直接接続するよりも優れた点がいくつかある。例えば、S3などのオブジェクトストレージシステムはデータベースのようにデータを整理しないため、データウェアハウスがデータファイルを解釈することが困難だ。一方、Icebergのカタログは、ウェアハウスがデータを理解するために必要なメタデータを提供する。さらに、IcebergはACIDトランザクションを保証し、複数のユーザーが同時にデータを更新または削除しても競合を防止する。また、スキーマの進化をスムーズに処理し、スキーマが変更されてもクエリーが壊れないようにする。
Apache Icebergストレージシステムは、メタデータのインデックス作成とパーティーションプルーニングを可能にすることで、クエリーパフォーマンスも高速化する。つまり、クエリーは関連ファイルのみをスキャンするため、プロセスが高速かつ効率的になる。さらに、Icebergはデータのスナップショットを保持するため、企業は必要に応じて古いバージョンにロールバックできる。この機能は、コスト効率とSpark、Trino、Snowflakeなどのさまざまなシステムとの互換性と相まって、Apache Icebergストレージシステムをデータ管理のゲームチェンジャーにしている。
Apache Icebergストレージシステムを搭載したCensus Storeは、クラス最高のデータ管理戦略へのアクセスを実現する。企業がデータセットを管理するための柔軟で手ごろな効率的なソリューションを提供し、より複雑な計算のためにリソースを解放する。ビジネス運営においてAIがますます重要になる中、Census Storeはまさにタイムリーなイノベーションだ。
出典:Census
この製品の詳細については、製品ページをご覧ください。