What is windows azure blob storage

Хранилище BLOB- объектов Azure Azure Blob storage

Хранилище BLOB-объектов Azure — это служба для хранения больших объемов неструктурированных данных объектов, таких как текстовые или двоичные данные. Azure Blob storage is a service for storing large amounts of unstructured object data, such as text or binary data. Хранилища BLOB-объектов можно использовать для предоставления данных в открытом доступе всему миру или для хранения данных от приложений в частном порядке. You can use Blob storage to expose data publicly to the world, or to store application data privately. Наиболее частые способы использования хранилища BLOB-объектов: Common uses of Blob storage include:

  • Обслуживание изображений или документов непосредственно в браузере. Serving images or documents directly to a browser
  • Хранение файлов для распределенного доступа Storing files for distributed access
  • Потоковая передача видео и аудио Streaming video and audio
  • Хранение резервных копий и восстановление данных, аварийное восстановление и архивация Storing data for backup and restore, disaster recovery, and archiving
  • Хранение данных для анализа локальной службой или службой, размещенной в Azure Storing data for analysis by an on-premises or Azure-hosted service

В этой статье объясняется, как получить доступ к хранилищу BLOB-объектов Azure путем подключения хранилища с помощью файловой системы модуля данных (DBFS) или непосредственно с помощью API. This article explains how to access Azure Blob storage by mounting storage using the Databricks File System (DBFS) or directly using APIs.

Требования Requirements

Вы можете считывать данные из общедоступных учетных записей хранения без дополнительных параметров. You can read data from public storage accounts without any additional settings. Для чтения данных из частной учетной записи хранения необходимо настроить общий ключ или подписанный URL-адрес (SAS). To read data from a private storage account, you must configure a Shared Key or a Shared Access Signature (SAS).

Чтобы безопасно использовать учетные данные в Azure Databricks, рекомендуется следовать руководству пользователя для управления секретами , как показано в разделе Подключение контейнера хранилища BLOB-объектов Azure. For leveraging credentials safely in Azure Databricks, we recommend that you follow the Secret management user guide as shown in Mount an Azure Blob storage container.

Подключение контейнеров хранилища BLOB-объектов Azure к DBFS Mount Azure Blob storage containers to DBFS

Контейнер хранилища BLOB-объектов или папку внутри контейнера можно подключить к DBFS. You can mount a Blob storage container or a folder inside a container to DBFS. Подключение — это указатель на контейнер хранилища BLOB-объектов, поэтому данные никогда не синхронизируются локально. The mount is a pointer to a Blob storage container, so the data is never synced locally.

  • Хранилище BLOB-объектов Azure поддерживает три типа больших двоичных объектов: блокировка, Добавление и страница. Azure Blob storage supports three blob types: block, append, and page. Вы можете подключать блочные BLOB-объекты только к DBFS. You can only mount block blobs to DBFS.
  • Все пользователи имеют доступ на чтение и запись к объектам в контейнерах хранилища BLOB-объектов, подключенных к DBFS. All users have read and write access to the objects in Blob storage containers mounted to DBFS.
  • После создания точки подключения в кластере пользователи этого кластера могут немедленно получить доступ к точке подключения. Once a mount point is created through a cluster, users of that cluster can immediately access the mount point. Чтобы использовать точку подключения в другом работающем кластере, необходимо запустить dbutils.fs.refreshMounts() в этом работающем кластере, чтобы сделать созданную точку подключения доступной для использования. To use the mount point in another running cluster, you must run dbutils.fs.refreshMounts() on that running cluster to make the newly created mount point available for use.
Читайте также:  Драйвера creative для windows x64

DBFS использует учетные данные, предоставляемые при создании точки подключения для доступа к подключенному контейнеру хранилища BLOB-объектов. DBFS uses the credential that you provide when you create the mount point to access the mounted Blob storage container. Если контейнер хранилища BLOB-объектов подключен с помощью ключа доступа к учетной записи хранения, DBFS использует временные маркеры SAS, полученные из ключа учетной записи хранения, когда он получает доступ к этой точке подключения. If a Blob storage container is mounted using a storage account access key, DBFS uses temporary SAS tokens derived from the storage account key when it accesses this mount point.

Подключение контейнера хранилища BLOB- объектов Azure Mount an Azure Blob storage container

Чтобы подключить контейнер хранилища BLOB-объектов или папку внутри контейнера, используйте следующую команду: To mount a Blob storage container or a folder inside a container, use the following command:

Python Python

Scala Scala

  • — Это имя учетной записи хранилища BLOB-объектов Azure. is the name of your Azure Blob storage account.
  • — имя контейнера в учетной записи хранилища BLOB-объектов Azure. is the name of a container in your Azure Blob storage account.
  • путь DBFS, представляющий место, где контейнер хранилища BLOB-объектов или папка внутри контейнера (заданный в source ) будут подключены в DBFS. is a DBFS path representing where the Blob storage container or a folder inside the container (specified in source ) will be mounted in DBFS.
  • может иметь значение fs.azure.account.key. .blob.core.windows.net или fs.azure.sas. . .blob.core.windows.net can be either fs.azure.account.key. .blob.core.windows.net or fs.azure.sas. . .blob.core.windows.net
  • dbutils.secrets.get(scope = » «, key = » «) Возвращает ключ, сохраненный в качестве секрета в области секрета. dbutils.secrets.get(scope = » «, key = » «) gets the key that has been stored as a secret in a secret scope.

Доступ к файлам в контейнере осуществляется так же, как к локальным файлам, например: Access files in your container as if they were local files, for example:

Python Python

Scala Scala

SQL SQL

Отключение точки подключения Unmount a mount point

Чтобы отключить точку подключения, используйте следующую команду: To unmount a mount point, use the following command:

Доступ к хранилищу BLOB-объектов Azure напрямую Access Azure Blob storage directly

В этом разделе объясняется, как получить доступ к хранилищу BLOB-объектов Azure с помощью API-интерфейса Spark, API RDD и клиента Hive. This section explains how to access Azure Blob storage using the Spark DataFrame API, the RDD API, and the Hive client.

Доступ к хранилищу BLOB-объектов Azure с помощью API кадров данных Access Azure Blob storage using the DataFrame API

Необходимо настроить учетные данные, прежде чем можно будет получить доступ к данным в хранилище BLOB-объектов Azure, как учетные данные сеанса или учетные данные кластера. You need to configure credentials before you can access data in Azure Blob storage, either as session credentials or cluster credentials.

Выполните следующую команду в записной книжке, чтобы настроить учетные данные сеанса: Run the following in a notebook to configure session credentials:

Настройте ключ доступа к учетной записи: Set up an account access key:

Настройте SAS для контейнера: Set up a SAS for a container:

Чтобы настроить учетные данные кластера, задайте свойства конфигурации Spark при создании кластера. To configure cluster credentials, set Spark configuration properties when you create the cluster:

Настройте ключ доступа к учетной записи: Configure an account access key:

Настройка SAS для контейнера: Configure a SAS for a container:

Эти учетные данные доступны всем пользователям, обращающимся к кластеру. These credentials are available to all users who access the cluster.

Если ключ доступа к учетной записи или SAS настроен в записной книжке или в конфигурации кластера, для чтения из учетной записи хранения можно использовать стандартные API Spark и APIs. Once an account access key or a SAS is set up in your notebook or cluster configuration, you can use standard Spark and Databricks APIs to read from the storage account:

Доступ к хранилищу BLOB-объектов Azure с помощью API RDD Access Azure Blob storage using the RDD API

Параметры конфигурации Hadoop недоступны через SparkContext . Hadoop configuration options are not accessible via SparkContext . Если вы используете API RDD для чтения из хранилища BLOB-объектов Azure, необходимо задать свойства конфигурации учетных данных Hadoop в качестве параметров конфигурации Spark при создании кластера, добавив spark.hadoop. префикс к соответствующим ключам конфигурации Hadoop, чтобы распространить их на конфигурации Hadoop, используемые для заданий RDD: If you are using the RDD API to read from Azure Blob storage, you must set the Hadoop credential configuration properties as Spark configuration options when you create the cluster, adding the spark.hadoop. prefix to the corresponding Hadoop configuration keys to propagate them to the Hadoop configurations that are used for your RDD jobs:

Читайте также:  Файнал кат mac os

Настройте ключ доступа к учетной записи: Configure an account access key:

Настройка SAS для контейнера: Configure a SAS for a container:

Эти учетные данные доступны всем пользователям, обращающимся к кластеру. These credentials are available to all users who access the cluster.

Доступ к хранилищу BLOB-объектов Azure из клиента Hive Access Azure Blob storage from the Hive client

Учетные данные, настроенные в конфигурации сеанса записной книжки, недоступны для клиента Hive. Credentials set in a notebook’s session configuration are not accessible to the Hive client. Чтобы распространить учетные данные в клиент Hive, необходимо задать свойства конфигурации учетных данных Hadoop в качестве параметров конфигурации Spark при создании кластера. To propagate the credentials to the Hive client, you must set Hadoop credential configuration properties as Spark configuration options when you create the cluster:

Настройте ключ доступа к учетной записи: Configure an account access key:

Настройка SAS для контейнера: Configure a SAS for a container:

Эти учетные данные доступны всем пользователям, обращающимся к кластеру. These credentials are available to all users who access the cluster.

После настройки ключа доступа к учетной записи или SAS в конфигурации кластера можно использовать стандартные запросы Hive с хранилищем BLOB-объектов Azure: Once an account access key or a SAS is set up in your cluster configuration, you can use standard Hive queries with Azure Blob storage:

В следующей записной книжке демонстрируется подключение хранилища BLOB-объектов Azure и доступ к данным с помощью API Spark, API модулей данных и Hive. The following notebook demonstrates mounting Azure Blob storage and accessing data through Spark APIs, Databricks APIs, and Hive.

What is Azure Blob storage?

Azure Blob storage is Microsoft’s object storage solution for the cloud. Blob storage is optimized for storing massive amounts of unstructured data. Unstructured data is data that doesn’t adhere to a particular data model or definition, such as text or binary data.

About Blob storage

Blob storage is designed for:

  • Serving images or documents directly to a browser.
  • Storing files for distributed access.
  • Streaming video and audio.
  • Writing to log files.
  • Storing data for backup and restore, disaster recovery, and archiving.
  • Storing data for analysis by an on-premises or Azure-hosted service.

Users or client applications can access objects in Blob storage via HTTP/HTTPS, from anywhere in the world. Objects in Blob storage are accessible via the Azure Storage REST API, Azure PowerShell, Azure CLI, or an Azure Storage client library. Client libraries are available for different languages, including:

About Azure Data Lake Storage Gen2

Blob storage supports Azure Data Lake Storage Gen2, Microsoft’s enterprise big data analytics solution for the cloud. Azure Data Lake Storage Gen2 offers a hierarchical file system as well as the advantages of Blob storage, including:

  • Low-cost, tiered storage
  • High availability
  • Strong consistency
  • Disaster recovery capabilities

For more information about Data Lake Storage Gen2, see Introduction to Azure Data Lake Storage Gen2.

Azure Blob storage

Azure Blob storage is a service for storing large amounts of unstructured object data, such as text or binary data. You can use Blob storage to expose data publicly to the world, or to store application data privately. Common uses of Blob storage include:

  • Serving images or documents directly to a browser
  • Storing files for distributed access
  • Streaming video and audio
  • Storing data for backup and restore, disaster recovery, and archiving
  • Storing data for analysis by an on-premises or Azure-hosted service

This article explains how to access Azure Blob storage by mounting storage using the Databricks File System (DBFS) or directly using APIs.

Читайте также:  Linux чем забито место

Requirements

You can read data from public storage accounts without any additional settings. To read data from a private storage account, you must configure a Shared Key or a Shared Access Signature (SAS).

For leveraging credentials safely in Azure Databricks, we recommend that you follow the Secret management user guide as shown in Mount an Azure Blob storage container.

Mount Azure Blob storage containers to DBFS

You can mount a Blob storage container or a folder inside a container to DBFS. The mount is a pointer to a Blob storage container, so the data is never synced locally.

  • Azure Blob storage supports three blob types: block, append, and page. You can only mount block blobs to DBFS.
  • All users have read and write access to the objects in Blob storage containers mounted to DBFS.
  • Once a mount point is created through a cluster, users of that cluster can immediately access the mount point. To use the mount point in another running cluster, you must run dbutils.fs.refreshMounts() on that running cluster to make the newly created mount point available for use.

DBFS uses the credential that you provide when you create the mount point to access the mounted Blob storage container. If a Blob storage container is mounted using a storage account access key, DBFS uses temporary SAS tokens derived from the storage account key when it accesses this mount point.

Mount an Azure Blob storage container

To mount a Blob storage container or a folder inside a container, use the following command:

Python

Scala

  • is the name of your Azure Blob storage account.
  • is the name of a container in your Azure Blob storage account.
  • is a DBFS path representing where the Blob storage container or a folder inside the container (specified in source ) will be mounted in DBFS.
  • can be either fs.azure.account.key. .blob.core.windows.net or fs.azure.sas. . .blob.core.windows.net
  • dbutils.secrets.get(scope = » «, key = » «) gets the key that has been stored as a secret in a secret scope.

Access files in your container as if they were local files, for example:

Python

Scala

Unmount a mount point

To unmount a mount point, use the following command:

Access Azure Blob storage directly

This section explains how to access Azure Blob storage using the Spark DataFrame API, the RDD API, and the Hive client.

Access Azure Blob storage using the DataFrame API

You need to configure credentials before you can access data in Azure Blob storage, either as session credentials or cluster credentials.

Run the following in a notebook to configure session credentials:

Set up an account access key:

Set up a SAS for a container:

To configure cluster credentials, set Spark configuration properties when you create the cluster:

Configure an account access key:

Configure a SAS for a container:

These credentials are available to all users who access the cluster.

Once an account access key or a SAS is set up in your notebook or cluster configuration, you can use standard Spark and Databricks APIs to read from the storage account:

Access Azure Blob storage using the RDD API

Hadoop configuration options are not accessible via SparkContext . If you are using the RDD API to read from Azure Blob storage, you must set the Hadoop credential configuration properties as Spark configuration options when you create the cluster, adding the spark.hadoop. prefix to the corresponding Hadoop configuration keys to propagate them to the Hadoop configurations that are used for your RDD jobs:

Configure an account access key:

Configure a SAS for a container:

These credentials are available to all users who access the cluster.

Access Azure Blob storage from the Hive client

Credentials set in a notebook’s session configuration are not accessible to the Hive client. To propagate the credentials to the Hive client, you must set Hadoop credential configuration properties as Spark configuration options when you create the cluster:

Configure an account access key:

Configure a SAS for a container:

These credentials are available to all users who access the cluster.

Once an account access key or a SAS is set up in your cluster configuration, you can use standard Hive queries with Azure Blob storage:

The following notebook demonstrates mounting Azure Blob storage and accessing data through Spark APIs, Databricks APIs, and Hive.

Оцените статью