- Хранилище BLOB- объектов Azure Azure Blob storage
- Требования Requirements
- Подключение контейнеров хранилища BLOB-объектов Azure к DBFS Mount Azure Blob storage containers to DBFS
- Подключение контейнера хранилища BLOB- объектов Azure Mount an Azure Blob storage container
- Python Python
- Scala Scala
- Python Python
- Scala Scala
- SQL SQL
- Отключение точки подключения Unmount a mount point
- Доступ к хранилищу BLOB-объектов Azure напрямую Access Azure Blob storage directly
- Доступ к хранилищу BLOB-объектов Azure с помощью API кадров данных Access Azure Blob storage using the DataFrame API
- Доступ к хранилищу BLOB-объектов Azure с помощью API RDD Access Azure Blob storage using the RDD API
- Доступ к хранилищу BLOB-объектов Azure из клиента Hive Access Azure Blob storage from the Hive client
- What is Azure Blob storage?
- About Blob storage
- About Azure Data Lake Storage Gen2
- Azure Blob storage
- Requirements
- Mount Azure Blob storage containers to DBFS
- Mount an Azure Blob storage container
- Python
- Scala
- Python
- Scala
- Unmount a mount point
- Access Azure Blob storage directly
- Access Azure Blob storage using the DataFrame API
- Access Azure Blob storage using the RDD API
- Access Azure Blob storage from the Hive client
Хранилище BLOB- объектов Azure Azure Blob storage
Хранилище BLOB-объектов Azure — это служба для хранения больших объемов неструктурированных данных объектов, таких как текстовые или двоичные данные. Azure Blob storage is a service for storing large amounts of unstructured object data, such as text or binary data. Хранилища BLOB-объектов можно использовать для предоставления данных в открытом доступе всему миру или для хранения данных от приложений в частном порядке. You can use Blob storage to expose data publicly to the world, or to store application data privately. Наиболее частые способы использования хранилища BLOB-объектов: Common uses of Blob storage include:
- Обслуживание изображений или документов непосредственно в браузере. Serving images or documents directly to a browser
- Хранение файлов для распределенного доступа Storing files for distributed access
- Потоковая передача видео и аудио Streaming video and audio
- Хранение резервных копий и восстановление данных, аварийное восстановление и архивация Storing data for backup and restore, disaster recovery, and archiving
- Хранение данных для анализа локальной службой или службой, размещенной в Azure Storing data for analysis by an on-premises or Azure-hosted service
В этой статье объясняется, как получить доступ к хранилищу BLOB-объектов Azure путем подключения хранилища с помощью файловой системы модуля данных (DBFS) или непосредственно с помощью API. This article explains how to access Azure Blob storage by mounting storage using the Databricks File System (DBFS) or directly using APIs.
Требования Requirements
Вы можете считывать данные из общедоступных учетных записей хранения без дополнительных параметров. You can read data from public storage accounts without any additional settings. Для чтения данных из частной учетной записи хранения необходимо настроить общий ключ или подписанный URL-адрес (SAS). To read data from a private storage account, you must configure a Shared Key or a Shared Access Signature (SAS).
Чтобы безопасно использовать учетные данные в Azure Databricks, рекомендуется следовать руководству пользователя для управления секретами , как показано в разделе Подключение контейнера хранилища BLOB-объектов Azure. For leveraging credentials safely in Azure Databricks, we recommend that you follow the Secret management user guide as shown in Mount an Azure Blob storage container.
Подключение контейнеров хранилища BLOB-объектов Azure к DBFS Mount Azure Blob storage containers to DBFS
Контейнер хранилища BLOB-объектов или папку внутри контейнера можно подключить к DBFS. You can mount a Blob storage container or a folder inside a container to DBFS. Подключение — это указатель на контейнер хранилища BLOB-объектов, поэтому данные никогда не синхронизируются локально. The mount is a pointer to a Blob storage container, so the data is never synced locally.
- Хранилище BLOB-объектов Azure поддерживает три типа больших двоичных объектов: блокировка, Добавление и страница. Azure Blob storage supports three blob types: block, append, and page. Вы можете подключать блочные BLOB-объекты только к DBFS. You can only mount block blobs to DBFS.
- Все пользователи имеют доступ на чтение и запись к объектам в контейнерах хранилища BLOB-объектов, подключенных к DBFS. All users have read and write access to the objects in Blob storage containers mounted to DBFS.
- После создания точки подключения в кластере пользователи этого кластера могут немедленно получить доступ к точке подключения. Once a mount point is created through a cluster, users of that cluster can immediately access the mount point. Чтобы использовать точку подключения в другом работающем кластере, необходимо запустить dbutils.fs.refreshMounts() в этом работающем кластере, чтобы сделать созданную точку подключения доступной для использования. To use the mount point in another running cluster, you must run dbutils.fs.refreshMounts() on that running cluster to make the newly created mount point available for use.
DBFS использует учетные данные, предоставляемые при создании точки подключения для доступа к подключенному контейнеру хранилища BLOB-объектов. DBFS uses the credential that you provide when you create the mount point to access the mounted Blob storage container. Если контейнер хранилища BLOB-объектов подключен с помощью ключа доступа к учетной записи хранения, DBFS использует временные маркеры SAS, полученные из ключа учетной записи хранения, когда он получает доступ к этой точке подключения. If a Blob storage container is mounted using a storage account access key, DBFS uses temporary SAS tokens derived from the storage account key when it accesses this mount point.
Подключение контейнера хранилища BLOB- объектов Azure Mount an Azure Blob storage container
Чтобы подключить контейнер хранилища BLOB-объектов или папку внутри контейнера, используйте следующую команду: To mount a Blob storage container or a folder inside a container, use the following command:
Python Python
Scala Scala
- — Это имя учетной записи хранилища BLOB-объектов Azure. is the name of your Azure Blob storage account.
- — имя контейнера в учетной записи хранилища BLOB-объектов Azure. is the name of a container in your Azure Blob storage account.
- путь DBFS, представляющий место, где контейнер хранилища BLOB-объектов или папка внутри контейнера (заданный в source ) будут подключены в DBFS. is a DBFS path representing where the Blob storage container or a folder inside the container (specified in source ) will be mounted in DBFS.
- может иметь значение fs.azure.account.key. .blob.core.windows.net или fs.azure.sas. . .blob.core.windows.net can be either fs.azure.account.key. .blob.core.windows.net or fs.azure.sas. . .blob.core.windows.net
- dbutils.secrets.get(scope = » «, key = » «) Возвращает ключ, сохраненный в качестве секрета в области секрета. dbutils.secrets.get(scope = » «, key = » «) gets the key that has been stored as a secret in a secret scope.
Доступ к файлам в контейнере осуществляется так же, как к локальным файлам, например: Access files in your container as if they were local files, for example:
Python Python
Scala Scala
SQL SQL
Отключение точки подключения Unmount a mount point
Чтобы отключить точку подключения, используйте следующую команду: To unmount a mount point, use the following command:
Доступ к хранилищу BLOB-объектов Azure напрямую Access Azure Blob storage directly
В этом разделе объясняется, как получить доступ к хранилищу BLOB-объектов Azure с помощью API-интерфейса Spark, API RDD и клиента Hive. This section explains how to access Azure Blob storage using the Spark DataFrame API, the RDD API, and the Hive client.
Доступ к хранилищу BLOB-объектов Azure с помощью API кадров данных Access Azure Blob storage using the DataFrame API
Необходимо настроить учетные данные, прежде чем можно будет получить доступ к данным в хранилище BLOB-объектов Azure, как учетные данные сеанса или учетные данные кластера. You need to configure credentials before you can access data in Azure Blob storage, either as session credentials or cluster credentials.
Выполните следующую команду в записной книжке, чтобы настроить учетные данные сеанса: Run the following in a notebook to configure session credentials:
Настройте ключ доступа к учетной записи: Set up an account access key:
Настройте SAS для контейнера: Set up a SAS for a container:
Чтобы настроить учетные данные кластера, задайте свойства конфигурации Spark при создании кластера. To configure cluster credentials, set Spark configuration properties when you create the cluster:
Настройте ключ доступа к учетной записи: Configure an account access key:
Настройка SAS для контейнера: Configure a SAS for a container:
Эти учетные данные доступны всем пользователям, обращающимся к кластеру. These credentials are available to all users who access the cluster.
Если ключ доступа к учетной записи или SAS настроен в записной книжке или в конфигурации кластера, для чтения из учетной записи хранения можно использовать стандартные API Spark и APIs. Once an account access key or a SAS is set up in your notebook or cluster configuration, you can use standard Spark and Databricks APIs to read from the storage account:
Доступ к хранилищу BLOB-объектов Azure с помощью API RDD Access Azure Blob storage using the RDD API
Параметры конфигурации Hadoop недоступны через SparkContext . Hadoop configuration options are not accessible via SparkContext . Если вы используете API RDD для чтения из хранилища BLOB-объектов Azure, необходимо задать свойства конфигурации учетных данных Hadoop в качестве параметров конфигурации Spark при создании кластера, добавив spark.hadoop. префикс к соответствующим ключам конфигурации Hadoop, чтобы распространить их на конфигурации Hadoop, используемые для заданий RDD: If you are using the RDD API to read from Azure Blob storage, you must set the Hadoop credential configuration properties as Spark configuration options when you create the cluster, adding the spark.hadoop. prefix to the corresponding Hadoop configuration keys to propagate them to the Hadoop configurations that are used for your RDD jobs:
Настройте ключ доступа к учетной записи: Configure an account access key:
Настройка SAS для контейнера: Configure a SAS for a container:
Эти учетные данные доступны всем пользователям, обращающимся к кластеру. These credentials are available to all users who access the cluster.
Доступ к хранилищу BLOB-объектов Azure из клиента Hive Access Azure Blob storage from the Hive client
Учетные данные, настроенные в конфигурации сеанса записной книжки, недоступны для клиента Hive. Credentials set in a notebook’s session configuration are not accessible to the Hive client. Чтобы распространить учетные данные в клиент Hive, необходимо задать свойства конфигурации учетных данных Hadoop в качестве параметров конфигурации Spark при создании кластера. To propagate the credentials to the Hive client, you must set Hadoop credential configuration properties as Spark configuration options when you create the cluster:
Настройте ключ доступа к учетной записи: Configure an account access key:
Настройка SAS для контейнера: Configure a SAS for a container:
Эти учетные данные доступны всем пользователям, обращающимся к кластеру. These credentials are available to all users who access the cluster.
После настройки ключа доступа к учетной записи или SAS в конфигурации кластера можно использовать стандартные запросы Hive с хранилищем BLOB-объектов Azure: Once an account access key or a SAS is set up in your cluster configuration, you can use standard Hive queries with Azure Blob storage:
В следующей записной книжке демонстрируется подключение хранилища BLOB-объектов Azure и доступ к данным с помощью API Spark, API модулей данных и Hive. The following notebook demonstrates mounting Azure Blob storage and accessing data through Spark APIs, Databricks APIs, and Hive.
What is Azure Blob storage?
Azure Blob storage is Microsoft’s object storage solution for the cloud. Blob storage is optimized for storing massive amounts of unstructured data. Unstructured data is data that doesn’t adhere to a particular data model or definition, such as text or binary data.
About Blob storage
Blob storage is designed for:
- Serving images or documents directly to a browser.
- Storing files for distributed access.
- Streaming video and audio.
- Writing to log files.
- Storing data for backup and restore, disaster recovery, and archiving.
- Storing data for analysis by an on-premises or Azure-hosted service.
Users or client applications can access objects in Blob storage via HTTP/HTTPS, from anywhere in the world. Objects in Blob storage are accessible via the Azure Storage REST API, Azure PowerShell, Azure CLI, or an Azure Storage client library. Client libraries are available for different languages, including:
About Azure Data Lake Storage Gen2
Blob storage supports Azure Data Lake Storage Gen2, Microsoft’s enterprise big data analytics solution for the cloud. Azure Data Lake Storage Gen2 offers a hierarchical file system as well as the advantages of Blob storage, including:
- Low-cost, tiered storage
- High availability
- Strong consistency
- Disaster recovery capabilities
For more information about Data Lake Storage Gen2, see Introduction to Azure Data Lake Storage Gen2.
Azure Blob storage
Azure Blob storage is a service for storing large amounts of unstructured object data, such as text or binary data. You can use Blob storage to expose data publicly to the world, or to store application data privately. Common uses of Blob storage include:
- Serving images or documents directly to a browser
- Storing files for distributed access
- Streaming video and audio
- Storing data for backup and restore, disaster recovery, and archiving
- Storing data for analysis by an on-premises or Azure-hosted service
This article explains how to access Azure Blob storage by mounting storage using the Databricks File System (DBFS) or directly using APIs.
Requirements
You can read data from public storage accounts without any additional settings. To read data from a private storage account, you must configure a Shared Key or a Shared Access Signature (SAS).
For leveraging credentials safely in Azure Databricks, we recommend that you follow the Secret management user guide as shown in Mount an Azure Blob storage container.
Mount Azure Blob storage containers to DBFS
You can mount a Blob storage container or a folder inside a container to DBFS. The mount is a pointer to a Blob storage container, so the data is never synced locally.
- Azure Blob storage supports three blob types: block, append, and page. You can only mount block blobs to DBFS.
- All users have read and write access to the objects in Blob storage containers mounted to DBFS.
- Once a mount point is created through a cluster, users of that cluster can immediately access the mount point. To use the mount point in another running cluster, you must run dbutils.fs.refreshMounts() on that running cluster to make the newly created mount point available for use.
DBFS uses the credential that you provide when you create the mount point to access the mounted Blob storage container. If a Blob storage container is mounted using a storage account access key, DBFS uses temporary SAS tokens derived from the storage account key when it accesses this mount point.
Mount an Azure Blob storage container
To mount a Blob storage container or a folder inside a container, use the following command:
Python
Scala
- is the name of your Azure Blob storage account.
- is the name of a container in your Azure Blob storage account.
- is a DBFS path representing where the Blob storage container or a folder inside the container (specified in source ) will be mounted in DBFS.
- can be either fs.azure.account.key. .blob.core.windows.net or fs.azure.sas. . .blob.core.windows.net
- dbutils.secrets.get(scope = » «, key = » «) gets the key that has been stored as a secret in a secret scope.
Access files in your container as if they were local files, for example:
Python
Scala
Unmount a mount point
To unmount a mount point, use the following command:
Access Azure Blob storage directly
This section explains how to access Azure Blob storage using the Spark DataFrame API, the RDD API, and the Hive client.
Access Azure Blob storage using the DataFrame API
You need to configure credentials before you can access data in Azure Blob storage, either as session credentials or cluster credentials.
Run the following in a notebook to configure session credentials:
Set up an account access key:
Set up a SAS for a container:
To configure cluster credentials, set Spark configuration properties when you create the cluster:
Configure an account access key:
Configure a SAS for a container:
These credentials are available to all users who access the cluster.
Once an account access key or a SAS is set up in your notebook or cluster configuration, you can use standard Spark and Databricks APIs to read from the storage account:
Access Azure Blob storage using the RDD API
Hadoop configuration options are not accessible via SparkContext . If you are using the RDD API to read from Azure Blob storage, you must set the Hadoop credential configuration properties as Spark configuration options when you create the cluster, adding the spark.hadoop. prefix to the corresponding Hadoop configuration keys to propagate them to the Hadoop configurations that are used for your RDD jobs:
Configure an account access key:
Configure a SAS for a container:
These credentials are available to all users who access the cluster.
Access Azure Blob storage from the Hive client
Credentials set in a notebook’s session configuration are not accessible to the Hive client. To propagate the credentials to the Hive client, you must set Hadoop credential configuration properties as Spark configuration options when you create the cluster:
Configure an account access key:
Configure a SAS for a container:
These credentials are available to all users who access the cluster.
Once an account access key or a SAS is set up in your cluster configuration, you can use standard Hive queries with Azure Blob storage:
The following notebook demonstrates mounting Azure Blob storage and accessing data through Spark APIs, Databricks APIs, and Hive.