Содержание

Бинарные файлы
Бинарные файлы
fseek
Примеры
Что такое bin файл и как его открыть в 2021 году
Бинарный формат
Программы для открытия
Бинарные блоки
Preferred block size when reading/writing big binary files
1 Answer 1

Бинарные файлы

Т екстовые файлы хранят данные в виде текста (sic!). Это значит, что если, например, мы записываем целое число 12345678 в файл, то записывается 8 символов, а это 8 байт данных, несмотря на то, что число помещается в целый тип. Кроме того, вывод и ввод данных является форматированным, то есть каждый раз, когда мы считываем число из файла или записываем в файл происходит трансформация числа в строку или обратно. Это затратные операции, которых можно избежать.

Текстовые файлы позволяют хранить информацию в виде, понятном для человека. Можно, однако, хранить данные непосредственно в бинарном виде. Для этих целей используются бинарные файлы.

Выполните программу и посмотрите содержимое файла output.bin. Число, которое ввёл пользователь записывается в файл непосредственно в бинарном виде. Можете открыть файл в любом редакторе, поддерживающем представление в шестнадцатеричном виде (Total Commander, Far) и убедиться в этом.

Запись в файл осуществляется с помощью функции

Функция возвращает число удачно записанных элементов. В качестве аргументов принимает указатель на массив, размер одного элемента, число элементов и указатель на файловый поток. Вместо массив, конечно, может быть передан любой объект.

Запись в бинарный файл объекта похожа на его отображение: берутся данные из оперативной памяти и пишутся как есть. Для считывания используется функция fread

Функция возвращает число удачно прочитанных элементов, которые помещаются по адресу ptr. Всего считывается count элементов по size байт. Давайте теперь считаем наше число обратно в переменную.

fseek

Одной из важных функций для работы с бинарными файлами является функция fseek

Эта функция устанавливает указатель позиции, ассоциированный с потоком, на новое положение. Индикатор позиции указывает, на каком месте в файле мы остановились. Когда мы открываем файл, позиция равна 0. Каждый раз, записывая байт данных, указатель позиции сдвигается на единицу вперёд.
fseek принимает в качестве аргументов указатель на поток и сдвиг в offset байт относительно origin. origin может принимать три значения

SEEK_SET — начало файла
SEEK_CUR — текущее положение файла
SEEK_END — конец файла. К сожалению, стандартом не определено, что такое конец файла, поэтому полагаться на эту функцию нельзя.

В случае удачной работы функция возвращает 0.

Дополним наш старый пример: запишем число, затем сдвинемся указатель на начало файла и прочитаем его.

Вместо этого можно также использовать функцию rewind, которая перемещает индикатор позиции в начало.

В си определён специальный тип fpos_t, который используется для хранения позиции индикатора позиции в файле.
Функция

используется для того, чтобы назначить переменной pos текущее положение. Функция

используется для перевода указателя в позицию, которая хранится в переменной pos. Обе функции в случае удачного завершения возвращают ноль.

возвращает текущее положение индикатора относительно начала файла. Для бинарных файлов — это число байт, для текстовых не определено (если текстовый файл состоит из однобайтовых символов, то также число байт).

Рассмотрим пример: пользователь вводит числа. Первые 4 байта файла: целое, которое обозначает, сколько чисел было введено. После того, как пользователь прекращает вводить числа, мы перемещаемся в начало файла и записываем туда число введённых элементов.

Вторая программа сначала считывает количество записанных чисел, а потом считывает и выводит числа по порядку.

Примеры

1. Имеется бинарный файл размером 10*sizeof(int) байт. Пользователь вводит номер ячейки, после чего в неё записывает число. После каждой операции выводятся все числа. Сначала пытаемся открыть файл в режиме чтения и записи. Если это не удаётся, то пробуем создать файл, если удаётся создать файл, то повторяем попытку открыть файл для чтения и записи.

2. Пишем слова в бинарный файл. Формат такой — сначало число букв, потом само слово без нулевого символа. Ели длина слова равна нулю, то больше слов нет. Сначала запрашиваем слова у пользователя, потом считываем обратно.

3. Задача — считать данные из текстового файла и записать их в бинарный. Для решения зачи создадим функцию обёртку. Она будет принимать имя файла, режим доступа, функцию, которую необходимо выполнить, если файл был удачно открыт и аргументы этой функции. Так как аргументов может быть много и они могут быть разного типа, то их можно передавать в качестве указателя на структуру. После выполнения функции файл закрывается. Таким образом, нет необходимости думать об освобождении ресурсов.

4. Функция saveInt32Array позволяет сохранить массив типа int32_t в файл. Обратная ей loadInt32Array считывает массив обратно. Функция loadInt32Array сначала инициализирует переданный ей массив, поэтому мы должны передавать указатель на указатель; кроме того, она записывает считанный размер массива в переданный параметр size, из-за чего он передаётся как указатель.

5. Создание таблицы поиска. Для ускорения работы программы вместо вычисления функции можно произвести сначала вычисление значений функции на интервале с определённой точностью, после чего брать значения уже из таблицы. Программа сначала производит табулирование функции с заданными параметрами и сохраняет его в файл, затем подгружает предвычисленный массив, который уже используется для определения значений. В этой программе все функции возвращают переменную типа Result, которая хранит номер ошибки. Если функция отработала без проблем, то она возвращает Ok (0).

6. У нас имеются две структуры. Первая PersonKey хранит логин, пароль, id пользователя и поле offset. Вторая структура PersonInfo хранит имя и фамилию пользователя и его возраст. Первые структуры записываются в бинарный файл keys.bin, вторые структуры в бинарный файл values.bin. Поле offset определяет положение соответствующей информации о пользователе во втором файле. Таким образом, получив PersonKey из первого файла, по полю offset можно извлечь из второго файла связанную с данным ключом информацию.

Зачем так делать? Это выгодно в том случае, если структура PersonInfo имеет большой размер. Извлекать массив маленьких структур из файла не накладно, а когда нам понадобится большая структура, её можно извлечь по уже известному адресу в файле.

Что такое bin файл и как его открыть в 2021 году

Иногда пользователи, устанавливая новые программы на компьютер, сталкиваются с непонятными файлами, которые невозможно открыть стандартными утилитами операционной системы. В такой ситуации начинающие «юзеры» отказываются от дальнейшей инсталляции, а любители докопаться до истины узнают, что скрывает за собой расширение .bin и когда нужен такой формат кодирования информации.

Бинарный формат

Документы, имеющие после названия приставку .bin, не несут никакого самостоятельного значения. Литеры «bin» — это сокращение от английского «binary», то есть двоичный. По сути, файл представляет собой контейнер или вместилище, в котором хранится закодированная информация. Кодировка не указывает на то, что содержит документ или как его открыть. Формат используют для хранения специального набора команд либо фиксированной последовательности действий.

Программисты изначально не предполагали, что пользователи будут открывать либо вносить изменения в bin-файлы. Разобраться в содержимом контейнера может только разработчик утилиты, которая использует такой тип документов. Наиболее часто такими литерами кодируют:

Образы DVD или CD дисков. Однако без сопроводительного документа формата .cue открыть исходник для чтения будет очень сложно.
Данные для установки игр. Контейнеры размещают в корневой директории диска с релизом. В них хранится вся установочная информация, а также указана последовательность выполнения процедур.
Операционные данные систем типа Юникс.
Ресурсную информацию об аппаратном обеспечении компьютера. Важный документ, который расположен в корневой папке устройства хранения данных. Его удаление либо изменение приводит к сбоям в работе операционной системы.
Прошивки WiFi-роутера.

В большинстве случаев открывать документы формата .bin нежелательно и даже опасно – случайное повреждение или удаление закодированной в них информации приводит к отказу работы компьютерных программ. В бинарных файлах нет важных для пользователя данных (за исключением случая с образами видеоматериалов). Содержимое bin-файла зависит от приложения, для которого он был создан, его назначения и многого другого.

Перед тем как пытаться открыть нужный документ, следует сделать его резервную копию. В случае если файл испортится, его всегда можно будет восстановить.

Программы для открытия

В операционных системах не установлены приложения для редактирования bin-файлов. Кроме того, онлайн-ресурсы также не смогут помочь пользователю взглянуть на содержимое контейнера. Открыть документ способен обычный текстовый редактор Notepad. Вшитая утилита способна представить любой цифровой код в виде текстовых символов. Однако часто на экран выводится беспорядочный набор числовых знаков и букв. Порядок открытия:

По файлу кликают ПКМ.
В выпадающем меню выбирают графу «открыть с помощью».
В открывшемся списке приложений кликают на нужной утилите. Если «Блокнота» в перечне приоритетных приложений не оказалось, указывают путь непосредственно к его директории.
После открытия пользователь может вносить изменения (если он уверен в своих действиях) и сохранять результат под тем же расширением.

Кроме «Блокнота», бинарные файлы можно открыть оригинальным софтом (программой, для которой создан документ) либо утилитами, позволяющими записывать и эмулировать CD-диски. В первом случае понадобится установочный исходник с драйверами или программы, поставляемые производителями вместе с цифровой техникой. Из утилит для записи CD-дисков наиболее часто используют:

Многие пользователи пасуют при столкновении с неизвестным форматом, но некоторые наиболее любопытные пытаются открыть странный документ, и впоследствии делают это без проблем. Однако содержимое может оказаться интересным только для программистов, а простым обывателям будет бесполезно.

Бинарные блоки

Рассматриваемый API умеет работать помимо файлов также с источниками, относящимися к другому типу и носящими название бинарных блоков (binary large object, blob). Бинарный блок — это объект, представляющий собой необработанные данные. Этот тип был создан для преодоления ограничений JavaScript на работу с двоичными данными. Обычно бинарный блок генерируется на основе файла, но так бывает не всегда. Это хороший способ работать с данными без необходимости загружать файл целиком в память, и он позволяет обрабатывать двоичную информацию небольшими фрагментами.

Существует несколько вариантов использования бинарных блоков, но главная их задача — обеспечивать эффективный способ обработки больших объектов сырых данных или больших файлов. Для создания бинарного блока на основе другого бинарного блока или файла в API предусмотрен метод slice(): slice(start, length, type). Этот метод возвращает новый бинарный блок, созданный на базе другого бинарного блока или файла. Первый атрибут указывает начальную точку, второй — длину нового бинарного блока, а третий представляет собой необязательный параметр, задающий тип данных.

Листинг 12.5. Работа с бинарными блоками

Databox=document. getElementById(‘databox’); var myfiles=document. getElementById(‘myfiles’); myfiles. addEventListener(‘change’, process, false);

Var files=e. target. files;

Var reader=new FileReader();

Var blob=file. slice(0,1000);

Function show(e, file)<

Var result=e. target. result; databox. innerHTML=’Имя: ‘+file. name+’
’; databox. innerHTML+^Тип: ‘+file. type+’
’;

Databox. innerHTML+=’Pa3Mep: ‘+file. size+’ bytes
’; databox. innerHTML+=’Pa3Mep бинарного блока: ‘+result. length+’ bytes
’; databox. innerHTML+=’Бинарный блок: ‘+result;

Window. addEventListener(‘load’, initiate, false);

Из-за несовместимости с ранее существовавшими методами сейчас ведется разработка нового метода для замены slice. До тех пор, пока новый метод не появится, для тестирования кода из листинга 12.5 в последних версиях браузеров Firefox и Google Chrome вам нужно будет заменять название slice названиями, содержащими браузерные префиксы: mozSlice или webkitSlice соответственно. Для получения более подробной информации зайдите на наш веб-сайт и изучите ссылки для этой главы.

В коде из листинга 12.5 мы делаем то же самое, что делали раньше, но на этот раз вместо считывания файла целиком с помощью метода slice() создаем бинарный блок. Длина блока равна 1000 байт, а начинается он с нулевого байта файла. Если пользователь загружает файл размером менее 1000 байт, то длина бинарного блока ограничивается размером файла (от начала до метки EOF, то есть End of File — конец файла).

Для отображения информации, полученной в процессе, мы регистрируем обработчик события onload с анонимной функцией, позволяющей отправить ссылку на объект file. Принимает данную ссылку функция show(), которая и выводит на экран значения свойств объекта.

У бинарных блоков огромное количество преимуществ. Например, можно в цикле сгенерировать несколько бинарных блоков из одного файла, а затем обработать получившиеся части одну за другой. Это удобно для создания асинхронных загрузчиков, программ для обработки изображений и решения многих других задач. Бинарные блоки открывают новые возможности кода JavaScript.

Preferred block size when reading/writing big binary files

I need to read and write huge binary files. Is there a preferred or even optimal number of bytes (what I call BLOCK_SIZE ) I should read() at a time?

One byte is certainly too little, and I do not think reading 4 GB into the RAM is a good idea either — is there a ‘best’ block size? or does that even depend on the file-system (I’m on ext4)? What do I need to consider?

Python’s open() even provides a buffering argument. Would I need to tweak that as well?

This is sample code that just joins the two files in-0.data and in-1.data into out.data (in real life there is more processing that is irrelevant to the question at hand). The BLOCK_SIZE is chosen equal to io.DEFAULT_BUFFER_SIZE which seems to be the default for buffering :

1 Answer 1

Let the OS make the decision for you. Use the mmap module:

It uses your OS’s underlying memory mapping mechanism for mapping the contents of a file into RAM.

Be aware that there’s a 2GB file size limit if you’re using 32-bit Python, so be sure to use the 64-bit version if you decide to go this route.

Note that you never had to call any read() functions and decide how many bytes to bring into RAM. This example just copies one file into another, but as you said in your example, you can do whatever processing you need in between. Note that while the entire file is mapped to an address space in RAM, that doesn’t mean it has actually been copied there. It will be copied piecewise, at the discretion of the OS.

Windows block binary file

Бинарные файлы