- Как создать свою операционную систему с нуля
- Благодаря этой книге вы научитесь следующему:
- Что рекомендуется знать перед прочтением книги:
- Как написать windows с нуля
- Определение объёма оперативной памяти
- Первое ядро
- Сборка ядра
- Сборка образа диска
- Автоматизация сборки или Makefile
- Примечание для пользователей ОС Windows
- Загрузка системы на реальной машине
Как создать свою операционную систему с нуля
Книга «Операционная система с 0 до 1» опубликована на GitHub и имеет более 2 000 звездочек и 100 форков. Как понятно из названия, прочитав её, вы сможете создать свою собственную операционную систему — и, пожалуй, мало что в мире программистов может быть круче.
Благодаря этой книге вы научитесь следующему:
- Узнаете, как создать операционную систему на основе технической документации железа. В реальном мире это так и работает, вы не сможете использовать Google для быстрых ответов.
- Поймёте, как компьютерные компоненты взаимодействуют друг с другом, от софта к железу.
- Научитесь писать код самостоятельно. Слепое копирование кода не есть обучение, вы действительно научитесь решать проблемы. Кстати, слепое копирование может быть еще и опасно.
- Освоите всем привычные инструменты для низкоуровневой разработки.
- Познакомитесь с языком ассемблера.
- Выясните, из чего состоят программы и как операционная система запускает их. Небольшой обзор этой темы для любознательных мы давали в одном из наших материалов.
- Разберётесь, как проводить отладку программы прямо на железе с GDB и QEMU.
Если читать целую книгу у вас нет времени, но вы хотите получить краткий экскурс, прочтите две наших статьи, посвященных созданию ядра для собственной ОС: часть 1 и часть 2.
Что рекомендуется знать перед прочтением книги:
- Язык программирования C. Быстро освоить его можно, следуя нашему руководству.
- Базовые знания Linux. Достаточно изучить соответствующую рубрику на нашем сайте.
- Базовые знания в физике: атомы, электроны, протоны, нейтроны, напряжение.
- Закон Ома о соотношении напряжения, силы тока и сопротивления.
Книга совершенствуется и редактируется почти каждый день: вы и сами можете внести изменения или исправить опечатку. Операционная система, разработка которой послужила «сюжетом» для этой книги, опубликована на GitHub и также со временем улучшается.
Как написать windows с нуля
Приветствую всех своих читателей!
Предыдущие выпуски могли быть несколько запутанными. Начальная загрузка, Assembler, BIOS. Сегодня мы наконец переходим к более интересной и понятной части — мы начинаем писать ядро. И писать мы его будем на языке высокого уровня Си.
В начальный загрузчик осталось внести всего пару дополнений и он будет полностью готов грузить любые 32-битные ядра.
Определение объёма оперативной памяти
Конечно, можно подсчитать объём памяти вручную в ядре — перебирать адреса от 0x100000 и пытаться записать туда значение отличное от нуля и 0xFF. Если при чтении мы получаем полученное значение, то всё хорошо, иначе память кончилась — запоминаем адрес последнего удачного чтения, это и будет объёмом оперативной памяти. Однако такой способ имеет два недостатка:
1) Его следует использовать до включения страничной адресации, чтобы иметь доступ ко всей физической памяти, либо устраивать запись через «окно» временной страницы. Лишняя трата времени, при условии, что тестирование памяти BIOS и так выполняет при начальной инициализации, а мы делаем двойную работу.
2) Всё хорошо пока память представляет собой непрерывный участок адресов, но на современных системах с большим объёмом памяти это правило может быть нарушено. К тому же BIOS пишет в самую обычную память таблицы ACPI, которые пригодятся операционной системе и не стоит их затирать до прочтения.
Из этого следует, что лучше спросить про объём оперативной памяти у BIOS, благо он предоставляет все необходимые функции.
Исторически первой функцией определения объёма оперативной памяти было прерывание 0x12. Оно не принимает никаких входных параметров, в на выходе в регистре AX содержится размер базовой памяти в килобайтах. Базовая память — те самые 640 КБ доступные в реальном режиме. Сейчас вы уже не сможете найти компьютер, где бы было менее 640 КБ памяти, но мало ли. Использовать её нам смысла нет — если процессор поддерживает защищённый режим, то вряд ли у него будет меньше нескольких мегабайт памяти.
Объёмы памяти росли и 640 КБ стало мало. Тогда появилась новая функция — прерывание 0x15 AH=0x88. Она возвращает в AX размер расширенной памяти (свыше 1 МБ) в килобайтах в AX. Эта функция не может возвращать значения больше 15 МБ (15 + 1 итого 16 МБ).
Когда и 16 МБ стало недостаточно появилась новая функция — прерывание 0x15, AX=0xE801. Она возвращает результаты аж в 4 регистрах:
AX — размер расширенной памяти до 16 МБ в килобайтах
BX — размер расширенной памяти сверх 16 МБ к блоках по 64 КБ
CX — размер сконфигурированной расширенной памяти до 16 МБ в килобайтах
DX — размер сконфигурированной расширенной памяти сверх 16 МБ в блоках по 64 КБ
Что такое «сконфигурированная» память производители BIOS судя по всему не договорились, поэтому надо просто, если в AX и BX нули, брать значение из CX и DX.
Но и этого оказалось мало. Ведь все перечисленные выше функции имеют ограничение объёма памяти в 4 ГБ, к тому же не учитывают то, что память может быть не непрерывным блоком. Поэтому в новых BIOS появилась ещё одна функция — прерывание 0x15, AX=0xE820. Она возвращает не просто число, а карту памяти. Входные параметры:
EAX=0xE820
EDX=0x 534D4150 («SMAP»)
EBX — смещение от начала карты памяти (для начала 0)
ECX — размер буфера (как правило 24 байта — размер одного элемента)
ES:DI — адрес буфера, куда надо записать очередной элемент
EAX=0x 534D4150 («SMAP»)
EBX — новое смещение для следующего вызова функции. Если 0, то вся карта памяти прочитана
ECX — количество реально возвращённых байт (20 или 24 байта)
В указанном буфере содержится очередной элемент карты памяти.
Каждый элемент карты памяти имеет следующую структуру (напишу в синтаксисе Си, потому что разбор данных мы будем делать уже в ядре):
Последний элемент структуры не обязателен. Ещё в одном источнике видел, что перед запросом элемента стоит поместить туда единичку. Конечно, сейчас мы не поддерживаем ACPI, но лучше заранее позаботится о том, чтобы получить как можно больше данных. В отличии от параметров памяти, всё остальное можно легко узнать и из защищённого режима напрямую, без BIOS.
Регионы памяти, описываемые картой, могут быть нескольких типов:
1 — Обычная память. Может быть свободно использована ОС для своих целей. Пока мы только к ней и будем обращаться, а всё остальное пропускать.
2 — Зарезервировано (например, код BIOS). Эта память может быть как физически недоступна для записи, так и просто запись туда нежелательна. Такую память лучше не трогать.
3 — Доступно после прочтения таблиц ACPI. Вероятно, именно в этих блоках эти таблицы и хранятся. Пока драйвер ACPI не прочитает таблицы, эту память лучше не трогать. Потом можно использовать так же, как и память типа 1.
4 — Эту память следует сохранять между NVS сессиями. Такую память мы трогать не будем, пока не узнаем, что такое NVS сессии 🙂
Не все BIOS могут поддерживать эту функцию. Если какая-то функция не поддерживается, то при выходе из неё установлен флаг переполнения и следует обращаться к более старой. Мы будем использовать формат карты памяти функции 0xE820. Если саму эту функцию вызвать не получилось — получать объём памяти обычными средствами и создавать свою собственную карту памяти из одного элемента. Поскольку определение объёма памяти задача нужная и для запуска 32-битного и для запуска 64-битного ядра, лучше оформить её в виде подпрограммы. Карту памяти разместим по адресу 0x7000. Не думаю, что она может быть больше пары килобайт. Последний элемент вручную сделаем типа 0 — такого типа не возвращает BIOS и это и будет признаком конца.
Ну вот и готов наш начальный загрузчик для 32-битных ядер. В заключение привожу его полный код и мы перейдём к ядру.
Первое ядро
Ядро пока у нас будет состоять из двух файлов — startup.asm и main.c. startup.asm нужен для того, чтобы быть уверенными, что управление попадёт на функцию kernel_main. Ведь она может быть не в начале файла, а содержимое startup.o мы полностью контролируем и если укажем его первым линкеру, то будем управлять и первыми байтами двоичного файла.
Ну вот и последний наш код на чистом Assembler :-). Он выполняет простейшую задачу — уложить в стек три аргумента для функции kernel_main и передать на неё управление. После возврата из неё ядро уходит в бесконечный цикл. По соглашению вызова функций Си параметры следует пихать в стек в образом порядке. Также этот код инициализации загружает новое значение в GDTR — теперь таблица дескрипторов сегментов находится в пространстве ядра и даже если мы отмонтируем первый мегабайт не произойдёт никаких ошибок.
А теперь самое вкусное — простейшее ядро на языке высокого уровня:
Это ядро не делает ничего особенного — просто выводит строку «Hello world!» на последнюю строчку текстового экрана. Структура описанная в начале будет нужна для доступа к списку загруженных модулей.
Важно помнить, что никакой стандартной библиотеки у нас нет — нам доступны только те функции, которые мы сделаем сами. Все printf, strcpy, memcpy и т. п. придётся реализовывать самостоятельно, не пытайтесь обратиться к ним. В следующем выпуске мы займёмся созданием нашего собственного жутко урезанного аналога libc, чтобы программировать было удобнее. Тут начинается самая интересная часть, а принятые решения во многом повлияют на всю структуру системы.
Сборка ядра
Исполняемые файлы собираются в два этапа — компиляция, а потом линковка. На первом этапе компилятор преобразует исходный код в команды процессора и сохраняет всё это в объектный файл. Каждый модуль системы сохраняется в отдельном файле. В этом файле так же содержится информация о функциях, описанных в модули, поэтому из одного файла можно свободно вызывать функцию из другого. Весь код в объектных файлах не привязан к конкретным адресам. На втором этапе линкер собирает все объектные файлы в один бинарный. При этом код привязывается к конкретным адресам (если, конечно, мы не собираем динамически загружаемую библиотеку), вместо ссылок на функции подставляются нужные адреса. Нам нужно получить на выходе особый двоичный файл. Это просто код и данные, без каких-либо заголовков (то есть это не PE и не ELF). В качестве базового адреса используется адрес 0xFFC00000. Для упрощения этого мы опишем всё, что нам нужно в специальном формате скрипта ld:
Этот скрипт говорит, что наш файл будет лежать в памяти непрерывным блоком начиная с адреса 0xFFC00000. В самом начале будет идти секция кода, потом секция read-only данных, затем обычных данных, потом неинициализированных. Все секции выровнены на размер страницы 4 КБ (вдруг мы потом захотим защитить на уровне таблицы страниц код от записи). Последнее описание секции .empty необходимо для того, чтобы даже неинициаилизорованные переменные занимали место в файле (там будут нули). Ведь начальный загрузчик выделяет память для ядра руководствуясь размером файла.
Собрать всё ядро можно следующими командами:
Параметр GCC -ffreestanding указывает ему отключить все стандартные библиотеки. Ведь они привязаны к конкретной операционной системе, а мы пишем новую.
Сборка образа диска
Обойдусь без лишних комментариев и просто приведу линуксовый скрипт сборки образа:
Он предполагает, что все скомпилированные файлы лежат в bin в текущем каталоге, а ещё имеется каталог disk, в котором лежит boot.cfg следующего содержания:
Если вы всё сделали правильно, полученный образ можно запустить в эмуляторе или даже на реальном железе и вы получите подобную картину:
Загрузчик считывает конфигурационный файл, загружает ядро, переходит в защищённый режим и передаёт ему управление. Получив его, наше ядро выводит последнюю строку на экран. Это лишь начало долгого пути, мы переходим к самой интересной части разработки. Теперь выпуски будут гораздо более простым для восприятия, благодаря использованию языка высокого уровня, который как я надеюсь все и так знают. Если вы не хотите разбираться с Assembler, можете просто взять мой готовый загрузчик и startup.asm и изменять уже только содержимое main.c, поскольку весь код до этого не диктует жёстко какие-либо параметры ядра (кроме ФС с которой мы загружаемся) и позволяет построить на своей базе что угодно.
Автоматизация сборки или Makefile
Вы могли заметить, что вручную набивать столько команд достаточно утомительно. К тому же не всегда есть необходимость перекомпилировать все файлы. Например, если startup.asm не был изменён, можно не вызывать fasm. Специально для упрощения компиляции приложений была придумана утилита make, которая входит в стандартную поставку GCC и MinGW.
Любой Makefile стоит из набора правил с такой структурой:
Первое правило, которое должно быть в любом Makefile — цель all. make смотрит на зависимости цели all и компилирует их, а затем выполняет команды и этой цели. Для каждой другой цели сначала собираются её зависимости. При этом имя цели и имя зависимостей могут совпадать с именами реальных файлов. В таком случае пересборка цели произойдёт только если исходники были изменены.
Ещё одна цель, которая часто используется в Makefile — clean. Её задача удалить все бинарные файлы, чтобы начать сборку «с чистого листа». Вот так может выглядеть Makefile для ядра:
Этот текст необходимо сохранить в файл с именем Makefile (без расширения) в каталог с исходными текстами ядра. Теперь достаточно выполнить команду make без параметров, находясь в этом каталоге и мы получим файл kernel.bin (либо сообщения об ошибках, если что-то пошло не так).
А вот так я собираю загрузчик:
Ну и наконец расскажу про вызов других Makefile из одного. Я достаточно ленив, чтобы даже заходить в каталоги с каждым компонентом системы, поэтому создал 1 Makefile, который собирает сразу всю систему. У меня есть папка src, в ней подкаталоги: boot, kernel, make_listfs. В самой src находится вот такой Makefile:
Теперь, находясь в каталоге src я просто пишу make и получаю полностью собранную систему, а если написать make clean, то все двоичные файлы будут удалены и останутся только исходники.
Ну и в довершение последний скрипт, который выполняет полную компиляцию и сборку всех компонентов и образа диска. В одном каталоге с ним надо разместить src, пустой каталог bin и каталог disk с файлом boot.cfg.
С таким набором скриптов сборка система становится предельно простой, особенно если учесть, что последний скрипт можно запускать двойным кликом из файлового менеджера. Различные команды вроде dd, cp, rm не существуют под Windows, поэтому её пользователям пригодится пакет MSYS или Cygwin. Однако простая сборка всех компонентов будет работать даже если у вас есть только GCC и fasm (make_listfs легко скомпилируется и запустится в виде Windows-приложения).
Примечание для пользователей ОС Windows
ld для Windows не совсем полноценный — он не поддерживает вывод сразу в бинарный файл, только в EXE. Исправить это можно создав сначала EXE (ld не обратит внимание, что базовые адреса секций невозможные для вендовых бинарников), а потом вытащить оттуда чистые данные с помощью objcopy. Если вы столкнётесь с тем, что ld отказывается создавать файл kernel.bin, воспользуйтесь вот таким Makefile для ядра:
Заодно уберите строку OUTPUT_FORMAT(«binary») из script.ld. Теперь и под Windows получится собрать ядро системы.
Загрузка системы на реальной машине
После таких успехов у некоторых может возникнуть желание опробовать новую ОС на реальном железе. Это не представляет проблем. С помощью HxD в Windows откройте дискету или флешку, выбрав вариант «Открыть диск». При открытии флешки важно открыть именно саму флешку, а не её раздел. В другой вкладке откройте disk.img, выделите его содержимое полностью и скопируйте на диск с его самого начала. После этого можно нажать «Сохранить» и дождаться окончания записи. Все данные на флешке или дискете при этом будут уничтожены, а для того, чтобы её использовать снова по назначению, её придётся заново отформатировать!
Пользователи Linux могут поступить проще — выполнить специальную команду в терминале. Для дискеты:
Вместо sdX надо подставить настоящее имя устройства (sda, sdb, sdc, sdd и т. д.). Главное при этом не перепутать и не записать образ на системный диск, уничтожив все данные. Разумеется, обе команды должны выполняться от имени root или с помощью sudo.
После этого надо настроить в BIOS загрузку с дискеты или флешки (старые BIOS не поддерживают флешки) и наслаждаться видом «Hello world».