Температура nvme ssd linux

ssd M.2 nvme рабочие температуры

Есть ли счастливые владельцы nvme/M.2 ssd ? Смотрели ли вы на их температуру под нагрузкой ?

В ближайшей лавке был куплен R5MP240G8. Температура под 60C при компиляции меня как-то неприятно удивила (учитывая, что для него Warn/Crit температура 70/80С).

Правда температура сильно зависела от активности I/O и в простое тут же снижалась до 40С.

Проблема в том, что у меня слот М.2 находится под матерью и вентиляции там нет (на mini-ITX с местом туго).

Пришлось купить термопроводящую прокладку и положить в качестве радиатора люминевый лист, что IMHO решило проблему (пока выше 39С не видел).

9Вт это много для ssd в форм-факторе 2280 ?

Для sata/M.2 данные о максимальной потребляемой мощности не показываются в smartctl

Есть ли счастливые владельцы nvme/M.2 ssd ?

Смотрели ли вы на их температуру под нагрузкой ?

Нет, ибо мне пофигу. Если не забуду, то посмотрю когда будет много данных записываться.

Есть ли счастливые владельцы nvme/M.2 ssd ?

Смотрели ли вы на их температуру под нагрузкой ?

Нет, потому что и насрать. С другой стороны, на моём pcie nvme стоит довольно жирный радиатор.

Температура под 60C при компиляции меня как-то неприятно удивила

Samsung SSD 970 EVO. Запустил чтение файлов в хомяке через find, подождал три минуты:

Источник

Как проверить температуру NVMe SSD в Linux?

в Linux 29.09.2019 3 комментария 874 Просмотров

Когда я купил Dell Latitude E7470 я решил сделать на нём тесты в Linux, он шёл с SS hynix SC300 M.2 2280 256 ГБ SSD. Sk hynix SC300 подключен через интерфейс SATA и имеет скорость чтения около 510 МБ/с и скорость записи около 380 МБ/с (скорость интерфейса SATA 3.0 составляет около 600 МБ/с, что в реале составляет около 550 МБ/с). Проведя некоторые исследования, я обнаружил, что Dell Latitude E7470 поддерживает интерфейсы SATA 3.0 и PCIe через разъем M.2. К сожалению, Dell Latitude E7470 M.2 поддерживает только до PCIe x2, а не полные 4 линии PCIe x4. В любом случае, я всё ещё хочу обновить свой SSD на больший и более быстрый. В то время, когда я не знал, какой NVME SSD подходит для покупки, через несколько дней я решил перейти на Samsung PM981 NVME SSD (фактический номер модели будет показан ниже).
Ноутбук, который я купил, шёл с предустановленной Windows 10. Поэтому, прежде чем я установил Kubuntu 18.04 LTS, я скачал CrystalDiskInfo, чтобы проверить все подробности об обновленном SSD Samsung PM981 NVME. Я не делал ни одного снимка экрана, но CrystalDiskInfo дал мне температуру Samsung PM981, которая была около 50 градусов, которая довольно высокая, когда ноутбук простаивал. После завершения установки Kubuntu я ещё раз проверил температуру нового SSM-накопителя NVME в Kubuntu, для этого я установил nvme-cli и smartmontools для проверки температуры NVME SSD в Kubuntu. И vnme-cli, и smartmontools дают схожие результаты, но намного ниже, чем CrystalDiskInfo в Windows 10.

Проверка температуры твердотельного накопителя NVME с помощью nvme-cli

nvme-cli – это новый отличный инструмент для просмотра дополнительной информации о вашем SSM-накопителе NVME. Он поддерживает несколько дистрибутивов Linux, за дополнительной информацией обращайтесь к их github.

Чтобы установить nvme-cli на дистрибутивы Ubuntu

sudo add-apt-repository ppa:sbates
sudo apt-get update

Установить nvme-cli CentOS/Fedora

sudo dnf install nvme-cli

Чтобы перечислить все nvme на вашем рабочем столе или ноутбуке

Это вывод на моём ноутбуке

Узел SN Модель Формат пространства имен FW Rev
—————- ——————– ————– ————————– ——— ————— ———– —————- ——–
/ dev / nvme0n1 S3TNNB0K430679 SAMSUNG MZVLB512HAJQ-000L7 1 56,24 ГБ / 512,11 ГБ 512 B + 0 B 4L2QEXA7

Чтобы увидеть больше информации о вашем диске (имя вашего SSM NVME обычно nvme0, nvme1,… и т. д., зависит от того, сколько дисков у вас в системе).

01 $ sudo nvme smart-log /dev/nvme0n1


Проверка температуры NVME SSD с помощью smartmontools

smartmontools – ещё один отличный инструмент для мониторинга информации о здоровье и здоровье ваших жестких дисков / жестких дисков. Из того, что я прочитал, некоторые из новых SSM NVME не будут хорошо работать с smartmontools, но вы должны попробовать, потому что это отличный инструмент с большим количеством информации. Хотя smartctl может не знать все интеллектуальные значения, относящиеся к конкретному поставщику, вы можете указать в Google модель накопителя «интеллектуальные атрибуты» и найти документы об определенных атрибутах, чтобы получить более подробную информацию.

Читайте также:  Разрешить windows управлять подключениями домашней группы что это

Чтобы установить smartmontools в дистрибутивах Ubuntu

Источник

NVMe temperature

Do you use Linux machines in Real-time task? If yes, it is presumably a excellent plan to regularly inspect the health of the NVMe drives used on Linux computers. Here is how you could do this.

The newer super fast NVMe drives provide absolutely amazing performance, but one big problem with these dries is that they are going to throttle if the drivers get very hot temperature. To prevent the issue of overheating and throttling NVMe drives we recommend to check temperature on a daily basis. NVMe driver is natively included in modern Linux systems. With nvme-cli package you can do it and many other interesting tasks with NVMe drives.

Using nvme-cli, you could check temperature from the drive with this command:

nvme smart-log /dev/nvme0 or nvme smart-log /dev/nvme0 | grep “temperature”

Let’s run a short test on the drives and check list of drives:

How to install nvme-cli?

To install nvme-cli package, run:

CentOS/Fedora
sudo dnf install nvme-cli

Ubuntu
sudo apt-get install nvme-cli

With Ubuntu probably you need to add the PPA to your sources.

sudo add-apt-repository ppa:sbates
sudo apt-get update

Please take a note that the Linux kernel version is at least 3.3 and that you have the Linux NVMe drivers installed. NVMe devices should show up under /dev/nvme*

According to the technical documentation, the NVMe drives supports operating temperatures from 0°C – 70°C.

About NVMe
VM Express, NVMe, or Non-Volatile Memory Host Controller Interface Specification (NVMHCI), is a logical device interface specification for accessing non-volatile storage media attached through PCIe bus. NVM-Express is a quick, climbable host controller interface designed to address the needs for PCI Express technology based solid state drives.
The modern NVMe drives, on the other way, provide general speeds as high as 3500MB/s. That’s 5x over SATA SSDs and 10x over SATA drives!

Источник

Мониторинг и проверка состояния SSD в Linux

И снова здравствуйте. Перевод следующей статьи подготовлен специально для студентов курса «Администратор Linux». Поехали!

Что такое S.M.A.R.T.?

S.M.A.R.T. (расшифровывается как Self-Monitoring, Analysis, and Reporting Technology) – это технология, вшитая в накопители, такие как жесткие диски или SSD. Ее основная задача – это мониторинг состояния.

На деле, S.M.A.R.T. контролирует несколько параметров во время обычной работы с диском. Он мониторит такие параметры как количество ошибок чтения, время запуска диска и даже состояние окружающей среды. Помимо этого, S.M.A.R.T. также может проводить тесты с использованием накопителя.

В идеале, S.M.A.R.T. позволит прогнозировать предсказуемые отказы, такие как отказы, вызванные механическим износом или ухудшением состояния поверхности диска, а также непредсказуемые отказы, вызванные каким-либо неожиданным дефектом. Поскольку обычно диски не выходят из строя внезапно, S.M.A.R.T. помогает операционной системе или системному администратору идентифицировать те диски, которые скоро выйдут из строя, чтобы их можно было заменить и избежать потери данных.

Что не относится к S.M.A.R.T.?

Все это, конечно, круто. Однако S.M.A.R.T. – это не хрустальный шар. Он не может спрогнозировать отказ со стопроцентной вероятностью и не может гарантировать, что накопитель не выйдет из строя без предупреждения. В лучшем случае S.M.A.R.T. стоит использовать для оценки вероятности поломки.

Учитывая статистический характер прогнозирования отказов, технология S.M.A.R.T. особенно интересует компании, использующие большое количество устройств для хранения данных. Чтобы выяснить, насколько точно S.M.A.R.T. может прогнозировать отказы и сообщать о необходимости замены дисков в центрах обработки данных или серверных мейнфреймах, даже проводились специальные исследования.

В 2016 году Microsoft и университет штата Пенсильвания провели исследование, связанное с SSD.

Согласно этому исследованию, некоторые атрибуты S.M.A.R.T. считаются хорошими индикаторами неизбежности отказа. В особенности в статье упоминаются:

Счетчик переназначенных (Realloc) секторов:

Несмотря на то, что основополагающие технологии радикально отличаются, этот показатель остается востребованным как в мире SSD, так и в мире жестких дисков. Стоит отметить, что из-за особенностей алгоритмов балансировки износа, используемых в SSD, когда несколько секторов выходят из строя, то с большой вероятностью можно предположить, что скоро выйдут из строя еще больше.

Ошибки в цикле Program/Erase (P/E):

Это признак проблем с основным оборудованием флеш-памяти, связанных с тем, что диск не может удалить данные из блока или сохранить их там. Дело в том, что процесс производства несовершенен, поэтому появление таких ошибок вполне можно ожидать. Однако флеш-память имеет ограниченное число циклов записи/удаления. По этой причине внезапное увеличение числа событий может сигнализировать о том, что диск достигает своего предела, и вполне ожидаемо, что другие ячейки памяти также начнут выходить из строя.

CRC и неисправимые ошибки («Data Error ”):

События такого типа могут быть вызваны ошибками хранения, либо проблемами с внутренним каналом связи накопителя. Этот индикатор учитывает как исправленные ошибки (без проблем сообщенные хост-системе), так и неисправленные ошибки (из-за которых происходит блокировка диска, сообщившего хост-системе о невозможности чтения). Другими словами, исправляемые ошибки невидимы для операционной системы, тем не менее они влияют на производительность накопителя, увеличивая вероятность переназначения сектора.

Читайте также:  Audiobook builder для windows

SATA downshift count:

Из-за временных помех, проблем с каналом связи между накопителем и хостом или из-за внутренних проблем с накопителем, интерфейс SATA может переключиться на более низкую скорость передачи сигналов. Снижение скорости соединения ниже номинального уровня оказывает очевидное влияние на производительность диска. Таким образом, этот показатель является наиболее значимым, в особенности, когда он коррелирует с наличием одного или нескольких предыдущих показателей.

Согласно исследованию, 62% вышедших из строя SSD показали наличие как минимум одного из вышеприведенных симптомов. С другой стороны можно сказать, что 38% изученных накопителей сломались без индикации этих симптомов. В исследованиях не упоминалось, были ли какие-то еще сообщения об отказах от S. M. A. R. T. по другим «симптомам». По этой причине нельзя напрямую сопоставить эти значения с отказом без предупреждения в 36% случаев из статьи от Google.

В исследовании Microsoft и университета штата Пенсильвания не раскрывались модели исследуемых дисков, однако, по словам авторов, большинство дисков поступают от одного и того же поставщика в течение уже нескольких поколений.

В ходе исследования также были отмечены значительные различия в надёжности между различными моделями. Например, «худшая» изученная модель показывает двадцатипроцентную частоту отказов через 9 месяцев после первой ошибки переназначения и до 36-ти процентов отказов в течение 9 месяцев после первого появления ошибок данных. «Худшей» моделью было названо более старое поколение дисков, рассматриваемых в статье.

С другой стороны, с теми же симптомами, что приведены выше, накопители нового поколения отказали в 3% и 20% в соответствии с теми же ошибками. Трудно сказать, можно ли объяснить эти цифры улучшением конструкции накопителя и производственного процесса, или здесь роль играет эффект устаревания накопителя.

Самое интересное, что упоминается в статье (я уже писал об этом ранее), так это то, что увеличение количества зарегистрированных ошибок может случить тревожным индикатором:

«Существует большая вероятность появления симптомов, предшествующих отказу SSD, которые активно себя проявляют и быстро прогрессируют, сильно сокращая время жизни накопителя до нескольких месяцев.»

Другими словами, одна случайная ошибка, о которой сообщил S.M.A.R.T., определенно не должна рассматриваться как сигнал о неизбежном отказе. Однако, когда исправный SSD начинает сообщать о все большем количестве ошибок, следует ждать краткосрочного или среднесрочного сбоя.

Но как узнать, в каком состоянии сейчас ваш SSD? Для удовлетворения своего любопытства, либо из желания начать внимательно следить за своими накопителями, вы можете использовать инструмент мониторинга smartctl .

Использование smartctl для мониторинга состояния вашего SSD в Linux

Чтобы следить за S.M.A.R.T статусом вашего диска, я предлагаю использовать инструмент smartctl , который является частью пакета smartmontool (по крайней мере на Debian/Ubuntu).

smartctl – это инструмент командной строки, но это особенно помогает в случаях, когда вам нужно автоматизировать сбор данных, например, с ваших серверов.

Первый шаг в использовании smartctl – это проверка того, есть ли на вашем диске S.M.A.R.T. и поддерживается ли он инструментом:

Как видите, мой внутренний жесткий диск ноутбука действительно поддерживает S.M.A.R.T. и он включен. Итак, как теперь получить S.M.A.R.T статус? Есть ли какие-то зафиксированные ошибки?

Выдача отчета «о всей S.M.A.R.T. информации о диске» — это опция -a :

Понимание выходных данных команд smartctl

На выходе получается много информации, которую не всегда легко понять. Наиболее интересной, вероятно, является та часть, которая помечена как “Vendor Specific SMART Attributes with Thresholds”. Она сообщает различные статистические данные, собранные S.M.A.R.T. устройством, и позволяет сравнить эти значения (текущие или худшие за все время) с некоторым порогом, определенным поставщиком.

Например, вот мои отчеты о переназначенных секторах на диске:

Вы можете заметить атрибут «Pre-fail». Он означает, что значение является аномальным. Таким образом, если значение превышает пороговое, велика вероятность сбоя. Другая категория »Old_age» используется для атрибутов, отвечающих значениям «нормального износа».

Последнее поле (здесь со значением «3») соответствует исходному значению атрибута, которое сообщает диск. Обычно это число имеет физическое значение. Здесь это фактическое количество переназначенных секторов. Для других атрибутов это может быть температура в градусах Цельсия, время в часах или минутах или количество раз, когда для диска было выполнено определенное условие.

В дополнение к исходному значению, диск с поддержкой S.M.A.R.T. должен сообщать «нормализованные значения» (значения полей, самые худшие и пороговые). Эти значения нормируются в диапазоне 1-254 (0-255 для пороговых значений). Прошивка диска выполняет эту нормализацию с помощью некоторого внутреннего алгоритма. Кроме того, разные производители могут нормализовать один и тот же атрибут по-разному. Большинство значений представлены в процентах, причем чем выше, тем лучше, но так бывает не всегда. Когда параметр ниже или равен пороговому значению, указанному производителем, диск считается неисправным в терминах этого атрибута. Помня о всех указаниях из первой части статьи, когда атрибут, показывающий ранее значение “pre-fail” все-таки дал сбой, наиболее вероятно, что скоро диск выйдет из строя.

Читайте также:  Состояние ожидание установки windows 10

В качестве второго примера возьмем “seek error rate”:

На самом деле (и это основная проблема отчетности S.M.A.R.T.), точное значение полей каждого атрибута понимает только поставщик. В моем случае Seagate использует логарифмическую шкалу для нормализации значения. Таким образом, «71» означает примерно одну ошибку на 10 миллионов запросов (10 в степени 7,1). Забавно, что самым худшим показателем за все время была одна ошибка на 1 миллион запросов (10 в 6-й степени).

Если я правильно понимаю, то это значит, что головки моего диска сейчас расположены точнее, чем раньше. Я не следил за этим диском внимательно, поэтому анализирую полученные данные весьма субъективно. Возможно накопитель просто надо было немного «обкатать» с тех пор как он был введен в эксплуатацию? Или может быть это следствие механического износа деталей и, следовательно, теперь имеет место меньшая сила трения? В любом случае, какова бы ни была причина, это значение является скорее показателем производительности, чем ранним предупреждением об ошибке. Так что меня оно не сильно беспокоит.

Помимо вышеприведенного и трех крайне подозрительных ошибок, записанных около шести месяцев назад, этот диск находится в удивительно хорошем состоянии (по данным S.M.A.R.T.) для стокового диска ноутбука, проработавшего более 1100 дней (26423 часа).

Из любопытства я провел этот же тест на гораздо более новом ноутбуке, оснащенном SSD:

Первое, что бросается в глаза, так это то, что несмотря на наличие S.M.A.R.T., устройства нет в базе данных smartctl . Но это не помешает инструменту собирать данные с SSD, однако он не сможет сообщить точные значения различных атрибутов, специфичных для поставщика:

Выше вы видите выходные данные абсолютно нового SSD. Данные понятны даже в случае отсутствия нормализации или метаинформации для данных конкретного поставщика, как в моем случае с “Unknown_SSD_Attribute.” Я могу только надеяться, что в последующих версиях smartctl в базе данных появятся данные об этой модели диска, и я смогу лучше определять потенциальные проблемы.

Проверьте свой SSD в Linux с помощью smartctl

До сих пор мы рассматривали данные, собранные во время нормальной работы накопителя. Однако протокол S.M.A.R.T. также поддерживает несколько команд для автономного тестирования для запуска диагностики по требованию.

Автономное тестирование может проводиться во время обычных операций с диском, если не было указано иное. Поскольку тест и запросы ввода-вывода хоста будут конкурировать, производительность диска упадет на время теста. Спецификация S.M.A.R.T. определяет несколько видов автономного тестирования:

Короткое автономное тестирование ( -t short )
Такой тест проверит электрическую и механическую, производительность, а также производительность чтения диска. Короткое автономное тестирование обычно занимает всего несколько минут (обычно от 2 до 10).

Расширенное автономное тестирование ( -t long )
Этот тест занимает почти в два раза больше времени. Как правило, это просто более детальная версия короткого автономного тестирования. Кроме того, этот тест будет сканировать всю поверхность диска на наличие ошибок данных без ограничения по времени. Продолжительность теста будет пропорциональна размеру диска.

Транспортировочное автономное тестирование ( -t conveyance )
Этот тестовый набор предложен в качестве сравнительно быстрого способа проверки на возможные повреждения, возникшие во время транспортировки устройства.

Вот примеры, взятые с тех же дисков, что были выше. Я предлагаю вам угадать, где какой:

Сейчас производится проверка. Давайте дождемся завершения, чтобы посмотреть результат:

Проведем тот же тест на другом диске:

И еще раз, отправим в сон на две минуты и посмотрим результат:

Интересно, что в этом случае мы видим, что производители диска и компьютера, похоже, уже тестировали диск (на времени жизни в 0 часов и 12 часов). Я сам определенно был гораздо менее озабочен состоянием диска, чем они. Итак, поскольку я уже показал быстрые тесты, то и расширенный тоже запущу, чтобы посмотреть как это происходит.

Судя по всему на этот раз ждать придется гораздо дольше, чем при проведении короткого теста. Так что давайте посмотрим:

В последнем тесте обратите внимание на различие в результатах, полученных с помощью короткого и расширенного теста, даже если они были выполнены один за другим. Ну, возможно, этот диск не в таком уж и хорошем состоянии! Отмечу, что тест остановился после первой ошибки чтения. Поэтому, если вы хотите получить исчерпывающую информацию обо всех ошибках чтения, вам придется продолжать тест после каждой ошибки. Я призываю вас взглянуть на одну очень хорошо написанную страницу руководства smartctl(8) для получения дополнительной информации о параметрах -t select , N-max и -t select , чтобы уметь делать так:

Источник

Оцените статью