Interpretation de l'utilisation des ressources du serveur.

Ce site est optimisé pour être consulté depuis un navigateur moderne dans lequel JavaScript est activé.

Interpretation de l'utilisation des ressources du serveur.

Malakai

Salut a tous,

J'ai quelques soucis de lenteur sur le serveur que j'ai a la maison (HP MicroServer Gen 8), alors du coup j'ai essaye de voir ce qui l'occupe tellement. J'ai recupere des sorties de commandes mais je n'arrive pas bien a interpreter les resultats, je me tourne donc vers vous pour voir si vous pouvez m'eclairer.
Le serveur dispose de 4 disques dur en raid5. Il fait tourner une machine virtuelle (libvirt/qemu) dans laquelle j'ai installe une seedbox grace a docker (donc plusieurs images docker avec tous les outils necessaires pour automatiser le telechargements de media).

La sortie de la commande top :

top - 11:50:03 up 23:59,  1 user,  load average: 16,33, 16,59, 16,15
Tasks: 246 total,   2 running, 244 sleeping,   0 stopped,   0 zombie
%Cpu(s):  0,7 us,  0,3 sy,  0,0 ni,  0,0 id, 98,9 wa,  0,0 hi,  0,1 si,  0,0 st
KiB Mem:   8152216 total,  8020528 used,   131688 free,   432464 buffers
KiB Swap:  7811068 total,        0 used,  7811068 free.  3780036 cached Mem

  PID USER      PR  NI    VIRT    RES    SHR S  %CPU %MEM     TIME+ COMMAND                                                                                  

 1930 libvirt+  20   0 5817788 3,052g  10224 S   5,6 39,3 408:19.69 qemu-system-x86                                                                          

 1932 root      20   0       0      0      0 S   1,0  0,0  60:29.02 vhost-1930                                                                               

45533 driss     20   0   27972   3044   2408 R   0,7  0,0   0:00.02 top                                                                                      

  151 root       0 -20       0      0      0 R   0,3  0,0   1:03.26 kworker/0:1H                                                                             

    1 root      20   0   30320   6164   3096 S   0,0  0,1   0:02.41 systemd                                                                                  

    2 root      20   0       0      0      0 S   0,0  0,0   0:00.08 kthreadd                                                                                 

    3 root      20   0       0      0      0 S   0,0  0,0   3:56.22 ksoftirqd/0                                                                              

    5 root       0 -20       0      0      0 S   0,0  0,0   0:00.00 kworker/0:0H

Ce qui m'inquiete c'est le load average et le 98,9 de wa. Je sais pas si c'est normal que ca monte si haut.

Pour voir les iowait :

$ iostat 
Linux 3.16.0-4-amd64 (server)   05/03/2017      _x86_64_        (4 CPU)

avg-cpu:  %user   %nice %system %iowait  %steal   %idle
           6,20    0,00    2,22   35,71    0,00   55,87

Device:            tps    kB_read/s    kB_wrtn/s    kB_read    kB_wrtn
sdb              15,71      1204,36       440,26  104066046   38041947
sdc              15,46      1207,41       439,44  104329781   37970699
sdd              16,40      1214,92       453,82  104978403   39213451
sda              14,37      1201,05       448,23  103780236   38730343
md0               0,01         0,03         0,00       2337         12
md1               6,16        27,22        44,27    2352439    3825480
md2              17,77      1995,52       984,92  172428185   85104420
dm-0              6,16        27,22        44,27    2351738    3825480
dm-1              0,07         0,72         0,04      62097       3428
dm-2              0,01         0,02         0,00       2117         32
dm-3              0,02         0,04         0,04       3721       3128
dm-4              0,02         0,07         0,00       5773         12
dm-5              0,22         2,46         0,11     212740       9900
dm-6              0,04         0,02         0,14       2072      12224
dm-7              1,22         0,53         5,49      45724     474804
dm-8              0,01         0,02         0,00       2068          0
dm-9              4,33        23,28        38,44    2011997    3321940
dm-10             0,01         0,03         0,00       2629         12
dm-11            17,76      1995,51       984,94  172427458   85106068
dm-12             1,07       303,12        11,45   26191921     989584
dm-13            16,36      1692,33       973,48  146230869   84116224
dm-14             0,01         0,03         0,00       2500         48
dm-15             0,01         0,02         0,00       1572        212
sde               0,12         0,60         0,00      51812        412
sdf               0,12         0,56         0,00      47972        416
sdg               0,03         0,18         0,00      15123         32

La je sais pas vraiment interpreter le resultat (c'est ok, pas ok?).

Parmi les 4 disques celui semble ne pas aller tres bien :

# smartctl -a /dev/sdc
smartctl 6.4 2014-10-07 r4002 [x86_64-linux-3.16.0-4-amd64] (local build)
Copyright (C) 2002-14, Bruce Allen, Christian Franke, www.smartmontools.org

=== START OF INFORMATION SECTION ===
Device Model:     ST6000VN0011-1UL17Z
Serial Number:    Z4D3VL6G
LU WWN Device Id: 5 000c50 090a44602
Firmware Version: AN02
User Capacity:    6 001 175 126 016 bytes [6,00 TB]
Sector Sizes:     512 bytes logical, 4096 bytes physical
Rotation Rate:    7200 rpm
Form Factor:      3.5 inches
Device is:        Not in smartctl database [for details use: -P showall]
ATA Version is:   ACS-3 T13/2161-D revision 3b
SATA Version is:  SATA 3.1, 6.0 Gb/s (current: 1.5 Gb/s)
Local Time is:    Sun Mar  5 11:52:46 2017 EET
SMART support is: Available - device has SMART capability.
SMART support is: Enabled

=== START OF READ SMART DATA SECTION ===
SMART overall-health self-assessment test result: PASSED

General SMART Values:
Offline data collection status:  (0x82) Offline data collection activity
                                        was completed without error.
                                        Auto Offline Data Collection: Enabled.
Self-test execution status:      (   0) The previous self-test routine completed
                                        without error or no self-test has ever 
                                        been run.
Total time to complete Offline 
data collection:                (  584) seconds.
Offline data collection
capabilities:                    (0x7b) SMART execute Offline immediate.
                                        Auto Offline data collection on/off support.
                                        Suspend Offline collection upon new
                                        command.
                                        Offline surface scan supported.
                                        Self-test supported.
                                        Conveyance Self-test supported.
                                        Selective Self-test supported.
SMART capabilities:            (0x0003) Saves SMART data before entering
                                        power-saving mode.
                                        Supports SMART auto save timer.
Error logging capability:        (0x01) Error logging supported.
                                        General Purpose Logging supported.
Short self-test routine 
recommended polling time:        (   1) minutes.
Extended self-test routine
recommended polling time:        ( 641) minutes.
Conveyance self-test routine
recommended polling time:        (   2) minutes.
SCT capabilities:              (0x10bd) SCT Status supported.
                                        SCT Error Recovery Control supported.
                                        SCT Feature Control supported.
                                        SCT Data Table supported.

SMART Attributes Data Structure revision number: 10
Vendor Specific SMART Attributes with Thresholds:
ID# ATTRIBUTE_NAME          FLAG     VALUE WORST THRESH TYPE      UPDATED  WHEN_FAILED RAW_VALUE
  1 Raw_Read_Error_Rate     0x000f   076   063   006    Pre-fail  Always       -       47783400
  3 Spin_Up_Time            0x0003   097   086   000    Pre-fail  Always       -       0
  4 Start_Stop_Count        0x0032   098   098   020    Old_age   Always       -       2597
  5 Reallocated_Sector_Ct   0x0033   100   100   010    Pre-fail  Always       -       0
  7 Seek_Error_Rate         0x000f   078   060   030    Pre-fail  Always       -       59718064
  9 Power_On_Hours          0x0032   099   099   000    Old_age   Always       -       964
 10 Spin_Retry_Count        0x0013   100   100   097    Pre-fail  Always       -       0
 12 Power_Cycle_Count       0x0032   098   098   020    Old_age   Always       -       2609
183 Runtime_Bad_Block       0x0032   100   100   000    Old_age   Always       -       0
184 End-to-End_Error        0x0032   100   100   099    Old_age   Always       -       0
187 Reported_Uncorrect      0x0032   100   100   000    Old_age   Always       -       0
188 Command_Timeout         0x0032   100   100   000    Old_age   Always       -       0
189 High_Fly_Writes         0x003a   100   100   000    Old_age   Always       -       0
190 Airflow_Temperature_Cel 0x0022   062   054   040    Old_age   Always       -       38 (Min/Max 38/38)
191 G-Sense_Error_Rate      0x0032   100   100   000    Old_age   Always       -       0
192 Power-Off_Retract_Count 0x0032   099   099   000    Old_age   Always       -       2415
193 Load_Cycle_Count        0x0032   099   099   000    Old_age   Always       -       2641
194 Temperature_Celsius     0x0022   038   046   000    Old_age   Always       -       38 (0 23 0 0 0)
195 Hardware_ECC_Recovered  0x001a   014   011   000    Old_age   Always       -       47783400
197 Current_Pending_Sector  0x0012   100   100   000    Old_age   Always       -       0
198 Offline_Uncorrectable   0x0010   100   100   000    Old_age   Offline      -       0
199 UDMA_CRC_Error_Count    0x003e   200   200   000    Old_age   Always       -       0
240 Head_Flying_Hours       0x0000   100   253   000    Old_age   Offline      -       954 (45 159 0)
241 Total_LBAs_Written      0x0000   100   253   000    Old_age   Offline      -       13069375157
242 Total_LBAs_Read         0x0000   100   253   000    Old_age   Offline      -       16900085790

SMART Error Log Version: 1
No Errors Logged

SMART Self-test log structure revision number 1
Num  Test_Description    Status                  Remaining  LifeTime(hours)  LBA_of_first_error
# 1  Short offline       Completed without error       00%       946         -
# 2  Short offline       Completed without error       00%       106         -
# 3  Short offline       Completed without error       00%        16         -

SMART Selective self-test log data structure revision number 1
 SPAN  MIN_LBA  MAX_LBA  CURRENT_TEST_STATUS
    1        0        0  Not_testing
    2        0        0  Not_testing
    3        0        0  Not_testing
    4        0        0  Not_testing
    5        0        0  Not_testing
Selective self-test flags (0x0):
  After scanning selected spans, do NOT read-scan remainder of disk.
If Selective self-test is pending on power-up, resume after 0 minute delay.

Le "Raw_Read_Error_Rate" et "Seek_Error_Rate" me paraissent pas bon du tout. Est-ce que je dois me faire du soucis?

# cat /proc/mdstat 
Personalities : [raid1] [raid6] [raid5] [raid4] 
md2 : active raid5 sdd4[0] sda4[4] sdb4[2] sdc4[1]
      16106075136 blocks super 1.2 level 5, 512k chunk, algorithm 2 [4/4] [UUUU]
      [>....................]  check =  1.2% (67465956/5368691712) finish=94417.4min speed=935K/sec
      bitmap: 0/40 pages [0KB], 65536KB chunk

md1 : active raid1 sdd3[0] sda3[3] sdb3[2] sdc3[1]
      488150016 blocks super 1.2 [4/4] [UUUU]
      	resync=DELAYED
      bitmap: 1/4 pages [4KB], 65536KB chunk

md0 : active raid1 sdd2[4] sda2[3] sdb2[2] sdc2[1]
      2927616 blocks super 1.2 [4/4] [UUUU]
      

unused devices: <none>

Et la c'est la cata, il est en train de faire un truc sur le raid5 qui prend 94417 minutes (65 jours!!!).

J'avais mis en place ce serveur justement pour l'utiliser en tant que seedbox, mais j'ai prefere faire ca dans une vm pour pouvoir plus facilement la sauvegarder et j'ai utilise docker parce que ca permet d'eviter tout les problemes de dependances. Mais la j'ai l'impression que c'est justement la vm seedbox qui est en train de rendre le serveur inutilisable (avant je pouvais lire une video HD depuis le serveur au travers de samba, mais maintenant ca bloque tous les 20 secondes).

Une idee pour que je comprennes mieux ce qui se passe?

Malakai

Bon, de retour apres quelques tests et avis recuperes aupres d'autres personnes.

Apparemment le disque se porte bien (selon les dires du web) et les disques Seagate sont connus pour rapporter de grandes valeurs a "Raw_Read_Error_Rate" et "Seek_Error_Rate", mais ca ne veut pas dire que le disque ne va pas bien.

En redemarrant le serveur ce soir je suis aller fouiller du cote de /var/log/kern.log et la :

kernel: [ 1555.113855] ata2: hard resetting link
kernel: [ 1565.116618] ata4: hard resetting link
kernel: [ 1565.116636] ata2: hard resetting link
kernel: [ 1566.196062] ata2: SATA link up 6.0 Gbps (SStatus 133 SControl 300)
kernel: [ 1566.803338] ata2.00: configured for UDMA/133
kernel: [ 1566.803356] ata2: EH complete
kernel: [ 1566.851706] ata4: SATA link up 1.5 Gbps (SStatus 113 SControl 310)
kernel: [ 1567.388326] ata4.00: configured for UDMA/133
kernel: [ 1567.388345] ata4: EH complete
kernel: [ 1610.341395] ata4.00: limiting speed to UDMA/100:PIO4
kernel: [ 1610.341414] ata4: hard resetting link
kernel: [ 1610.341422] ata2: limiting SATA link speed to 3.0 Gbps
kernel: [ 1610.341445] ata2: hard resetting link
kernel: [ 1620.352264] ata2: hard resetting link
kernel: [ 1620.376251] ata4: hard resetting link
kernel: [ 1621.487679] ata2: SATA link up 3.0 Gbps (SStatus 123 SControl 320)
kernel: [ 1622.055388] ata4: SATA link up 1.5 Gbps (SStatus 113 SControl 310)
kernel: [ 1622.133621] ata2.00: configured for UDMA/133
kernel: [ 1622.133627] ata2.00: retrying FLUSH 0xea Emask 0x50
kernel: [ 1622.133922] ata2.00: device reported invalid CHS sector 0
kernel: [ 1622.133933] ata2: EH complete
kernel: [ 1622.598256] ata4.00: configured for UDMA/100
kernel: [ 1622.598263] ata4.00: retrying FLUSH 0xea Emask 0x10
kernel: [ 1622.598511] ata4.00: device reported invalid CHS sector 0
kernel: [ 1622.598515] ata4: EH complete

J'etais en train de recuperer un fichier sur le serveur lorsqu'une des erreur hard resetting link est apparue et pendant quelques secondes le transfert s'est arrete (jusqu'a ce que EH complete apparaisse).

Est-ce que vous avez deja eu ca sur vos HP MicroServer Gen8? D'apres ce que j'ai compris, il y a un probleme de lien entre le disque et le module sata qui fait que l'OS (Debian dans mon cas) reinitialise le lien et du coup il y a une microcoupure. Le soucis c'est que ca arrive toutes les 20-30 minutes, donc c'est assez embettant.
Divers sujet sur le web disent que les cables seraient fautifs. Mais c'est de "l'embarque" dans le MicroServer et je vois difficilement comment je pourrais changer les cables....
Un autre site dit que ce serait logiciel, donc une mise a jour permettrait de resoudre le soucis (je suis sous Debian Jessie et j'ai fais les mises a jour de tous les paquets il y a 2 jours....), donc il faudrait plus qu'attendre que les mises a jour pour ce soucis arrivent dans les depots Debian.

Franchement je sais plus quoi faire.... un conseil serait le bienvenu.

Malakai

J'avance (ou je recule, je me rends pas compte)...
J'ai changer le mode du controleur Sata dans le bios et j'ai mis LEGACY. Maintenant je n'ai plus ata[1-4] mais plutot ata1.00, ata1.01, ata2.00 et ata2.01, par contre le message est toujours la sauf qu'un peu modifie :

kernel: [   55.883564] ata1: lost interrupt (Status 0x50)
kernel: [   55.883581] ata1.01: exception Emask 0x10 SAct 0x0 SErr 0x40d0002 action 0x0 frozen
kernel: [   55.883666] ata1.01: SError: { RecovComm PHYRdyChg CommWake 10B8B DevExch }
kernel: [   55.883737] ata1.01: failed command: READ DMA EXT
kernel: [   55.883807] ata1.01: cmd 25/00:08:a0:1d:42/00:00:29:00:00/f0 tag 0 dma 4096 in
kernel: [   55.883807]          res 40/00:01:00:00:00/00:00:00:00:00/10 Emask 0x14 (ATA bus error)
kernel: [   55.883921] ata1.01: status: { DRDY }
kernel: [   55.883992] ata1.00: hard resetting link
kernel: [   56.607127] ata1.01: hard resetting link
kernel: [   57.486732] ata1.00: SATA link up 6.0 Gbps (SStatus 133 SControl 300)
kernel: [   57.486744] ata1.01: SATA link up 3.0 Gbps (SStatus 123 SControl 300)
kernel: [   57.659114] ata1.00: configured for UDMA/100
kernel: [   57.674819] ata1.01: configured for UDMA/133
kernel: [   57.674823] ata1.01: device reported invalid CHS sector 0
kernel: [   57.674827] ata1: EH complete
kernel: [   58.076421] sd 0:0:1:0: [sdb] Write cache: enabled, read cache: enabled, doesn't support DPO or FUA
kernel: [   88.826613] ata1: lost interrupt (Status 0x50)
kernel: [   88.826642] ata1.01: exception Emask 0x50 SAct 0x0 SErr 0x40d0802 action 0x0 frozen
kernel: [   88.826738] ata1.01: SError: { RecovComm HostInt PHYRdyChg CommWake 10B8B DevExch }
kernel: [   88.826821] ata1.01: failed command: READ DMA EXT
kernel: [   88.826891] ata1.01: cmd 25/00:08:08:01:2c/00:00:2b:00:00/f0 tag 0 dma 4096 in
kernel: [   88.826891]          res 40/00:01:00:00:00/00:00:00:00:00/00 Emask 0x54 (ATA bus error)
kernel: [   88.827004] ata1.01: status: { DRDY }
kernel: [   88.827076] ata1.00: hard resetting link
kernel: [   89.550229] ata1.01: hard resetting link
kernel: [   90.429839] ata1.00: SATA link up 6.0 Gbps (SStatus 133 SControl 300)
kernel: [   90.429851] ata1.01: SATA link up 3.0 Gbps (SStatus 123 SControl 300)
kernel: [   90.602220] ata1.00: configured for UDMA/100
kernel: [   90.617918] ata1.01: configured for UDMA/133
kernel: [   90.617924] ata1.01: device reported invalid CHS sector 0
kernel: [   90.617930] ata1: EH complete
kernel: [ 1198.278160] ata2: lost interrupt (Status 0x50)
kernel: [ 1198.278177] ata2.01: exception Emask 0x10 SAct 0x0 SErr 0x40d0002 action 0x0 frozen
kernel: [ 1198.278262] ata2.01: SError: { RecovComm PHYRdyChg CommWake 10B8B DevExch }
kernel: [ 1198.278334] ata2.01: failed command: WRITE DMA EXT
kernel: [ 1198.278404] ata2.01: cmd 35/00:10:d0:4b:ae/00:00:2d:00:00/f0 tag 0 dma 8192 out
kernel: [ 1198.278404]          res 40/00:01:01:4f:c2/00:00:00:00:00/10 Emask 0x14 (ATA bus error)
kernel: [ 1198.278517] ata2.01: status: { DRDY }
kernel: [ 1198.278589] ata2.00: hard resetting link
kernel: [ 1199.001726] ata2.01: hard resetting link
kernel: [ 1199.881334] ata2.00: SATA link up 6.0 Gbps (SStatus 133 SControl 300)
kernel: [ 1199.881346] ata2.01: SATA link up 3.0 Gbps (SStatus 123 SControl 300)
kernel: [ 1200.077739] ata2.00: configured for UDMA/133
kernel: [ 1200.093746] ata2.01: configured for UDMA/133
kernel: [ 1200.093766] ata2: EH complete
kernel: [ 1200.115701] sd 1:0:1:0: [sdd] Write cache: enabled, read cache: enabled, doesn't support DPO or FUA

Je suis tombe sur ce fil de discussion qui parle de IRQ (?). J'ai ca dans le bios et je peux changer de valeur entre les differents peripheriques (j'ai le choix entre 4, 5, 7, 10 ou 11 sachant que plusieurs peripheriques partagent le meme chiffre), mais comme je ne sais pas exactement ce que ca represente je voudrais pas aggraver la situation en modifiant quelque chose qui ne devrait pas l'etre.
Ici, il a resolu son probleme en desactivant plusieurs choses dans le bios sans savoir lequel a permis la resolution du probleme.

J'ai l'impression que le soucis vient du bios (c'est juste une impression) et du coup ce serait sympa si quelqu'un qui a egalement un HP Proliant MicroServer gen8 (et qui n'a pas le meme soucis que moi), partage ses parametres bios. On pourrait commencer par les valeurs dans la partie IRQ...

Edit : je viens de me rendre compte que mon probleme d'ici est justement lie a mon probleme actuel...

Wagner

Bonsoir,

il existe des logiciels (par exemple Hard Disk Sentinel, HDAT2, Ultimate Boot CD, etc) afin de déterminer si le disque dur est endommagé.
Le logiciel de Seagate se nomme SeaTools (dont voici la page : Support (SeaTools)).
J'espère que cela aidera peut-être afin d'avancer.