Résolu le 13-08-21 Un GPU qui tombe du bus

Questions concernant les composants
Répondre
sebcarp
Messages : 3
Enregistré le : ven. 6 août 2021 14:58

Un GPU qui tombe du bus

Message par sebcarp »

Bonjour à tout le monde !


Voulant un PC puissant et compact, j'ai acheté récemment un Zotac ZBOX MAGNUS ECM73070 et cherche à y faire marcher Linux... C'est un peu la galère.

Je n'ai eu aucun problème pour l'installation, mais le système plante régulièrement (deux à trois fois par jour) et aléatoirement - sans élément déclencheur identifié (même si aucun logiciel n'est lancé et quand je ne travaille pas sur l’ordinateur).

L'écran se fige et ne répond plus au clavier et à la souris. Si un fichier multimédia est lancé au moment de la panne, le son continue pendant quelques dizaines de secondes avant de s'arrêter.

Il est impossible de relancer la machine à l'aide du clavier : il faut éteindre l'ordinateur avec le bouton Marche/Arrêt, ou même parfois en débranchant le cordon d'alimentation.

Le fichier journal /var/log/syslog semble indiquer qu’au moment de la panne il y a un problème avec l'IRQ 16, qui causerait le plantage du GPU (ou inversement ?).

Avatar du membre
cyrille
Administrateur du site
Messages : 12403
Enregistré le : mar. 19 sept. 2017 08:49
Localisation : Nowhere
Contact :

Re: Un GPU qui tombe du bus

Message par cyrille »

Hello
Faudrait un peu plus d'infos ? D'où le but d'avoir une signature avec le matériel --> viewtopic.php?f=2&t=1514

Ensuite cool que tu aies analysé tes logs mais peux tu coller la ligne exacte d'erreur ?

Enfin, nous dire aussi quel pilote graphique tu utilises

Tu augmenteras tes chances d'avoir une réponse ;)
?séuqartéd sel ruoP / sécnoféd sel ruoP / sreiruréB sel ruoP / ?étéicos elleuQ

https://crust.ovh

Avatar du membre
arghlub
Administrateur du site
Messages : 10421
Enregistré le : dim. 21 mai 2017 08:19
Localisation : Provence
Contact :

Re: Un GPU qui tombe du bus

Message par arghlub »

Salut,
cyrille a écrit :
ven. 6 août 2021 15:29
Enfin, nous dire aussi quel pilote graphique tu utilises
Tu peux le savoir avec cette commande en terminal :

Code : Tout sélectionner

inxi -G
;)
Tour1 (custom)CM MSI Z270 M3 | CPU Intel I7-7700K | CG Nvidia GTX 1080 | RAM 16Go | tripleBoot : Debian 11 | MXlinux 21 | LMint 19.3 | XFCE
Tour2 (custom)CM Gigabyte | CPU AMD Athlon 5200+ | CG Nvidia GTX 560 | RAM 6Go | FreeBSD 12.1 XFCE
Portable1 MSI GF75 Thin 9SC | CPU Intel I7-9750H | CG Nvidia GTX 1650 | RAM 32Go | dualBoot : LMint 20.2 | MXlinux 21 | XFCE
Portable2 MacBook Air A1466 (2015) | CPU Intel I5-5250U | CG Intel HD Graphics 6000 | RAM 8Go | dualBoot : macOS Sierra | MXlinux 21 XFCE
─────( pour une informatique libre ! -membre en stand-by de l' April.org────────────────

sebcarp
Messages : 3
Enregistré le : ven. 6 août 2021 14:58

Re: Un GPU qui tombe du bus

Message par sebcarp »

Oups, désolé, j'avais prévu de poster un message plus long et détaillé mais la fin n'était pas passée !

Voici les infos qui manquaient à mon email précédent :

"Voici un exemple de contenu de syslog :

Code : Tout sélectionner

​Aug 6 08:53:35 sebastien-ZBOX-ECM73070C-53060C kernel: [31185.261271] NVRM: GPU at PCI:0000:01:00: GPU-cee20ff3-1d68-4aad-8fd6-5e23837374c1
Aug 6 08:53:35 sebastien-ZBOX-ECM73070C-53060C kernel: [31185.261274] NVRM: Xid (PCI:0000:01:00): 79, pid=0, GPU has fallen off the bus.
Aug 6 08:53:35 sebastien-ZBOX-ECM73070C-53060C kernel: [31185.261276] NVRM: GPU 0000:01:00.0: GPU has fallen off the bus.
Aug 6 08:53:35 sebastien-ZBOX-ECM73070C-53060C kernel: [31185.261299] NVRM: A GPU crash dump has been created. If possible, please run
Aug 6 08:53:35 sebastien-ZBOX-ECM73070C-53060C kernel: [31185.261299] NVRM: nvidia-bug-report.sh as root to collect this data before
Aug 6 08:53:35 sebastien-ZBOX-ECM73070C-53060C kernel: [31185.261299] NVRM: the NVIDIA kernel module is unloaded.
Aug 6 08:53:37 sebastien-ZBOX-ECM73070C-53060C kernel: [31187.108150] irq 16: nobody cared (try booting with the "irqpoll" option)
Aug 6 08:53:37 sebastien-ZBOX-ECM73070C-53060C kernel: [31187.108154] CPU: 11 PID: 0 Comm: swapper/11 Tainted: P W OE 5.4.0-80-generic #90-Ubuntu
Aug 6 08:53:37 sebastien-ZBOX-ECM73070C-53060C kernel: [31187.108154] Hardware name: ZOTAC ZBOX-ECM73070C/53060C/ZBOX-ECM73070C/53060C, BIOS 5.17 03/22/2021
Aug 6 08:53:37 sebastien-ZBOX-ECM73070C-53060C kernel: [31187.108155] Call Trace:
Aug 6 08:53:37 sebastien-ZBOX-ECM73070C-53060C kernel: [31187.108157] <IRQ>
Aug 6 08:53:37 sebastien-ZBOX-ECM73070C-53060C kernel: [31187.108162] dump_stack+0x6d/0x8b
Aug 6 08:53:37 sebastien-ZBOX-ECM73070C-53060C kernel: [31187.108164] __report_bad_irq+0x3a/0xaf
Aug 6 08:53:37 sebastien-ZBOX-ECM73070C-53060C kernel: [31187.108165] note_interrupt.cold+0xb/0x60
Aug 6 08:53:37 sebastien-ZBOX-ECM73070C-53060C kernel: [31187.108168] handle_irq_event_percpu+0x73/0x80
Aug 6 08:53:37 sebastien-ZBOX-ECM73070C-53060C kernel: [31187.108169] handle_irq_event+0x3b/0x60
Aug 6 08:53:37 sebastien-ZBOX-ECM73070C-53060C kernel: [31187.108170] handle_fasteoi_irq+0x9c/0x150
Aug 6 08:53:37 sebastien-ZBOX-ECM73070C-53060C kernel: [31187.108172] do_IRQ+0x55/0xf0
Aug 6 08:53:37 sebastien-ZBOX-ECM73070C-53060C kernel: [31187.108173] common_interrupt+0xf/0xf
Aug 6 08:53:37 sebastien-ZBOX-ECM73070C-53060C kernel: [31187.108174] </IRQ>
Aug 6 08:53:37 sebastien-ZBOX-ECM73070C-53060C kernel: [31187.108176] RIP: 0010:cpuidle_enter_state+0xc5/0x450
Aug 6 08:53:37 sebastien-ZBOX-ECM73070C-53060C kernel: [31187.108177] Code: ff e8 ff f5 84 ff 80 7d c7 00 74 17 9c 58 0f 1f 44 00 00 f6 c4 02 0f 85 65 03 00 00 31 ff e8 62 fa 8a ff fb 66 0f 1f 44 00 00 <45> 85 ed 0f 88 8f 02 00 00 49 63 cd 4c 8b 7d d0 4c 2b 7d c8 48 8d
Aug 6 08:53:37 sebastien-ZBOX-ECM73070C-53060C kernel: [31187.108178] RSP: 0018:ffffaa1d00157e38 EFLAGS: 00000246 ORIG_RAX: ffffffffffffffde
Aug 6 08:53:37 sebastien-ZBOX-ECM73070C-53060C kernel: [31187.108180] RAX: ffff8e8f024eadc0 RBX: ffffffff98169380 RCX: 000000000000001f
Aug 6 08:53:37 sebastien-ZBOX-ECM73070C-53060C kernel: [31187.108180] RDX: 0000000000000000 RSI: 000000002c13b729 RDI: 0000000000000000
Aug 6 08:53:37 sebastien-ZBOX-ECM73070C-53060C kernel: [31187.108181] RBP: ffffaa1d00157e78 R08: 00001c5d5080911d R09: 000000007fffffff
Aug 6 08:53:37 sebastien-ZBOX-ECM73070C-53060C kernel: [31187.108181] R10: ffff8e8f024e9ac0 R11: ffff8e8f024e9aa0 R12: ffff8e8eecd72400
Aug 6 08:53:37 sebastien-ZBOX-ECM73070C-53060C kernel: [31187.108182] R13: 0000000000000001 R1indique4: 0000000000000001 R15: ffff8e8eecd72400
Aug 6 08:53:37 sebastien-ZBOX-ECM73070C-53060C kernel: [31187.108184] ? cpuidle_enter_state+0xa1/0x450
Aug 6 08:53:37 sebastien-ZBOX-ECM73070C-53060C kernel: [31187.108186] cpuidle_enter+0x2e/0x40
Aug 6 08:53:37 sebastien-ZBOX-ECM73070C-53060C kernel: [31187.108188] call_cpuidle+0x23/0x40
Aug 6 08:53:37 sebastien-ZBOX-ECM73070C-53060C kernel: [31187.108189] do_idle+0x1dd/0x270
Aug 6 08:53:37 sebastien-ZBOX-ECM73070C-53060C kernel: [31187.108190] cpu_startup_entry+0x20/0x30
Aug 6 08:53:37 sebastien-ZBOX-ECM73070C-53060C kernel: [31187.108192] start_secondary+0x167/0x1c0
Aug 6 08:53:37 sebastien-ZBOX-ECM73070C-53060C kernel: [31187.108194] secondary_startup_64+0xa4/0xb0
Aug 6 08:53:37 sebastien-ZBOX-ECM73070C-53060C kernel: [31187.108195] handlers:
Aug 6 08:53:37 sebastien-ZBOX-ECM73070C-53060C kernel: [31187.108199] [<0000000095957362>] i801_isr [i2c_i801]
Aug 6 08:53:37 sebastien-ZBOX-ECM73070C-53060C kernel: [31187.108200] Disabling IRQ #16
Voici les deux processus qui se partagent l’IRQ 16 sur le système (obtenus grâce à la commande lspci -nnkv) :

- Non-Volatile memory controller [0108]: Sandisk Corp Device [15b7:5011] (rev 01) (prog-if 02 [NVM Express])
- Ethernet controller [0200]: Realtek Semiconductor Co., Ltd. Device [10ec:3000] (rev 03)

J’ai essayé plusieurs méthodes pour résoudre la panne, en m’inspirant de suggestions glanées sur internet :

- Test avec plusieurs distributions Linux (Mint Cinnamon mais aussi Kubuntu, Manjaro KDE...)
- Test avec plusieurs versions des pilotes propriétaires Nvidia
- Installation du noyau stable Linux le plus récent
- Installation du pilote propriétaire Nvidia le plus récent (470)
- Mise à jour du Bios avec la version la plus récente proposée par Zotac
- Carte Nvidia mise en mode persistant à l’aide de « sudo nvidia-smi -pm 1 »
- Lancement d’un test Memtest86 pour vérifier la RAM (aucun souci détecté)
- Création d’un fichier « /etc/modprobe.d/nvidia.conf » avec comme contenu : « options nvidia "NVreg_DynamicPowerManagement=0x02" », puis lancement d’un « update-initramfs -u »
- Édition du fichier /etc/default/grub puis mise à jour du grub pour intégrer les options suivantes au kernel (jamais ensemble, toujours séparément) :

Code : Tout sélectionner

« nomodeset »
« pcie_aspm=off »
« pci=noaer »
« pci=nomsi »
« irqpoll »
« nvme_core.default_ps_max_latency_us=0 »
« processor.max_cstate=1 »
« rcutree.rcu_idle_gp_delay=1 acpi_osi=! acpi_osi='Windows 2009' »
« rcutree.rcu_idle_gp_delay=1 acpi_osi=! acpi_osi='Linux' »
« nouveau.modeset=0 nvidia-drm.modeset=0 »
« intel_idle.max_cstate=1 »
Est-ce que vous avez des pistes pour m'aider à résoudre ce problème ?...

Merci d'avance pour vos lumières !

Sébastien"

Avatar du membre
alain
Administrateur du site
Messages : 14789
Enregistré le : dim. 11 oct. 2015 23:41
Localisation : Chelles
Contact :

Re: Un GPU qui tombe du bus

Message par alain »

Bonjour Sébastien.

Je ne vois pas dans tes posts où tu nous décrit ton matériel, ni ta signature.
cyrille a écrit :
ven. 6 août 2021 15:29
Faudrait un peu plus d'infos ? D'où le but d'avoir une signature avec le matériel --> https://forum-francophone-linuxmint.fr
Je déduis vu que tu utilise le pilote nvidia 470 que la carte graphique est une nvidia...Mais laquelle?

Je vois aussi dans tes retours de syslog beaucoup de messages concernant le pilote nvidia.

Code : Tout sélectionner

Aug 6 08:53:35 sebastien-ZBOX-ECM73070C-53060C kernel: [31185.261299] NVRM: A GPU crash dump has been created. If possible, please run
Aug 6 08:53:35 sebastien-ZBOX-ECM73070C-53060C kernel: [31185.261299] NVRM: nvidia-bug-report.sh as root to collect this data before
L'as tu fais?

Je vois aussi que tu as essayé "nomodeset" dans ton fstab, en cas problème avec un pilote cela aurait dû au moins démarrer en résolution dégradée.

Et enfin je lis que tu as essayé plusieurs pilotes nvidia, mais as tu essayé avec le pilote "xserver-xorg-video-nouveau" car il arrive fréquemment ce genre de problèmes avec le pilote Nvidia.

Mais, nous ne pourrons être plus précis sans les infos demandés par mes prédécesseurs. C'est infos ne doivent pas être mises dans le post, mais dans ta signature. Suis le lien donné par Cyrille pour t'aider à la faire.
PC are like air conditioning, they becomes useless when you open Windows (L.T)
PC1 : CM : ASRock 990FX | CPU: AMD FX 8350-8 cores, 4 GHz | RAM: 16 Go DDR3 1600 MHz | CG: ATI RX 580-8 Go | OS : LM 20.3 Uma Xfce 4.16 | K: 5.4
PC2
:Core2 Quad Q9650 @ 3 GHz | CG: Nvidia GTX 650TI | OS: LM 21.3 Xfce 4.18| K: 6.5
PC3 :Core i7-2600 @ 3,5 GHz | CG: ATI HD 4650 | OS: Emmade5 Xfce 4.18.0 | K: 6.1
PC4 : AMD Ryzen 5 3500X 4GHz | CG: GTX 970 | Ram : 8GB |OS : Debian 10.5 | K: 5.10
In a world without walls and fences, who needs windows and gates?

sebcarp
Messages : 3
Enregistré le : ven. 6 août 2021 14:58

Re: Un GPU qui tombe du bus

Message par sebcarp »

Bonjour et désolé de ne pas avoir donné suite à vos réponses !

Mon problème est résolu, et je tenais à expliquer comment j'avais procédé - au cas où d'autres personnes y seraient confrontées à l'avenir...

Il semble qu'il s'agisse d'un conflit d'IRQ entre les contrôleurs USB et la carte graphique.
Après avoir intégré l'option "acpi=debug" dans les paramètres de grub, je n'ai plus rencontré aucun crash du système.

J'ai eu l'idée de tester cette solution après avoir consulté la page suivante (en allemand) : https://www.thomas-krenn.com/de/wiki/IR ... en_beheben

Sébastien

Avatar du membre
arghlub
Administrateur du site
Messages : 10421
Enregistré le : dim. 21 mai 2017 08:19
Localisation : Provence
Contact :

Re: Un GPU qui tombe du bus

Message par arghlub »

Salut,
merci pour le retour, cela pourra servir à d'autres utilisateurs. ;)
Tour1 (custom)CM MSI Z270 M3 | CPU Intel I7-7700K | CG Nvidia GTX 1080 | RAM 16Go | tripleBoot : Debian 11 | MXlinux 21 | LMint 19.3 | XFCE
Tour2 (custom)CM Gigabyte | CPU AMD Athlon 5200+ | CG Nvidia GTX 560 | RAM 6Go | FreeBSD 12.1 XFCE
Portable1 MSI GF75 Thin 9SC | CPU Intel I7-9750H | CG Nvidia GTX 1650 | RAM 32Go | dualBoot : LMint 20.2 | MXlinux 21 | XFCE
Portable2 MacBook Air A1466 (2015) | CPU Intel I5-5250U | CG Intel HD Graphics 6000 | RAM 8Go | dualBoot : macOS Sierra | MXlinux 21 XFCE
─────( pour une informatique libre ! -membre en stand-by de l' April.org────────────────

Avatar du membre
alain
Administrateur du site
Messages : 14789
Enregistré le : dim. 11 oct. 2015 23:41
Localisation : Chelles
Contact :

Re: Un GPU qui tombe du bus

Message par alain »

Bonjour.

Sujet archivé (en lecture seule) car résolu.
Si besoin de rouvrir faire un MP à un membre de l'équipe ;)
PC are like air conditioning, they becomes useless when you open Windows (L.T)
PC1 : CM : ASRock 990FX | CPU: AMD FX 8350-8 cores, 4 GHz | RAM: 16 Go DDR3 1600 MHz | CG: ATI RX 580-8 Go | OS : LM 20.3 Uma Xfce 4.16 | K: 5.4
PC2
:Core2 Quad Q9650 @ 3 GHz | CG: Nvidia GTX 650TI | OS: LM 21.3 Xfce 4.18| K: 6.5
PC3 :Core i7-2600 @ 3,5 GHz | CG: ATI HD 4650 | OS: Emmade5 Xfce 4.18.0 | K: 6.1
PC4 : AMD Ryzen 5 3500X 4GHz | CG: GTX 970 | Ram : 8GB |OS : Debian 10.5 | K: 5.10
In a world without walls and fences, who needs windows and gates?

Répondre