Python : jouons avec coding

En lisant l’article Un header d’encoding plus simple pour Python et ses commentaires, j’ai voulu voir jusqu’où on pouvait aller dans la déclaration coding en Python 3.

Je commence par créer le script suivant :

#!/usr/bin/python3
# coding: Latin-1
print('é')

Comme Python 3 est par défaut en UTF-8, je créé suis obligé d’utiliser un autre coding pour voir si c’est pris en compte. Je créé donc le script en UTF-8 mais je déclare un coding en Latin-1. De cette manière, si le coding fonctionne ça affichera é, sinon ça affichera é.

J’aurais pu créer un fichier source en Latin-1, mais si le coding ne fonctionne pas ça me retourne une erreur :

SyntaxError: (unicode error) 'utf-8' codec can't decode byte 0xe9 in position 0: unexpected end of data

Je trouve ça beaucoup moins propre.

J’ai aussi choisi de ne pas utiliser le shebang préconisé (#!/usr/bin/env python3). Ça sera utile plus tard.

Je lance donc le script, et le résultat correspond à mes attentes :

$ ./coding.py
é

Le coding est bien pris en compte.

 

Maintenant je vais tester quelques exemples dans les commentaire de l’article. Je commence par celui de Biganon :

#!/usr/bin/python3
# Bonjour, je voudrais utiliser cet encoding: Latin-1 ; et sinon, la famille ça va ?
print('é')
$ ./coding.py
é

Parfait, ça marche.

 

Ensuite je passe à haypo :

#!/usr/bin/python3
# cocoricoding: Latin-1, l’encoding bien français
print('é')
$ ./coding.py
é

Ça marche aussi. On peut donc bien mettre des caractères non-ASCII sur la ligne qui déclare l’encodage.

 

D’après mgautierfr et Sam, la regex permettant de détecter le coding est coding[:=]\s*([-\w.]+). Elle est testée uniquement sur les deux premières lignes du fichier. Voyons ce qu’il est possible de faire avec ça.

 

#!/usr/bin/python3
import os # coding: Latin-1
print('é')
./coding.py
é

Le coding n’est pas pris en compte s’il y a une instruction avant sur la ligne. Dommage, j’aurais bien aimé pouvoir changer l’encodage au milieu d’un script.

 

#!/usr/bin/python3
print('coding:Latin-1')
print('é')
$ ./coding.py
coding:Latin-1
é

Si le coding fait partie de l’instruction, ça ne marche pas non plus.

 

#!/usr/bin/python3
""" coding: Latin-1 """
print('é')
$ ./coding.py
é

Si le coding est entre triple quotes, ça ne fonctionne pas non plus. Si j’ai bien compris la doc (c’est pas garanti), les triples quotes sont considérées comme des instructions par Python. Il est donc normal que ça ne fonctionne pas.

 

#!/usr/bin/python3
# coding: Latin-1 # coding: UTF-8
print('é')
$ ./coding.py
é

S’il y a plusieurs coding, c’est le premier qui est pris en compte.

 

#!/usr/bin/python3 # coding: Latin-1
print('é')
$ ./coding.py
/usr/bin/python3: can't open file '# coding: Latin-1': [Errno 2] No such file or directory

On ne peut pas mettre le coding sur la même ligne que le shebang. Mais ça a l’air d’être une limitation de Bash. Si je garde le même script mais que je le lance directement avec python3 :

$ python3 ./coding.py
é

Là ça marche.

 

Puisque le shebang est géré par Bash et le coding par Python, il est possible de faire des choses sympa. Je commence par créer un lien symbolique /usr/bin/coding:Latin-1 qui pointe vers /usr/bin/python3 :

sudo ln -s /usr/bin/python3 /usr/bin/coding:Latin-1

Ensuite je créé le script suivant :

#!/usr/bin/coding:Latin-1
print('é')
$ ./coding.py
é

Et voilà, en une seule ligne tout le monde est content ! Bash a pu lancer Python via le lien symbolique coding:Latin-1, et Python a trouvé son coding sur la première ligne du script.

 

#!/usr/bin/coding:Latin-1
# coding: UTF-8
print('é')
$ ./coding.py
é

S’il y a deux lignes coding, c’est la première qui est prise en compte.