Recherche de site Web

Comment installer Scikit-learn pour l'apprentissage automatique sous Linux


Scikit-learn est l'une des bibliothèques d'apprentissage automatique les plus populaires pour Python, qui fournit une large gamme d'outils pour l'analyse des données et les tâches d'apprentissage automatique, de la simple régression linéaire aux algorithmes de clustering avancés.

Cet article vous guidera à travers les étapes d'installation et d'utilisation de Scikit-learn sur un système Linux.

Qu’est-ce que Scikit-learn ?

Scikit-learn (également connu sous le nom de sklearn) est une bibliothèque Python gratuite et open source utilisée pour les tâches d'apprentissage automatique. Il s'appuie sur d'autres bibliothèques Python telles que NumPy, SciPy et matplotlib, offrant une interface simple pour les algorithmes d'apprentissage automatique complexes.

Certaines des fonctionnalités clés de Scikit-learn incluent :

  • Apprentissage supervisé (par exemple, classification, régression).
  • Apprentissage non supervisé (par exemple, regroupement, réduction de dimensionnalité)
  • Évaluation et validation du modèle
  • Outils de prétraitement des données
  • Prise en charge de plusieurs formats de données et outils pour le déploiement de modèles

Installer Python sous Linux

Scikit-learn est construit sur Python, vous devez donc avoir Python installé sur votre système. Vous pouvez vérifier si Python est déjà installé en tapant la commande suivante dans votre terminal :

python3 --version

Si Python n'est pas installé, vous pouvez l'installer en exécutant :

sudo apt install python3         [On Debian, Ubuntu and Mint]
sudo yum install python3         [On RHEL/CentOS/Fedora and Rocky/AlmaLinux]
sudo emerge -a sys-apps/python3  [On Gentoo Linux]
sudo apk add python3             [On Alpine Linux]
sudo pacman -S python3           [On Arch Linux]
sudo zypper install python3      [On OpenSUSE]    
sudo pkg install python3         [On FreeBSD]

Installer Pip sous Linux

Pip est le gestionnaire de packages Python utilisé pour installer les bibliothèques Python comme Scikit-learn. Pour vérifier si pip est installé, exécutez :

pip3 --version

Si pip n'est pas installé, installez-le en utilisant :

sudo apt install python3-pip         [On Debian, Ubuntu and Mint]
sudo yum install python3-pip         [On RHEL/CentOS/Fedora and Rocky/AlmaLinux]
sudo emerge -a dev-python/pip        [On Gentoo Linux]
sudo apk add py3-pip                 [On Alpine Linux]
sudo pacman -S python-pip            [On Arch Linux]
sudo zypper install python3-pip      [On OpenSUSE]    
sudo pkg install py38-pip            [On FreeBSD]

Installation de Scikit-learn sous Linux

Créez maintenant un environnement virtuel (venv) et installez scikit-learn. Notez que l'environnement virtuel est facultatif mais fortement recommandé, afin d'éviter d'éventuels conflits avec d'autres packages.

python3 -m venv sklearn-env
source sklearn-env/bin/activate
pip3 install -U scikit-learn

Cette commande téléchargera et installera la dernière version de Scikit-learn ainsi que ses dépendances (telles que NumPy et SciPy). En fonction de votre vitesse Internet, cela peut prendre quelques minutes.

Une fois l'installation terminée, vous pouvez vérifier que Scikit-learn est correctement installé en l'important dans Python.

python3 -m pip show scikit-learn  # show scikit-learn version and location
python3 -m pip freeze             # show all installed packages in the environment
python3 -c "import sklearn; sklearn.show_versions()"

Si aucune erreur n'apparaît et que le numéro de version de Scikit-learn est imprimé, l'installation est réussie.

Comment utiliser Scikit-learn sous Linux

Une fois que vous avez installé Scikit-learn, il est temps de commencer à l'utiliser avec les exemples de base ci-dessous sur la façon d'utiliser Scikit-learn pour diverses tâches d'apprentissage automatique.

Exemple 1 : Importation de Scikit-learn et chargement d'un ensemble de données

Scikit-learn fournit plusieurs ensembles de données intégrés à des fins d'apprentissage. Un ensemble de données populaire est l'ensemble de données « Iris », qui contient des données sur différentes espèces de fleurs d'iris.

Pour charger l'ensemble de données Iris, utilisez le code suivant :

from sklearn.datasets import load_iris

Load the dataset
iris = load_iris()

Print the features and target labels
print(iris.data)
print(iris.target)

Exemple 2 : diviser les données en ensembles de formation et de test

Avant d'appliquer des modèles d'apprentissage automatique, il est important de diviser l'ensemble de données en ensembles d'entraînement et de test, ce qui garantit que le modèle est formé sur un sous-ensemble de données et testé sur un autre, évitant ainsi le surajustement.

Vous pouvez utiliser train_test_split de Scikit-learn pour diviser les données :

from sklearn.model_selection import train_test_split

Split the data into 80% training and 20% testing
X_train, X_test, y_train, y_test = train_test_split(iris.data, iris.target, test_size=0.2, random_state=42)

print("Training data:", X_train.shape)
print("Testing data:", X_test.shape)

Exemple 3 : formation d'un modèle d'apprentissage automatique

Maintenant, entraînons un modèle d'apprentissage automatique à l'aide d'un classificateur simple, tel qu'une Machine à vecteurs de support (SVM), pour classer les fleurs d'iris.

from sklearn.svm import SVC

Create an SVM classifier
model = SVC()

Train the model on the training data
model.fit(X_train, y_train)

Predict on the test data
y_pred = model.predict(X_test)

print("Predicted labels:", y_pred)

Exemple 4 : Évaluation du modèle

Après avoir entraîné le modèle, il est important d’évaluer ses performances. Vous pouvez utiliser des mesures telles que la précision pour voir les performances du modèle.

from sklearn.metrics import accuracy_score

Calculate accuracy
accuracy = accuracy_score(y_test, y_pred)

print("Accuracy:", accuracy)

Cela imprimera la précision du modèle, qui représente le pourcentage de prédictions correctes faites par le modèle sur les données de test.

Conclusion

Dans cet article, nous avons expliqué comment installer et utiliser Scikit-learn sur un système Linux. Nous avons montré comment l'installer à l'aide de pip, charger des ensembles de données, diviser les données, entraîner des modèles d'apprentissage automatique et évaluer les performances du modèle.

Scikit-learn est un outil puissant et facile à utiliser pour l'apprentissage automatique en Python. Avec les étapes décrites ci-dessus, vous pouvez commencer votre parcours d'apprentissage automatique et explorer la vaste gamme d'algorithmes et de techniques proposées par Scikit-learn.

En pratiquant et en expérimentant différents algorithmes, ensembles de données et techniques d'évaluation de modèles, vous serez en mesure de créer des solutions d'apprentissage automatique efficaces pour des problèmes du monde réel.

Articles connexes: