Comment installer Scikit-learn pour l'apprentissage automatique sous Linux
Scikit-learn est l'une des bibliothèques d'apprentissage automatique les plus populaires pour Python, qui fournit une large gamme d'outils pour l'analyse des données et les tâches d'apprentissage automatique, de la simple régression linéaire aux algorithmes de clustering avancés.
Cet article vous guidera à travers les étapes d'installation et d'utilisation de Scikit-learn sur un système Linux.
Qu’est-ce que Scikit-learn ?
Scikit-learn (également connu sous le nom de sklearn) est une bibliothèque Python gratuite et open source utilisée pour les tâches d'apprentissage automatique. Il s'appuie sur d'autres bibliothèques Python telles que NumPy, SciPy et matplotlib, offrant une interface simple pour les algorithmes d'apprentissage automatique complexes.
Certaines des fonctionnalités clés de Scikit-learn incluent :
- Apprentissage supervisé (par exemple, classification, régression).
- Apprentissage non supervisé (par exemple, regroupement, réduction de dimensionnalité)
- Évaluation et validation du modèle
- Outils de prétraitement des données
- Prise en charge de plusieurs formats de données et outils pour le déploiement de modèles
Installer Python sous Linux
Scikit-learn est construit sur Python, vous devez donc avoir Python installé sur votre système. Vous pouvez vérifier si Python est déjà installé en tapant la commande suivante dans votre terminal :
python3 --version
Si Python n'est pas installé, vous pouvez l'installer en exécutant :
sudo apt install python3 [On Debian, Ubuntu and Mint]
sudo yum install python3 [On RHEL/CentOS/Fedora and Rocky/AlmaLinux]
sudo emerge -a sys-apps/python3 [On Gentoo Linux]
sudo apk add python3 [On Alpine Linux]
sudo pacman -S python3 [On Arch Linux]
sudo zypper install python3 [On OpenSUSE]
sudo pkg install python3 [On FreeBSD]
Installer Pip sous Linux
Pip est le gestionnaire de packages Python utilisé pour installer les bibliothèques Python comme Scikit-learn. Pour vérifier si pip est installé, exécutez :
pip3 --version
Si pip n'est pas installé, installez-le en utilisant :
sudo apt install python3-pip [On Debian, Ubuntu and Mint]
sudo yum install python3-pip [On RHEL/CentOS/Fedora and Rocky/AlmaLinux]
sudo emerge -a dev-python/pip [On Gentoo Linux]
sudo apk add py3-pip [On Alpine Linux]
sudo pacman -S python-pip [On Arch Linux]
sudo zypper install python3-pip [On OpenSUSE]
sudo pkg install py38-pip [On FreeBSD]
Installation de Scikit-learn sous Linux
Créez maintenant un environnement virtuel (venv) et installez scikit-learn. Notez que l'environnement virtuel est facultatif mais fortement recommandé, afin d'éviter d'éventuels conflits avec d'autres packages.
python3 -m venv sklearn-env
source sklearn-env/bin/activate
pip3 install -U scikit-learn
Cette commande téléchargera et installera la dernière version de Scikit-learn ainsi que ses dépendances (telles que NumPy et SciPy). En fonction de votre vitesse Internet, cela peut prendre quelques minutes.
Une fois l'installation terminée, vous pouvez vérifier que Scikit-learn est correctement installé en l'important dans Python.
python3 -m pip show scikit-learn # show scikit-learn version and location
python3 -m pip freeze # show all installed packages in the environment
python3 -c "import sklearn; sklearn.show_versions()"
Si aucune erreur n'apparaît et que le numéro de version de Scikit-learn est imprimé, l'installation est réussie.
Comment utiliser Scikit-learn sous Linux
Une fois que vous avez installé Scikit-learn, il est temps de commencer à l'utiliser avec les exemples de base ci-dessous sur la façon d'utiliser Scikit-learn pour diverses tâches d'apprentissage automatique.
Exemple 1 : Importation de Scikit-learn et chargement d'un ensemble de données
Scikit-learn fournit plusieurs ensembles de données intégrés à des fins d'apprentissage. Un ensemble de données populaire est l'ensemble de données « Iris », qui contient des données sur différentes espèces de fleurs d'iris.
Pour charger l'ensemble de données Iris, utilisez le code suivant :
from sklearn.datasets import load_iris
Load the dataset
iris = load_iris()
Print the features and target labels
print(iris.data)
print(iris.target)
Exemple 2 : diviser les données en ensembles de formation et de test
Avant d'appliquer des modèles d'apprentissage automatique, il est important de diviser l'ensemble de données en ensembles d'entraînement et de test, ce qui garantit que le modèle est formé sur un sous-ensemble de données et testé sur un autre, évitant ainsi le surajustement.
Vous pouvez utiliser train_test_split
de Scikit-learn pour diviser les données :
from sklearn.model_selection import train_test_split
Split the data into 80% training and 20% testing
X_train, X_test, y_train, y_test = train_test_split(iris.data, iris.target, test_size=0.2, random_state=42)
print("Training data:", X_train.shape)
print("Testing data:", X_test.shape)
Exemple 3 : formation d'un modèle d'apprentissage automatique
Maintenant, entraînons un modèle d'apprentissage automatique à l'aide d'un classificateur simple, tel qu'une Machine à vecteurs de support (SVM), pour classer les fleurs d'iris.
from sklearn.svm import SVC
Create an SVM classifier
model = SVC()
Train the model on the training data
model.fit(X_train, y_train)
Predict on the test data
y_pred = model.predict(X_test)
print("Predicted labels:", y_pred)
Exemple 4 : Évaluation du modèle
Après avoir entraîné le modèle, il est important d’évaluer ses performances. Vous pouvez utiliser des mesures telles que la précision pour voir les performances du modèle.
from sklearn.metrics import accuracy_score
Calculate accuracy
accuracy = accuracy_score(y_test, y_pred)
print("Accuracy:", accuracy)
Cela imprimera la précision du modèle, qui représente le pourcentage de prédictions correctes faites par le modèle sur les données de test.
Conclusion
Dans cet article, nous avons expliqué comment installer et utiliser Scikit-learn sur un système Linux. Nous avons montré comment l'installer à l'aide de pip, charger des ensembles de données, diviser les données, entraîner des modèles d'apprentissage automatique et évaluer les performances du modèle.
Scikit-learn est un outil puissant et facile à utiliser pour l'apprentissage automatique en Python. Avec les étapes décrites ci-dessus, vous pouvez commencer votre parcours d'apprentissage automatique et explorer la vaste gamme d'algorithmes et de techniques proposées par Scikit-learn.
En pratiquant et en expérimentant différents algorithmes, ensembles de données et techniques d'évaluation de modèles, vous serez en mesure de créer des solutions d'apprentissage automatique efficaces pour des problèmes du monde réel.