import pandas as pd
import numpy as np
import matplotlib as mpl
import matplotlib.pyplot as plt
import seaborn as sns
from matplotlib import rc

rc('text', usetex=True)
rc('text.latex', preamble=r'\usepackage{cmbright}')
rc('font', **{'family': 'sans-serif', 'sans-serif': ['Helvetica']})

%matplotlib inline

# This enables SVG graphics inline. 
%config InlineBackend.figure_formats = {'png', 'retina'}

rc = {'lines.linewidth': 2, 
      'axes.labelsize': 18, 
      'axes.titlesize': 18, 
      'axes.facecolor': 'DFDFE5'}
sns.set_context('notebook', rc=rc)
sns.set_style("dark")

mpl.rcParams['xtick.labelsize'] = 16 
mpl.rcParams['ytick.labelsize'] = 16 
mpl.rcParams['legend.fontsize'] = 14


# chatgpt suggested:
url = "https://archive.ics.uci.edu/ml/machine-learning-databases/breast-cancer-wisconsin/wdbc.data"
data = pd.read_csv(url, header=None)

# The first column is an ID (we can ignore this), the second column is the label (M = malignant, B = benign), 
# and the rest are features
labels = data.iloc[:, 1]
features = data.iloc[:, 2:]


# chat suggested:
## Preview the data
#print(features.head())
#print(labels.head())

# i preferred:
print(data[1].unique())
data.head(1)

['M' 'B']


# chat suggested:
# sns.countplot(labels), which did not work.
# upon prompting, chat suggested the following
# line, which DID work:
sns.countplot(x=labels)

<Axes: xlabel='1', ylabel='count'>


# chat wrote everything in the next few cells:
from sklearn.preprocessing import LabelEncoder

le = LabelEncoder()
labels_encoded = le.fit_transform(labels)


from sklearn.preprocessing import StandardScaler

scaler = StandardScaler()
features_scaled = scaler.fit_transform(features)


from sklearn.model_selection import train_test_split

features_train, features_test, labels_train, labels_test =\
    train_test_split(features_scaled, labels_encoded,
                     test_size=0.2, random_state=42)


import tensorflow as tf
from tensorflow.keras.models import Sequential
from tensorflow.keras.layers import Dense

2023-05-21 02:44:44.645900: I tensorflow/core/platform/cpu_feature_guard.cc:182] This TensorFlow binary is optimized to use available CPU instructions in performance-critical operations.
To enable the following instructions: AVX2 FMA, in other operations, rebuild TensorFlow with the appropriate compiler flags.


model = Sequential()


model.add(
    Dense(1, activation='sigmoid',
          input_shape=(features_train.shape[1],))
    )


model.compile(loss='binary_crossentropy',
              optimizer='adam',
              metrics=['accuracy']
             )


history = model.fit(features_train, labels_train,
                    epochs=50,
                    validation_split=0.2)

Epoch 1/50
12/12 [==============================] - 0s 12ms/step - loss: 0.4670 - accuracy: 0.8242 - val_loss: 0.4572 - val_accuracy: 0.8132
Epoch 2/50
12/12 [==============================] - 0s 3ms/step - loss: 0.4250 - accuracy: 0.8599 - val_loss: 0.4166 - val_accuracy: 0.8571
Epoch 3/50
12/12 [==============================] - 0s 3ms/step - loss: 0.3916 - accuracy: 0.8764 - val_loss: 0.3814 - val_accuracy: 0.8681
Epoch 4/50
12/12 [==============================] - 0s 3ms/step - loss: 0.3615 - accuracy: 0.8984 - val_loss: 0.3528 - val_accuracy: 0.8791
Epoch 5/50
12/12 [==============================] - 0s 3ms/step - loss: 0.3372 - accuracy: 0.9093 - val_loss: 0.3284 - val_accuracy: 0.8791
Epoch 6/50
12/12 [==============================] - 0s 3ms/step - loss: 0.3163 - accuracy: 0.9203 - val_loss: 0.3082 - val_accuracy: 0.9011
Epoch 7/50
12/12 [==============================] - 0s 3ms/step - loss: 0.2983 - accuracy: 0.9231 - val_loss: 0.2907 - val_accuracy: 0.9121
Epoch 8/50
12/12 [==============================] - 0s 3ms/step - loss: 0.2827 - accuracy: 0.9258 - val_loss: 0.2765 - val_accuracy: 0.9121
Epoch 9/50
12/12 [==============================] - 0s 2ms/step - loss: 0.2684 - accuracy: 0.9313 - val_loss: 0.2637 - val_accuracy: 0.9121
Epoch 10/50
12/12 [==============================] - 0s 3ms/step - loss: 0.2561 - accuracy: 0.9368 - val_loss: 0.2523 - val_accuracy: 0.9121
Epoch 11/50
12/12 [==============================] - 0s 2ms/step - loss: 0.2451 - accuracy: 0.9396 - val_loss: 0.2421 - val_accuracy: 0.9231
Epoch 12/50
12/12 [==============================] - 0s 3ms/step - loss: 0.2354 - accuracy: 0.9396 - val_loss: 0.2331 - val_accuracy: 0.9231
Epoch 13/50
12/12 [==============================] - 0s 3ms/step - loss: 0.2263 - accuracy: 0.9396 - val_loss: 0.2253 - val_accuracy: 0.9231
Epoch 14/50
12/12 [==============================] - 0s 3ms/step - loss: 0.2182 - accuracy: 0.9451 - val_loss: 0.2178 - val_accuracy: 0.9231
Epoch 15/50
12/12 [==============================] - 0s 3ms/step - loss: 0.2107 - accuracy: 0.9505 - val_loss: 0.2114 - val_accuracy: 0.9231
Epoch 16/50
12/12 [==============================] - 0s 3ms/step - loss: 0.2038 - accuracy: 0.9505 - val_loss: 0.2056 - val_accuracy: 0.9341
Epoch 17/50
12/12 [==============================] - 0s 3ms/step - loss: 0.1975 - accuracy: 0.9505 - val_loss: 0.2003 - val_accuracy: 0.9341
Epoch 18/50
12/12 [==============================] - 0s 2ms/step - loss: 0.1918 - accuracy: 0.9505 - val_loss: 0.1955 - val_accuracy: 0.9341
Epoch 19/50
12/12 [==============================] - 0s 2ms/step - loss: 0.1865 - accuracy: 0.9505 - val_loss: 0.1912 - val_accuracy: 0.9451
Epoch 20/50
12/12 [==============================] - 0s 2ms/step - loss: 0.1816 - accuracy: 0.9505 - val_loss: 0.1873 - val_accuracy: 0.9451
Epoch 21/50
12/12 [==============================] - 0s 3ms/step - loss: 0.1770 - accuracy: 0.9505 - val_loss: 0.1835 - val_accuracy: 0.9451
Epoch 22/50
12/12 [==============================] - 0s 3ms/step - loss: 0.1727 - accuracy: 0.9505 - val_loss: 0.1801 - val_accuracy: 0.9560
Epoch 23/50
12/12 [==============================] - 0s 3ms/step - loss: 0.1690 - accuracy: 0.9505 - val_loss: 0.1770 - val_accuracy: 0.9560
Epoch 24/50
12/12 [==============================] - 0s 3ms/step - loss: 0.1651 - accuracy: 0.9505 - val_loss: 0.1737 - val_accuracy: 0.9560
Epoch 25/50
12/12 [==============================] - 0s 2ms/step - loss: 0.1614 - accuracy: 0.9505 - val_loss: 0.1709 - val_accuracy: 0.9560
Epoch 26/50
12/12 [==============================] - 0s 3ms/step - loss: 0.1581 - accuracy: 0.9505 - val_loss: 0.1685 - val_accuracy: 0.9560
Epoch 27/50
12/12 [==============================] - 0s 4ms/step - loss: 0.1549 - accuracy: 0.9505 - val_loss: 0.1660 - val_accuracy: 0.9560
Epoch 28/50
12/12 [==============================] - 0s 3ms/step - loss: 0.1521 - accuracy: 0.9533 - val_loss: 0.1636 - val_accuracy: 0.9670
Epoch 29/50
12/12 [==============================] - 0s 2ms/step - loss: 0.1492 - accuracy: 0.9505 - val_loss: 0.1618 - val_accuracy: 0.9670
Epoch 30/50
12/12 [==============================] - 0s 2ms/step - loss: 0.1466 - accuracy: 0.9505 - val_loss: 0.1597 - val_accuracy: 0.9670
Epoch 31/50
12/12 [==============================] - 0s 3ms/step - loss: 0.1441 - accuracy: 0.9560 - val_loss: 0.1578 - val_accuracy: 0.9670
Epoch 32/50
12/12 [==============================] - 0s 3ms/step - loss: 0.1417 - accuracy: 0.9588 - val_loss: 0.1560 - val_accuracy: 0.9670
Epoch 33/50
12/12 [==============================] - 0s 2ms/step - loss: 0.1394 - accuracy: 0.9643 - val_loss: 0.1541 - val_accuracy: 0.9670
Epoch 34/50
12/12 [==============================] - 0s 3ms/step - loss: 0.1372 - accuracy: 0.9643 - val_loss: 0.1524 - val_accuracy: 0.9670
Epoch 35/50
12/12 [==============================] - 0s 2ms/step - loss: 0.1351 - accuracy: 0.9643 - val_loss: 0.1509 - val_accuracy: 0.9670
Epoch 36/50
12/12 [==============================] - 0s 3ms/step - loss: 0.1331 - accuracy: 0.9643 - val_loss: 0.1494 - val_accuracy: 0.9670
Epoch 37/50
12/12 [==============================] - 0s 3ms/step - loss: 0.1312 - accuracy: 0.9670 - val_loss: 0.1478 - val_accuracy: 0.9670
Epoch 38/50
12/12 [==============================] - 0s 3ms/step - loss: 0.1293 - accuracy: 0.9698 - val_loss: 0.1465 - val_accuracy: 0.9670
Epoch 39/50
12/12 [==============================] - 0s 3ms/step - loss: 0.1276 - accuracy: 0.9698 - val_loss: 0.1453 - val_accuracy: 0.9670
Epoch 40/50
12/12 [==============================] - 0s 3ms/step - loss: 0.1259 - accuracy: 0.9698 - val_loss: 0.1440 - val_accuracy: 0.9670
Epoch 41/50
12/12 [==============================] - 0s 2ms/step - loss: 0.1243 - accuracy: 0.9698 - val_loss: 0.1426 - val_accuracy: 0.9670
Epoch 42/50
12/12 [==============================] - 0s 2ms/step - loss: 0.1227 - accuracy: 0.9698 - val_loss: 0.1415 - val_accuracy: 0.9670
Epoch 43/50
12/12 [==============================] - 0s 2ms/step - loss: 0.1211 - accuracy: 0.9698 - val_loss: 0.1405 - val_accuracy: 0.9670
Epoch 44/50
12/12 [==============================] - 0s 3ms/step - loss: 0.1197 - accuracy: 0.9698 - val_loss: 0.1394 - val_accuracy: 0.9670
Epoch 45/50
12/12 [==============================] - 0s 2ms/step - loss: 0.1183 - accuracy: 0.9698 - val_loss: 0.1384 - val_accuracy: 0.9670
Epoch 46/50
12/12 [==============================] - 0s 3ms/step - loss: 0.1170 - accuracy: 0.9698 - val_loss: 0.1372 - val_accuracy: 0.9670
Epoch 47/50
12/12 [==============================] - 0s 2ms/step - loss: 0.1158 - accuracy: 0.9698 - val_loss: 0.1362 - val_accuracy: 0.9670
Epoch 48/50
12/12 [==============================] - 0s 2ms/step - loss: 0.1146 - accuracy: 0.9698 - val_loss: 0.1352 - val_accuracy: 0.9670
Epoch 49/50
12/12 [==============================] - 0s 3ms/step - loss: 0.1133 - accuracy: 0.9698 - val_loss: 0.1341 - val_accuracy: 0.9670
Epoch 50/50
12/12 [==============================] - 0s 3ms/step - loss: 0.1121 - accuracy: 0.9698 - val_loss: 0.1331 - val_accuracy: 0.9670


plt.plot(history.history['accuracy'], label='train')
plt.plot(history.history['val_accuracy'], label='validation')
plt.title('Model Accuracy')
plt.ylabel('Accuracy')
plt.xlabel('Epoch')
plt.legend()

<matplotlib.legend.Legend at 0x11de69190>


plt.plot(history.history['loss'], label='train')
plt.plot(history.history['val_loss'], label='validation')
plt.title('Model Loss')
plt.ylabel('Loss')
plt.xlabel('Epoch')
plt.legend()

<matplotlib.legend.Legend at 0x1736f1a90>


loss, accuracy = model.evaluate(features_test, labels_test)
print(f'Test accuracy: {accuracy}')

4/4 [==============================] - 0s 2ms/step - loss: 0.0936 - accuracy: 0.9825
Test accuracy: 0.9824561476707458

Data Exploration¶

Building the ML code¶

Evaluation Metrics: Is it working?¶