Para determinar la recta que mejor se ajusta a un conjunto de $N$ puntos experimentales $\{(x_i,y_i)\}$ ( $i=1,2,\ldots,N$ ) emplearemos el criterio de mínimos cuadrados, que consiste en encontrar los coeficientes $m$ y $k$ de la recta de regresión lineal de $Y$ sobre $X$ -- para hallar la recta de regresión de $X$ sobre $Y$ se procederá de manera análoga -- tales que la suma de las diferencias de las ordenadas al cuadrado $(y_i-y'_{i})^2$ correspondientes al punto experimental $(x_i,y_i)$ y al punto $(x_i,y'_{i})$ situado en la perpendicular del primero, por encima ( respectivamente, por debajo ), sobre la recta de regresión a determinar. Es decir, pretendemos que la cantidad $\displaystyle \sum_{i=1}^{N}\,(y'_{i}-y_i)^2$ sea mínima.
Así pues, teniendo en cuenta que la recta a determinar es $y=m\,x+k$, tendremos que $y'_{i}=mx_i+k$ para cada $i=1,2,\ldots,N$, por consiguiente podemos escribir la cantidad que ha de hacerse mínima como una función de $m$ y $k$: $$\displaystyle \sum_{i=1}^{N}\,(m\,x_i+k-y_i)^2$$
Para que se obtenga un extremos relativo, y, en particular un mínimo, sabemos que las derivadas con respecto de $m$ y, también, de $k$ han de ser nulas. Luego derivando primero respecto de $m$ e igualando a $0$ y haciendo lo propio con respecto de $k$ llegamos a: $$\left\{\begin{matrix}\displaystyle \sum_{i=1}^{N}\,2\,(m\,x_i+k-y_i)\,x_i=0 \\ \displaystyle \sum_{i=1}^{N}\,2\,(m\,x_i+k-y_i)=0 \end{matrix}\right.$$ esto es $$\left\{\begin{matrix} \displaystyle \sum_{i=1}^{N}\,(m\,x_i+k-y_i)\,x_i=0 \\ \displaystyle \sum_{i=1}^{N}\,(m\,x_i+k-y_i)=0 \end{matrix}\right.$$ y por tanto $$\left\{\begin{matrix} \displaystyle m\,\sum_{i=1}^{N}\,x_{i}^2+k\,\sum_{i=1}^{N}\,x_i-\sum_{i=1}^{N}\,x_i\,y_i=0 \\ \displaystyle m\,\sum_{i=1}^{N}\,x_{i}+k\,N-\sum_{i=1}^{N}\,y_i=0 \end{matrix}\right. \quad \quad (2)$$ Teniendo en cuenta ahora que $$\displaystyle \dfrac{1}{N}\,\sum_{i=1}^{N}\,x_i=\bar{x}$$ $$\displaystyle \dfrac{1}{N}\,\sum_{i=1}^{N}\,y_i=\bar{y}$$ $$\displaystyle \dfrac{1}{N}\,\sum_{i=1}^{N}\,x_{i}^{2}=\overline{x^2}$$ podemos escribir las dos ecuaciones de la forma $$\left\{\begin{matrix} m\,\overline{x^2}+k\,\bar{x}=\displaystyle \dfrac{1}{N}\,\sum_{i=1}^{N}\,x_i\,y_i \\ m\,\bar{x}+k=\bar{y}\end{matrix}\right.$$ Multiplicando los dos miembros de la segunda ecuación por $\bar{x}$
$$\left\{\begin{matrix} m\,\overline{x^2}+k\,\bar{x}=\displaystyle \dfrac{1}{N}\,\sum_{i=1}^{N}\,x_i\,y_i \\ m\,(\bar{x})^2+k\,\bar{x}=\bar{y}\,\bar{x}\end{matrix}\right.$$ Sumando ahora miembro a miembro las dos ecuaciones obtenemos $$m\,\left(\overline{x^2}-(\bar{x})^2\right)=\displaystyle \dfrac{1}{N}\,\sum_{i=1}^{N}\,x_i\,y_i - \bar{x}\,\bar{y}$$ Reconocemos en el segundo miembro la covarianza $s_{xy}$ de $X$ e $Y$, y, en el primero, la varianza de $X$: $s_{x}^2$, con lo cual $$m\,s_{x}^2=s_{xy}$$ y por tanto la pendiente de la recta de regresión que es $$m=\dfrac{s_{xy}}{s_{x}^2}$$ Sustituyendo ahora en la segunda ecuación de (2) y despejando $k$ obtendremos la ordenada en el origen de dicha recta: $$k=\bar{y}-\dfrac{s_{xy}}{s_{x}^{2}}\,\bar{x}$$
Con todo ello, podemos expresar esta recta de regresión de $Y$ sobre $X$ en la forma punto-pendiente, que es muy apropiada a la hora de aplicarla para realizar estimaciones de $Y$, $\hat{y}$, a partir de valores dados de la variable $X$: $$(y-\bar{y})=\dfrac{s_{xy}}{s_{x}^{2}}\,(x-\bar{x})$$
OBSERVACIÓN: Si procedemos de manera análoga para hallar la recta de regresión de $X$ sobre $Y$, obtendremos esta otra recta de regresión que servirá para realizar estimaciones de $X$, $\hat{x}$, a partir de valores dados de la variable $Y$ $$(x-\bar{x})=\dfrac{s_{xy}}{s_{y}^{2}}\,(y-\bar{y})$$
NOTA: En todo procedimiento de regresión lineal son muy útiles los coeficientes de correlación de Pearson y el coeficiente de determinación a la hora de analizarlo; expresan la naturaleza y la bondad o fuerza del ajuste de la recta de regresión a la nube de puntos experimentales, respectivamente. Se define el coeficiente de correlación de Pearson de la forma $$r\overset{\text{def}}{=}\dfrac{s_{xy}}{s_{x}\,s_{y}}$$ siendo $s_x$ y $s_y$ las desviaciones estándar de $X$ e $Y$, respectivamente, de tal manera que $-1\le r\le 1$. Si $r\prec 0$ ( la covarianza $s_{xy} \prec 0$ ) la recta de regresión tiene pendiente negativa y, por tanto, es una función creciente; en el caso de que $r\succ 0$ ( la covarianza $s_{xy} \succ 0 $ ), la pendiente es positiva ( la función es creciente ). Si $|r|=1$ la dependencia es funcional; si $r=0$ ( la covarianza es nula $s_{xy}=0$ ) y no hay correlación. La fuerza del ajuste se mide mediante el coeficiente de determinación, $R^2$, que se define de la forma $R^2\overset{\text{def}}{=}(r)^2$; se tiene que $0 \le R^2\le 1$ ( que se suele expresar en tanto por ciento ), de modo que, en los casos límite, si $R^2=1$ la fuerza del ajusta es máxima y si $R^2=0$ la fuerza del ajuste es nula.
$\square$