Notas para el curso

Matemáticas para las Ciencias 2

Notas para el curso Matemáticas para las Ciencias 2

Pablo Antonio Candela Castellanos
Universidad Nacional Autónoma de México

Título de la obra:
Notas para el curso Matemáticas para las Ciencias 2

Autor:
Pablo Antonio Candela Castellanos

Código JavaScript para el libro: Joel Espinosa Longi, IMATE, UNAM.
Fuentes: Nunito y UbuntuMono
Fórmulas matemáticas: $\KaTeX$

Esta obra está bajo una Licencia Creative Commons Atribución-NoComercial-CompartirIgual 4.0 Internacional.

Tabla de contenido

Introducción

Este libro digital interactivo se ha diseñado para poder utilizarse en cualquier ordenador, celular o tableta, independientemente del sistema operativo que porte, sin necesidad de estar conectado a una red de internet. El contenido de este libro está pensado para estudiantes de la carrera de Ciencias de la Computación de la Facultad de Ciencias de la UNAM, de acuerdo al plan de estudios de la materia Matemáticas para las Ciencias II, tomando en cuenta los conocimientos adquiridos hasta el momento en el que toman la materia.

Comúnmente en el proceso del aprendizaje y enseñanza de las matemáticas, a los alumnos les cuesta trabajo aprender ya que en muchas ocasiones es difícil visualizar y entender los conceptos que se están estudiando. Es por eso que en este libro se tratarán los conceptos de manera que sean más intuitivos e interesantes por medio de recursos interactivos, permitiendo así que los alumnos trabajen lo que se está estudiando de tal forma que puedan visualizarlo por medio de animaciones o experimentar por sí mismos introduciendo valores e interactuando con los elementos de los recursos.

Dichos recursos interactivos se han desarrollado con ayuda del editor DescartesJS, el cual es una herramienta que permite desarrollar objetos educativos interactivos, que cuenta con la posibilidad de programar algoritmos, animaciones, integrar controles gráficos, de texto y numéricos, facilitando la creación de recursos que modelen varios conceptos en concreto. Adicionalmente al final de cada tema se explica como resolver algunos ejercicios de manera analítica, las cuales en lo general se apoyan y complementan de buena manera con los recursos interactivos en la comprobación de los resultados.

En general, el objetivo que se le ha dado a este libro es la de adquirir la capacidad de comprender de manera intuitiva la geometría en varias dimensiones, conocer los conceptos relacionados con funciones reales de varias variables, curvas, diferenciabilidad, así como saber utilizar técnicas del cálculo empleadas para solucionar problemas de optimización, la resolución de problemas lineales de varias variables y el cálculo de sólidos de revolución.

Capítulo I

Espacio Euclidiano de dimensión $n$

Suma de vectores. Producto por escalares.

Vectores

El conjunto de las $n-tuplas$ ordenadas de números reales se denota por $ℝ^{n}$, donde $ℝ^{n}:=\{(u_{1},u_{2},...,u_{n}|u_{i} \in \R, 1 \leq i \leq n)\}$ y se suelen llamar vectores de orden $n$, donde el orden se refiere a la dimensión del vector, los vectores se denotan como $\overrightarrow{u}$.

Desde el punto de vista geométrico un vector $\overrightarrow{u} = (u_{1},u_{2},...,u_{n})$ puede verse como un segmento de recta dirigido, el cual tiene por punto inicial “el origen” (Para los ejemplos de estas notas la coordenada $(0,0,...,0)$) y como punto final el punto que se encuentra en la coordenada $(u_{1},u_{2},...,u_{n})$ ().

Los vectores con la misma dirección y longitud son llamados vectores equivalentes, donde la equivalencia de vectores se denota como $\overrightarrow{u} = \overrightarrow{v}.$ Hay que tomar en cuenta que esta propiedad sólo considera la dirección y la longitud, por lo tanto, los vectores se consideran equivalentes aunque su origen esté ubicado en una posición diferente. El vector cuyas componentes son todas $0$ es conocido como el vector cero o vector nulo y es denotado como $\overrightarrow{0}$.

Representación gráfica de un vector, puedes mover la punta de la flecha y observar el valor de sus componentes.

Suma de vectores

La suma de vectores se puede llevar a cabo entre dos o más vectores, sin embargo hay que tomar en cuenta que para realizar esta operación todos los vectores deben de tener la misma dimensión y su origen tiene que estar aplicado a un punto en común, en otras palabras, si un vector tiene su origen en la coordenada $(0,0)$, para poder sumarlo con otro vector este también tiene que tener su origen en la coordenada $(0,0)$.

La suma de vectores da como resultado un vector nuevo, existen diferentes métodos para realizar esta operación, puede hacerse de manera algebraica o utilizando geometría analítica como se explica a continuación.

Método algebraico

El método algebraico o también conocido como método directo se realiza sumando los respectivos componentes de cada vector.

Sean dos vectores $\overrightarrow{u}$ y $\overrightarrow{v}$ $\in ℝ^{n}$, definidos a partir de sus componentes como:

$\overrightarrow{u}$ = ($u_{1}$, $u_{2}$, $u_{3}$ ,..., $u_{n}$)

$\overrightarrow{v}$ = ($v_{1}$, $v_{2}$, $v_{3}$ ,..., $v_{n}$)

El vector resultante $\overrightarrow{w}$ es obtenido sumando los componentes de $\overrightarrow{u}$ y $\overrightarrow{v}$ de la siguiente manera:

$\overrightarrow{w}$ = ($u_{1} + v_{1}$, $u_{2} + v_{2}$, $u_{3} + v_{3}$, ...,$u_{n} + v_{n}$)

Esta operación puede generalizarse para $n$ vectores sumando los respectivos componentes de cada vector.

Ejemplo 1: Sean $\overrightarrow{u} = (2,-5,-1)$ y $\overrightarrow{v} = (4,2,2)$ vectores en $ℝ^{3}$.

$\overrightarrow{u} + \overrightarrow{v} = (2+4,-5+2,-1+2) = (6,3,1)$

Ejemplo 2: Sean $\overrightarrow{u} = (1,-2,3)$, $\overrightarrow{v} = (1,-2,-2)$ y $\overrightarrow{w} = (3,1,3)$ vectores en $ℝ^{3}$.

$\overrightarrow{u} + \overrightarrow{v} + \overrightarrow{w} = (1+1+3,-2-2+1,3-2+3) = (5,-3,4)$

Métodos geométricos

En cuanto a los métodos geométricos los más conocidos son el “método del triángulo”, “el método del paralelogramo” y “el método del polígono”.

Método del triángulo.

Sean dos vectores en $ℝ^{2}$ o en $ℝ^{3}$ aplicados a un punto inicial en común, la suma consiste en trasladar el origen del segundo vector a el “extremo” del primero, de esta forma la suma se representa como el vector que une el punto en común con el extremo del vector trasladado. .

Método del triángulo, puedes mover la punta de los vectores y observar los trazos para calcular la suma.

Método del paralelogramo.

Se toman dos vectores en $ℝ^{2}$ o en $ℝ^{3}$ aplicados a un punto inicial en común, primero se dibujan ambos vectores, después se traza una recta paralela a cada vector, donde la recta paralela al primer vector inicia en el extremo del segundo vector y la recta paralela al segundo vector inicia en el extremo del primer vector de tal forma que se obtiene un paralelogramo, la suma es representada como el vector que inicia en el punto en común y termina en la intersección de los segmentos paralelos. .

Método del paralelogramo, puedes mover la punta de los vectores y observar los trazos para calcular la suma .

Método del polígono.

Este método es utilizado cuando se quieren sumar más de dos vectores, el procedimiento consiste en colocar un vector a continuación de otro de la misma manera que en el método del triángulo, los vectores se tienen que ir colocando de modo que el origen de uno coincida con el extremo de otro, esto se realiza con cada vector que se quiere sumar hasta terminar de colocar todos, por último la suma se representa por el vector que inicia en el punto en común y termina en el extremo del último vector colocado.

Método del polígono, puedes mover la punta de los vectores y observar los trazos para calcular la suma.

La suma de vectores cumple con las siguientes propiedades.

Sean $\overrightarrow{u}$, $\overrightarrow{v}$ y $\overrightarrow{w}$ vectores en $ℝ^{n}$, entonces:

$\overrightarrow{u} + \overrightarrow{v} = \overrightarrow{v} + \overrightarrow{u}$.

$\overrightarrow{u} + (\overrightarrow{v} + \overrightarrow{w}) = (\overrightarrow{u} + \overrightarrow{v}) + \overrightarrow{w}$.

$\overrightarrow{u} + \overrightarrow{0} = \overrightarrow{u}.$

$\overrightarrow{u} + (-\overrightarrow{u}) = \overrightarrow{0}$, es decir existe un vector -$\overrightarrow{u}$ que es inverso aditivo de $\overrightarrow{u}$.

Producto por escalares.

El producto por escalares es una operación que se realiza entre un vector $\overrightarrow{u}$ no nulo y un escalar $c$ (número real distinto de cero) denotado como $c\overrightarrow{u}$, el resultado que se obtiene es un vector nuevo cuya longitud es $|c|$ veces la del vector $\overrightarrow{u}$, el cual conserva la dimensión del vector original.

Sea $c$ un número en $\R$ y $\overrightarrow{u}$ un vector en $ℝ^{n}$, la multiplicación por escalares se define como:

$c\overrightarrow{u} = c\cdot (u_{1},u_{2},..,u_{n})$ = $(c\cdot u_{1},c\cdot u_{2},..,c\cdot u_{n})$.

Ejemplo 1: Sean $c = 3$ y $\overrightarrow{u} = (3,1,-3)$.

$c\overrightarrow{u} = 3\cdot(2,1,-2) = (3\cdot 2,3\cdot 1,3\cdot -2) = (6,3,-6)$

Ejemplo 2: Sean $c = -2$ y $\overrightarrow{u} = (3,-1,-3)$.

$c\overrightarrow{u} = -2\cdot(3,-1,-3) = (-2\cdot 3,-2\cdot -1,-2\cdot -3) = (-6,2,6)$

Hay que tener en cuenta que si el escalar es negativo el vector resultante tendrá una dirección opuesta a la del vector $\overrightarrow{u}$, en caso de que $c = 0$ o $\overrightarrow{u}$ = $\overrightarrow{0}$ entonces $c\overrightarrow{u} = \overrightarrow{0}$.

En la podemos ver el vector resultante al multiplicarlo por un escalar $c$.

Producto por escalares, introduce el valor del escalar $c$ y observa como se dibuja el nuevo vector.

El producto por escalares cumple con las siguientes propiedades.

Sean $\overrightarrow{u}$ y $\overrightarrow{v}$ dos vectores en $ℝ^{n}$ y dos escalares $k$ y $l$ en $\R$, entonces:

$(k+l)\overrightarrow{u} = k\overrightarrow{u} + l\overrightarrow{u}$ .

$k(\overrightarrow{u} + \overrightarrow{v}) = k\overrightarrow{u} + k\overrightarrow{v} $ .

$k(l\overrightarrow{u}) = (kl)\overrightarrow{u} = l(k\overrightarrow{u}). $

$1\overrightarrow{u} = \overrightarrow{u}$.

Producto interno. Distancia.

Para entender lo que es el producto interno y la distancia de vectores primero será necesario definir lo que es la norma. La norma se denota como $||\overrightarrow{v}||$ y representa la longitud de un vector, es decir cual es la longitud del origen al extremo del vector.

Sea $\overrightarrow{v} = (v_{1},v_{2},...,v_{n})$ $\in ℝ^{n}$ un vector, entonces:

$||\overrightarrow{v}||$=$\sqrt{v_{1}^{2}+v_{2}^{2}+\cdots+v_{n}^{2}}$

Por ejemplo, si tenemos el vector $\overrightarrow{v}$ = $(v_{1},v_{2})$ $\in$ $ℝ^{2}$, entonces según la definición, su norma se calcula de la siguiente manera:

$||\overrightarrow{v}||$ = $\sqrt{v_{1}^{2}+v_{2}^{2}}$.

Para entender de dónde sale esta fórmula podemos dibujar el vector $\overrightarrow{v}$ en el plano, cuyo origen se encuentra en la coordenada $(0,0)$ y su extremo en $(v_{1},v_{2})$, ahora si trazamos una línea vertical desde el punto $(v_{1},v_{2})$ hasta el eje $x$ podemos observar que se forma un triángulo rectángulo ().

Norma de un vector.

En el triángulo formado, el cateto adyacente es igual a $v_{1}$, el cateto opuesto es $v_{2}$ y la hipotenusa es igual a la longitud entre el origen y el extremo del vector, es decir la hipotenusa es ||$\overrightarrow{v}$||.

Una vez identificados estos tres valores podemos utilizar el teorema de Pitágoras para obtener la definición $||\overrightarrow{v}||$ de la siguiente manera:

$||\overrightarrow{v}||^{2} = v_{1}^{2} + v_{2}^{2} \Rightarrow ||\overrightarrow{v}|| = \sqrt{v_{1}^{2}+v_{2}^{2}}$

Como podemos ver, la formula obtenida es igual a la definición de la norma en $ℝ^{2}$. Para profundizar más acerca de la obtención de esta fórmula consultar y

Sea $\overrightarrow{u}$ un vector en $ℝ^{n}$ y $k$ un escalar en $\R$, entonces:

$||\overrightarrow{u}|| \geq 0 $,

$||\overrightarrow{u}|| = 0 $ si y solo si $\overrightarrow{u} = \overrightarrow{0}$.

$||k\overrightarrow{u}|| = |k|$ $||\overrightarrow{u}||$.

Producto interno.

El producto interno es una operación entre vectores que da como resultado un número y se denota como $\overrightarrow{v} \cdot \overrightarrow{u}$.

Sea $\overrightarrow{u}$ y $\overrightarrow{v}$ dos vectores en $ℝ^{n}$ y $\alpha$ el ángulo entre ellos, el producto interno se puede definir de dos formas equivalentes:

La primera consiste en multiplicar los componentes de cada vector y sumar los productos, es decir:

Sean dos vectores $\overrightarrow{u} = (u_{1},u_{2},...,u_{n})$ y $\overrightarrow{v}=(v_{1},v_{2},...,v_{n})$, el producto interno se define de la siguiente manera:

$\overrightarrow{u} \cdot \overrightarrow{v} = u_{1}\cdot v_{1}+u_{2}\cdot v_{2}+\cdots+u_{n}\cdot v_{n}$

Ejemplo: Sean $\overrightarrow{v} = (2,4)$ y $\overrightarrow{u} = (-2,3)$.

$\overrightarrow{v} \cdot \overrightarrow{u} = (2 \cdot -2 + 4 \cdot 3) = (-4 + 12) = 8$.

Por otro lado, si conocemos la norma de ambos vectores y el ángulo que se forma entre ellos entonces.

Sean dos vectores $\overrightarrow{u} = (u_{1},u_{2},...,u_{n})$ y $\overrightarrow{v}=(v_{1},v_{2},...,v_{n})$, podemos definir el producto interno como:

$\overrightarrow{u} \cdot \overrightarrow{v}$ = $||\overrightarrow{u}||$ $||\overrightarrow{v}||$ $cos(\alpha)$

Donde $\alpha$ es el ángulo que forman los vectores que se están multiplicando.

Ejemplo: Sean $\overrightarrow{u} = (-2,3)$ y $\overrightarrow{v} = (2,4)$ cuyo ángulo que se forma entre ellos es de $60.26°$ , primero calculamos la norma de los vectores:

$||\overrightarrow{u}||$ = $\sqrt{-2^{2}+3^{2}} = \sqrt{13} \simeq 3.61$

$||\overrightarrow{v}||$ = $\sqrt{2^{2}+4^{2}} = \sqrt{20} \simeq 4.47$

Aplicando la definición:

$\overrightarrow{u} \cdot \overrightarrow{v} = 3.61$ $\cdot$ $4.47$ $\cdot$ $cos(60.26) = 16.13 \cdot 0.49 \simeq 8$.

Como podemos observar se obtienen los mismos resultados con ambos métodos. Hay que notar que en caso de que $\overrightarrow{v}$ o $\overrightarrow{u}$ sean el vector nulo entonces $\overrightarrow{v} \cdot \overrightarrow{u} = \overrightarrow{0}$.

La definición del producto interno nos revela información acerca del ángulo entre los vectores, podemos reescribir la fórmula como:

$cos(\alpha) = \frac{\overrightarrow{v} \cdot \overrightarrow{u}}{||\overrightarrow{v}|| \cdot ||\overrightarrow{u}||} \Rightarrow \alpha = arccos\left(\frac{\overrightarrow{v} \cdot \overrightarrow{u}}{||\overrightarrow{v}|| \cdot ||\overrightarrow{u}||}\right)$

Para mayor información consultar .

Ejemplo: Utilizando los mismos vectores que en el ejemplo anterior procedemos a calcular el ángulo que se forma entre ambos utilizando la fórmula anterior.

$\alpha = arccos\left(\frac{2 \cdot -2 + 4 \cdot 3}{4.47 \cdot 3.61}\right) = arccos \left(\frac{8}{16.13}\right) \simeq 60.26°$.

En la se muestran los cálculos para obtener el producto punto y la obtención del ángulo que se forma.

El producto interno cumple con muchas de las propiedades algebraicas del producto en números reales.

Sean $\overrightarrow{u}$, $\overrightarrow{v}$ y $\overrightarrow{w}$ vectores en $ℝ^{n}$, entonces:

$\overrightarrow{u} \cdot \overrightarrow{v} = \overrightarrow{v} \cdot \overrightarrow{u}$ .

$\overrightarrow{u} \cdot (\overrightarrow{v} + \overrightarrow{w}) = \overrightarrow{u} \cdot \overrightarrow{v} + \overrightarrow{u} \cdot \overrightarrow{w}$.

$k(\overrightarrow{u} \cdot \overrightarrow{v}) = (k\overrightarrow{u}) \cdot \overrightarrow{v}$.

$\overrightarrow{v} \cdot \overrightarrow{v} \geq 0$ y $ \overrightarrow{v} \cdot \overrightarrow{v} = 0$ si y solo si $\overrightarrow{v} = \overrightarrow{0}$

Producto interno, mueve los vectores y observa los cálculos.

Distancia.

Uno de los usos más importantes que se le puede dar a la norma de un vector es el cálculo de la distancia entre dos puntos que se encuentran en $ℝ^{n}$.

Supongamos que tenemos dos puntos $u$ y $v$ en $ℝ^{n}$, consideramos el vector que se forma al unir ambos puntos, es decir el vector $\overrightarrow{uv}$, entonces la norma de $\overrightarrow{uv}$ es igual a la distancia $d$ entre los puntos.

Como sabemos, la norma nos ayuda a calcular la longitud de un vector, en otras palabras se calcula la distancia que hay entre el origen y el extremo de un vector, sin embargo esto se puede aplicar también para calcular la distancia entre dos puntos, ya que podemos unir a estos dos puntos con una línea (formando un vector) donde el origen es el primer punto y el extremo es el segundo, entonces.

Sean dos puntos $u = (u_{1},u_{2},...,u_{n})$ y $v = (v_{1},v_{2},...,v_{n})$ en $ℝ^{n}$, denotamos la distancia entre $u$ y $v$ como $d(u,v)$ y se define como:

$d(u,v) = ||\overrightarrow{uv}||$ = $\sqrt{(u_{1}-v_{1})^{2}+(u_{2}-v_{2})^{2}+\cdots+(u_{n}-v_{n})^{2}}$

Ejemplo: Sean los puntos $u = (2,3)$ y $v = (1,-2) \in ℝ^{2}$.

$d(u,v) = ||\overrightarrow{uv}||$ = $\sqrt{(2-1)^{2}+(3+2)^{2}}=\sqrt{26}$

En la se pueden ver los pasos para calcular la distancia de dos puntos a partir de sus coordenadas.

Distancia entre dos puntos, mueve los puntos $U$, $V$ y observa los cálculos.

Producto cruz. Triple producto escalar.

Producto cruz

Anteriormente definimos la operación de producto punto el cual se realiza entre dos vectores y da como resultado un escalar, ahora definiremos una nueva operación de multiplicación de vectores que da como resultado un vector, esta operación es conocida como producto cruz o producto vectorial.

El producto cruz solo puede realizarse con vectores que se encuentran en $ℝ^{3}$ y el resultado es un nuevo vector que es perpendicular al plano que contiene a los dos vectores.

Consideremos dos vectores no nulos $\overrightarrow{u}$ y $\overrightarrow{v}$ en $ℝ^{3}$. El producto cruz de $\overrightarrow{u}$ y $\overrightarrow{v}$ denotado como $\overrightarrow{u}$ x $\overrightarrow{v}$ es igual al vector cuya norma y dirección están dados de la siguiente manera:

1- La norma de $\overrightarrow{u}$ x $\overrightarrow{v}$ es el área del paralelogramo que es abarcado por $\overrightarrow{u}$ y $\overrightarrow{v}$ () o es cero si $\overrightarrow{u}$ es paralelo a $\overrightarrow{v}$ o si $\overrightarrow{u}$ o $\overrightarrow{v}$ son el vector nulo. Alternativamente la siguiente definición es válida:

$||\overrightarrow{u}$ x $\overrightarrow{v}|| = ||\overrightarrow{u}||$ $||\overrightarrow{v}||$ $sen(\alpha)$

Donde $\alpha$ es el ángulo formado entre los vectores. .

2- El vector resultante de $\overrightarrow{u}$ x $\overrightarrow{v}$ es perpendicular a $\overrightarrow{u}$ y $\overrightarrow{v}$ y la dirección de $\overrightarrow{u}$ x $\overrightarrow{v}$ es igual a la dirección del vector normal (denotado como $\overrightarrow{n}$) que es determinado por la regla de la mano derecha ()..

Una vez que sabemos como está definida la norma y la dirección del vector resultante, ahora haremos los cálculos correspondientes para obtenerlo a partir de los componentes de los vectores que se están multiplicando.

Supongamos que tenemos dos vectores $\overrightarrow{u} = (u_{1},u_{2},u_{3})$ y $\overrightarrow{v} = (v_{1},v_{2},v_{3})$ $\in ℝ^{3}$, entonces el producto cruz está definido de la siguiente manera:

$\overrightarrow{u}$ x $\overrightarrow{v}$ = $(u_{1}v_{3}-u_{3}v_{2},u_{3}v_{1}-u_{1}v_{3},u_{1}v_{2}-u_{2}v_{1})$

Área del paralelogramo formado por los vectores $\overrightarrow{v1}$ y $\overrightarrow{v2}$, donde $\overrightarrow{n}$ representa el vector normal determinado por la regla de la mano derecha.

Esta definición podemos representarla de manera más sencilla utilizando determinantes de matrices. Dados $\overrightarrow{u}$ y $\overrightarrow{v}$ $\in ℝ^{3}$ podemos hallar la fórmula para el producto cruz expresándolos en su forma canónica, es decir $\overrightarrow{u} = u_{1}i + u_{2}j + u_{3}k$ y $\overrightarrow{v} = v_{1}i + v_{2}j + v_{3}k$.

Entonces $\overrightarrow{u}$ x $\overrightarrow{v}$ puede verse como la matriz:

$\overrightarrow{u}$ x $\overrightarrow{v}$ = $\begin{bmatrix}{i}&{j}&{k}\\{u_{1}}&{u_{2}}&{u_{3}}\\{v_{1}}&{v_{2}}&{v_{3}}\end{bmatrix}$

Retomando la fórmula para calcular los determinantes en matrices $3$ x $3$ tenemos que:

$\begin{vmatrix}{i}&{j}&{k}\\{u_{1}}&{u_{2}}&{u_{3}}\\{v_{1}}&{v_{2}}&{v_{3}}\end{vmatrix}=\begin{vmatrix}{u_{2}}&{u_{3}}\\{v_{2}}&{v_{3}}\end{vmatrix}i - \begin{vmatrix}{u_{1}}&{u_{3}}\\{v_{1}}&{v_{3}}\end{vmatrix}j + \begin{vmatrix}{u_{1}}&{u_{2}}\\{v_{1}}&{v_{2}}\end{vmatrix}k$

Finalmente utilizando la notación de vectores:

$\overrightarrow{u}$ x $\overrightarrow{v}$ = $\left(\begin{vmatrix}{u_{2}}&{u_{3}}\\{v_{2}}&{v_{3}}\end{vmatrix},-\begin{vmatrix}{u_{1}}&{u_{3}}\\{v_{1}}&{v_{3}}\end{vmatrix},\begin{vmatrix}{u_{1}}&{u_{2}}\\{v_{1}}&{v_{2}}\end{vmatrix}\right)$

Para profundizar más consultar .

Sean $\overrightarrow{u}$, $\overrightarrow{v}$ y $\overrightarrow{w}$ vectores en $ℝ^{n}$ y los escalares $k$ y $l$ en $\R$, entonces:

$(k\overrightarrow{u})$ x $(l\overrightarrow{v}) = (kl)(\overrightarrow{u}$ x $\overrightarrow{v})$.

$\overrightarrow{u}$ x $(\overrightarrow{v} + \overrightarrow{w}) = \overrightarrow{u}$ x $\overrightarrow{v} + \overrightarrow{u}$ x $\overrightarrow{w}$.

$(\overrightarrow{v} + \overrightarrow{w})$ x $\overrightarrow{u} = \overrightarrow{v}$ x $\overrightarrow{u} + \overrightarrow{w}$ x $\overrightarrow{u}$.

$\overrightarrow{u}$ x $\overrightarrow{v} = -(\overrightarrow{v}$ x $\overrightarrow{u})$.

$\overrightarrow{u}$ x $\overrightarrow{0} = \overrightarrow{0}$.

En la podemos ver los cálculos que se deben realizar para obtener el producto cruz utilizando determinantes.

Producto cruz. Mueve los vectores y observa los cálculos.

Triple producto escalar.

El triple producto escalar es una operación que se realiza entre tres vectores, el resultado es un número real y se denota como $(\overrightarrow{u}$ x $\overrightarrow{v})\cdot \overrightarrow{w}$. Esta operación es también conocida como el producto mixto ya que consta de una combinación entre el producto escalar y el producto cruz. Hay que notar que esta operación solo puede realizarse con vectores en $ℝ^{3}$.

El triple producto escalar también puede evaluarse como un determinante y su definición está dada como sigue.

sean $\overrightarrow{u} = (u_{1},u_{2},u_{3})$, $\overrightarrow{v} = (v_{1},v_{2},v_{3})$ y $\overrightarrow{w} = (w_{1},w_{2},w_{3}) \in ℝ^{3}$ tenemos que:

$(\overrightarrow{u}$ x $\overrightarrow{v})\cdot \overrightarrow{w} = \left[\begin{bmatrix}{u_{2}}&{u_{3}}\\{v_{2}}&{v_{3}}\end{bmatrix}i - \begin{bmatrix}{u_{1}}&{u_{3}}\\{v_{1}}&{v_{3}}\end{bmatrix}j + \begin{bmatrix}{u_{1}}&{u_{2}}\\{v_{1}}&{v_{2}}\end{bmatrix}k\right] \cdot \overrightarrow{w}$

$= w_{1}\begin{bmatrix}{u_{2}}&{u_{3}}\\{v_{2}}&{v_{3}}\end{bmatrix} - w_{2}\begin{bmatrix}{u_{1}}&{u_{3}}\\{v_{1}}&{v_{3}}\end{bmatrix} + w_{3}\begin{bmatrix}{u_{1}}&{u_{2}}\\{v_{1}}&{v_{2}}\end{bmatrix}$

y .

En la se muestran los cálculos que se realizan para calcular el triple producto escalar de tres vectores en $ℝ^{3}$.

Triple producto escalar de los vectores $\overrightarrow{v1}$, $\overrightarrow{v2}$ y $\overrightarrow{v3}$.

Área de paralelogramos y volumen de paralelepípedos.

El producto cruz lo podemos utilizar para calcular áreas y volúmenes de ciertos objetos, en esta sección veremos los casos particulares para calcular el área de paralelogramos y el volumen de paralelepípedos.

Área de paralelogramos.

Como vimos en la sección 1.3.1, la norma del producto cruz es el área del paralelogramo que es abarcado por dos vectores $\overrightarrow{u}$ y $\overrightarrow{v}$.

Ahora veamos como fue obtenida esta fórmula de manera geométrica, recordemos que el área de un paralelogramo es igual a la base por la altura, en nuestro caso tenemos:

Base = $||\overrightarrow{u}||$

Ahora utilizando la razón trigonométrica $sen(\alpha) = \frac{cateto\;opuesto}{hipotenusa}$ obtenemos la altura.

Altura = $sen(\alpha) = \frac{h}{||\overrightarrow{v}||} \Rightarrow$ $h = ||\overrightarrow{v}||$ $sen(\alpha) $

Donde $\alpha$ es el ángulo formado entre los vectores .

Base y altura del paralelogramo.

De lo anterior podemos definir el área del paralelogramo como sigue.

Sean dos vectores $\overrightarrow{u}$ y $\overrightarrow{v}$, el área del paralelogramo determinado por estos vectores es:

Área paralelogramo =$||\overrightarrow{u}||$ $||\overrightarrow{v}||$ $sen(\alpha)$

y

En la se muestran los pasos para calcular el área de un paralelogramo utilizando la definición anterior.

Área del paralelogramo formado por los vectores $\overrightarrow{u}$ y $\overrightarrow{v}$.

Otra forma equivalente para calcular el área del paralelogramo es utilizando directamente la definición del producto cruz, que como vimos en la sección 1.3.1, el área del paralelogramo es igual a la norma del producto cruz de dos vectores, es decir:

Área paralelogramo $=||\overrightarrow{u}$ x $\overrightarrow{v}|| = ||\overrightarrow{u}||$ $||\overrightarrow{v}||$ $sen(\alpha)$

Para hacerlo de esta forma primero se calcula el producto cruz de $\overrightarrow{u}$ y $\overrightarrow{v}$, después se calcula la norma del vector resultante y el resultado es igual al área del paralelogramo.

Nota: Recordemos que el producto cruz se calcula con vectores en $ℝ^{3}$, sin embargo pueden hacerse los cálculos con vectores en $ℝ^{2}$ si consideramos al tercer componente de los vectores como cero.

Volumen de paralelepípedos

En la sección 1.3.2 definimos el triple producto escalar, ahora veremos cual es el significado del número que se obtiene al realizar esta operación. Para eso haremos la interpretación geométrica del triple producto escalar.

Consideremos los vectores $\overrightarrow{u}$, $\overrightarrow{v}$ y $\overrightarrow{w}$ $\in ℝ^{3}$, podemos dibujar un paralelepípedo (cuerpo cuyas seis caras son paralelogramos) el cual está determinado por los tres vectores .

Paralelepípedo formado por los vectores $\overrightarrow{u}$, $\overrightarrow{v}$ y $\overrightarrow{w}$.

El área de un paralelepípedo se calcula multiplicando el área de la base por la altura, en nuestro caso tenemos.

Área de la base $ = ||\overrightarrow{u}$ x $\overrightarrow{v}||$, es decir el área del paralelogramo formado por $\overrightarrow{u}$ y $\overrightarrow{v}$.

Altura $= ||\overrightarrow{w}||$ $|cos(\alpha)|$

siendo $\alpha$ el ángulo entre $(\overrightarrow{u}$ x $\overrightarrow{v})$ y $\overrightarrow{w}$.

De lo anterior obtenemos lo siguiente.

Sean tres vectores $\overrightarrow{u}$,$\overrightarrow{v}$,$\overrightarrow{w}$ $\in ℝ^{3}$, el volumen del paralelepípedo es:

Volumen paralelepípedo $= ||\overrightarrow{u}$x$\overrightarrow{v}||$ $||\overrightarrow{w}||$ $|cos (\alpha)|$

Observación: $cos (\alpha)$ puede ser negativo, es por eso que tomamos el valor absoluto para calcular el valor de la altura.

En la se muestran los pasos para calcular el volumen de un paralelepípedo formado por tres vectores.

Por otro lado notemos que:

$||\overrightarrow{u}$x$\overrightarrow{v}||$ $||\overrightarrow{w}||$ $|cos (\alpha)|$ $ = ||\overrightarrow{u}$x$\overrightarrow{v}||$ $||\overrightarrow{w}||$ $|cos (\overrightarrow{u}$ x $\overrightarrow{v}, \overrightarrow{w})|$

$ = |(\overrightarrow{u}$ x $\overrightarrow{v}) \cdot \overrightarrow{w}|$

Como podemos ver, la definición del volumen del paralelepípedo es igual al valor absoluto del triple producto escalar, en otras palabras el número que se obtiene en el triple producto escalar es igual al volumen del paralelepípedo que se forma por los tres vectores multiplicados.

Volumen del paralelepípedo formado por los vectores $\overrightarrow{u}$,$\overrightarrow{v}$ y $\overrightarrow{w}$.

Por lo tanto otra forma equivalente para calcular el área de un paralelepípedo es calculando el triple producto escalar de $\overrightarrow{u}$,$\overrightarrow{v}$ y $\overrightarrow{w}$ y obtener el valor absoluto del resultado.

Transformación lineal y matrices.

Espacio vectorial real

La siguiente definición consta de diez axiomas, de los cuales ocho son propiedades de vectores en $ℝ^{n}$ que se establecieron en el y el .

Sea $V$ un conjunto arbitrario de objetos en el que se definen dos operaciones binarias llamadas suma y multiplicación por escalares. Con suma nos referimos a una regla para asociar a cada par de objetos $\overrightarrow{u}$,$\overrightarrow{v} \in V$ un objeto $\overrightarrow{u} + \overrightarrow{v}$ llamado suma de $\overrightarrow{u}$ y $\overrightarrow{v}$; con multiplicación por escalares nos referimos a una regla para asociar a cada escalar $k$ y a cada objeto $\overrightarrow{u} \in V$ un objeto $k\overrightarrow{u}$ llamado multiplicación por escalar de $k$ por $\overrightarrow{u}$. Si los objetos $\overrightarrow{u}$, $\overrightarrow{v}$, $\overrightarrow{w} \in V$ y todos los escalares $k$ y $l$ satisfacen los siguientes axiomas, entonces llamamos a $V$ espacio vectorial y llamamos a los objetos en $V$ vectores.

Si $\overrightarrow{u}$ y $\overrightarrow{v} \in V$ , entonces $\overrightarrow{u} + \overrightarrow{v} \in V$.
$\overrightarrow{u} + \overrightarrow{v} = \overrightarrow{v} + \overrightarrow{u}$.
$\overrightarrow{u} + (\overrightarrow{v} + \overrightarrow{w}) = (\overrightarrow{u} + \overrightarrow{v}) + \overrightarrow{w}$ .
$\overrightarrow{u} + \overrightarrow{0} = \overrightarrow{u}.$
$\overrightarrow{u} + (-\overrightarrow{u}) = \overrightarrow{0}$.
Si $k$ es un escalar y $\overrightarrow{u} \in V$, entonces $k\overrightarrow{v} \in V$.
$(k+l)\overrightarrow{u} = k\overrightarrow{u} + l\overrightarrow{u}$ .
$k(\overrightarrow{u} + \overrightarrow{v}) = k\overrightarrow{u} + k\overrightarrow{v} $ .
$k(l\overrightarrow{u}) = (kl)\overrightarrow{u} = l(k\overrightarrow{u}). $
$1\overrightarrow{u} = \overrightarrow{u}$.

.

Damos la definición de espacio vectorial real ya que los escalares que se utilizarán pertenecen a los números reales, sin embargo hay que tomar en cuenta que hacer la generalización a otros conjuntos se hace de manera análoga.

La definición anterior no especifica la naturaleza de los vectores o las operaciones, por lo tanto cualquier objeto puede ser un vector, el único requisito es que se satisfagan los diez axiomas de la .

Ejemplo: Sea $V = ℝ^{2}$.

Es fácil ver que $ℝ^{2}$ cumple con los axiomas $2,3,4,5,7,8,9,10$ puesto que son las propiedades de la suma y multiplicación por escalares en vectores ( y ). Los axiomas $1$ y $6$ los cumple ya que tanto en la suma como en la multiplicación por escalares de vectores, el resultado también es un vector.

Por lo tanto $ℝ^{2}$ es un espacio vectorial. Lo mismo podemos decir para vectores de tres, cuatro o $n$ componentes, entonces $ℝ^{3}$,$ℝ^{4}$,...,$ℝ^{n}$ también son espacios vectoriales.

Combinaciones lineales y subespacios vectoriales

Sean $\overrightarrow{v_{1}},\overrightarrow{v_{2}},...,\overrightarrow{v_{r}}$ vectores en el espacio vectorial $V$. Decimos que el vector $\overrightarrow{w}$ es una combinación lineal de los vectores en $\overrightarrow{v_{1}},\overrightarrow{v_{2}},...,\overrightarrow{v_{r}}$ sí se puede expresar como:

$\overrightarrow{w} = k_{1}\overrightarrow{v_{1}} + k_{2}\overrightarrow{v_{2}}+\cdots+k_{r}\overrightarrow{v_{r}}$

Con $k_{1},k_{2},...,k_{r}$ escalares .

En el caso particular de dos vectores $\overrightarrow{u}$ y $\overrightarrow{v} \in ℝ^{2}$ y dos escalares $k_{1}$ y $k_{2}$, una combinación lineal de $\overrightarrow{u}$ y $\overrightarrow{v}$ está dada por el vector $\overrightarrow{w} = k_{1}\overrightarrow{u} + k_{2}\overrightarrow{v}$. En la podemos ver la representación gráfica de $\overrightarrow{w}$ .

Podemos ver algunas combinaciones lineales de los vectores $\overrightarrow{u}$ y $\overrightarrow{v}$ con los escalares $k_{1}$ y $k_{2}$.

Dado un espacio vectorial $V$ y un subconjunto no vacío $U \subseteq V$, se dice que $U$ es un subespacio vectorial de $V$ cuando $U$ en si mismo es un espacio vectorial con las mismas operaciones definidas en $V$, es decir.

Sea $V$ un espacio vectorial decimos que un subconjunto no vacío $U \subseteq V$ es un subespacio vectorial de $V$:

Si $\overrightarrow{u_{1}}$ y $\overrightarrow{u_{2}} \in U$, entonces $\overrightarrow{u_{1}} + \overrightarrow{u_{2}} \in U$.

Si $\overrightarrow{u} \in U$ y $k$ es un escalar, entonces $k\overrightarrow{u} \in U$.

Si $\overrightarrow{0} \in V$, entonces $\overrightarrow{0} \in U$

.

En la podemos observar algunos ejemplos de subespacios en $ℝ^{2}$ y también algunos ejemplos de cuales no son subespacios.

Ejemplos de subespacios en $ℝ^{2}$.

Sean $V$ un espacio vectorial y $\overrightarrow{v_{1}}$, $\overrightarrow{v_{2}},...,\overrightarrow{v_{r}} \in V$. El conjunto formado por todas la posibles combinaciones lineales de los vectores $\overrightarrow{v_{1}}$, $\overrightarrow{v_{2}},...,\overrightarrow{v_{r}}$ se llama subespacio generado y lo denotamos como:

$gen\{\overrightarrow{v_{1}},\overrightarrow{v_{2}},...,\overrightarrow{v_{r}}\}$.

.

Independencia y dependencia lineal

Sea $A = \{\overrightarrow{v_{1}},\overrightarrow{v_{2}},...,\overrightarrow{v_{r}}\}$ un conjunto de vectores de un espacio vectorial $V$, se dice que los vectores en $A$ son linealmente dependientes si existen escalares $k_{1},k_{2},...,k_{r}$ con al menos uno distinto de cero, tal que:

$k_{1}\overrightarrow{v_{1}} + k_{2}\overrightarrow{v_{2}} +\cdots+ k_{r}\overrightarrow{v_{2}} = \overrightarrow{0}$

Si los vectores no son linealmente dependientes, se dice que son linealmente independientes.

.

Ejemplo: Sea el conjunto $A = (1,1),(1,-1)$ y los escalares $k_{1},k_{2}$.

$k_{1}(1,1) + k_{2}(1,-1) = \overrightarrow{0}$

Como $(k_{1}+k_{2},k_{1}-k_{2}) = (0,0) \Rightarrow k_{1} = 0, k_{2} = 0 $, entonces el conjunto $A$ es linealmente independiente ya que $k_{1}$ y $k_{2}$ tienen que ser forzosamente cero.

Geométricamente podemos ver la dependencia e independencia lineal en $ℝ^{2}$ y $ℝ^{3}$ tomando en cuenta las siguientes consideraciones.

Dos vectores en $ℝ^{2}$ o en $ℝ^{3}$ que tienen su punto inicial en el origen son linealmente independientes si y solo si no se encuentran sobre la misma línea, en caso contrario son linealmente dependientes ya que uno sería un múltiplo escalar del otro.

Tres vectores en $ℝ^{3}$ que tienen su punto inicial en el origen son linealmente independientes si y solo si no se encuentran sobre el mismo plano vectorial (es decir forman un volumen), en caso contrario son linealmente dependientes ya que un vector sería una combinación lineal de los otros dos (es decir forma un plano).

En la podemos ver algunos ejemplos de lo mencionado anteriormente.

Base y dimensión de un espacio vectorial.

Sea $B = \{\overrightarrow{v_{1}},\overrightarrow{v_{2}},...,\overrightarrow{v_{r}}\}$ un conjunto de vectores de un espacio vectorial $V$, se dice que $B$ es base de $V$ si y sólo si se cumplen las siguientes condiciones:

$B$ es linealmente independiente.

$B$ genera a $V$.

.

Mueve los vectores y observa si son linealmente dependientes o independientes.

La dimensión de un espacio vectorial $V$ es la cantidad de vectores que componen una base de $V$, es decir:

Si $B = \{\overrightarrow{v_{1}},\overrightarrow{v_{2}},...,\overrightarrow{v_{n}}\}$ es base de $V$, la dimensión de $V$ es $n$ y se denota como $dim(V) = n$.

.

Transformaciones lineales

Una transformación lineal es una función de la forma $T : ℝ^{n} \rightarrow ℝ^{m}$ con la particularidad de que su dominio y codominio son espacios vectoriales. Esto quiere decir que la función $T$ es una regla de asignación que transforma los vectores de $V$ en vectores de $W$.

Es importante notar que no toda función que transforme vectores de $V$ en vectores de $W$ es una transformación lineal, para eso debe de cumplir con ciertas condiciones que se exponen en la siguiente definición.

Si $T : V \rightarrow W$ es un mapeo desde el espacio vectorial $V$ a un espacio vectorial $W$, entonces $T$ es llamado transformación lineal de $V$ a $W$ si y sólo si las siguientes propiedades se mantienen para todos los vectores $\overrightarrow{u}$ y $\overrightarrow{v} \in V$ y para todos los escalares $k$.

1- $T(k\overrightarrow{u}) = kT(\overrightarrow{u})$

2- $T(\overrightarrow{u} + \overrightarrow{v}) = T(\overrightarrow{u}) + T(\overrightarrow{v})$

En el caso especial donde $V$ = $W$, la transformación lineal $T$ es llamado operador lineal en el espacio vectorial $V$.

.

Ejemplo: Sean $\overrightarrow{u} = (u_{1},u_{2})$, $\overrightarrow{v} = (v_{1},v_{2})$, vectores en $ℝ^{2}$ y $k$ un escalar, veamos si la función $T : ℝ^{2} \rightarrow ℝ^{3}$ dada por $T(x,y) = (2x+y,y,x-y)$ es una transformación lineal.

Verificamos si $T$ cumple con la definición de transformación lineal. Primera condición:

$T(k\overrightarrow{u}) = T(ku_{1},ku_{2})$

Aplicamos la transformación.

$(2ku_{1} + ku_{2} , ku_{2} , ku_{1} - ku_{2}) =$

$ k(2u_{1} + u_{2} , u_{2} , u_{1} - u_{2}) = kT(\overrightarrow{u})$.

Se cumple la primera condición, ahora verificamos la segunda.

$T(\overrightarrow{u} + \overrightarrow{v}) = T(u_{1} + v_{1},u_{2} + v_{2})$

Aplicamos la transformación.

$(2(u_{1}+v_{1}) + u_{2} + v_{2},u_{2}+v_{2},u_{1} + v_{1} - (u_{2} + v_{2})) =$

$(2u_{1}+2v_{2} + u_{2} + v_{2},u_{2}+v_{2},u_{1} + v_{1} - u_{2} - v_{2})$

Separamos la suma por componentes de $\overrightarrow{u}$ y $\overrightarrow{v}$.

$(2u_{1} + u_{2},u_{2},u_{1} - u_{2}) + (2v_{1} + v_{2},v_{2},v_{1} - v_{2}) = $

$T(\overrightarrow{u}) + T(\overrightarrow{v})$.

Cumple ambas condiciones, por lo tanto $T$ es una transformación lineal.

En la podemos observar el vector obtenido después de aplicar la transformación lineal del ejemplo anterior a un vector en $R^{2}$.

Transformación lineal $T : ℝ^{2} \rightarrow ℝ^{3}$ dada por $T(x,y) = (2x+y,y,x-y)$.

Si combinamos las propiedades enunciadas en la definición anterior podemos mostrar que una transformación lineal transporta combinaciones lineales de $V$ a $W$ conservando los escalares de la combinación lineal.

En otras palabras si $\overrightarrow{v_{1}}$, $\overrightarrow{v_{2}}$,...,$\overrightarrow{v_{n}}$ son vectores en $V$ y $k_{1}$, $k_{2}$,...,$k_{n}$ son escalares, podemos tomar una combinación lineal en el dominio:

$k_{1}\overrightarrow{v_{1}} + k_{2}\overrightarrow{v_{2}} +\cdots+ k_{n}\overrightarrow{v_{n}}$

Aplicamos la transformación lineal $T : V \rightarrow W$ tomando en cuenta las propiedades de la definición y obtenemos:

$T(k_{1}\overrightarrow{v_{1}} +\cdots+ k_{n}\overrightarrow{v_{n}}) = k_{1}T(\overrightarrow{v_{1}}) + k_{2}T(\overrightarrow{v_{2}}) +\cdots+ k_{n}T(\overrightarrow{v_{n}})$

Si $T : V \rightarrow W$ es una transformación lineal, entonces.

$T(\overrightarrow{0}) = \overrightarrow{0}$, la imagen del vector nulo del dominio $V$ es el vector nulo del codominio $W$.

$T(\overrightarrow{u} - \overrightarrow{v}) = T(\overrightarrow{u}) - T(\overrightarrow{v})$, para todo $\overrightarrow{u}$ y $\overrightarrow{v}$ en $V$.

.

Núcleo y rango de una transformación

Si $T : V \rightarrow W$ es una transformación lineal, entonces el conjunto de vectores en $V$ que se mapean a cero en $W$ es llamado núcleo de $T$ y es denotado como $Nu(T)$.

$Nu(T) = \{\overrightarrow{v} \in V | T(\overrightarrow{v}) = \overrightarrow{0}_w\}$

.

Si $T : V \rightarrow W$ es una transformación lineal, el conjunto de vectores en $W$ que son imagen bajo $T$ de algún vector en $V$ se denomina rango de $T$ y se denota como $R(T)$.

$R(T) = \{\overrightarrow{w} \in W | \overrightarrow{w} = T(\overrightarrow{v}), \overrightarrow{v} \in V\}$

.

Matriz asociada a una transformación lineal

Ahora veremos cómo se construye la matriz asociada a una transformación lineal cuando se especifican las bases del dominio y el codominio de la transformación.

Sean $V$ y $W$ espacios vectoriales de dimensión $n$, $m$ respectivamente. Sea $T : V \rightarrow W$ una transformación lineal y sean $B_{1} = \{\overrightarrow{v}_{1},\overrightarrow{v}_{2},...,\overrightarrow{v}_{n}\}$ base en $V$ y $B_{2} = (\overrightarrow{w}_{1},\overrightarrow{w}_{2},...,\overrightarrow{w}_{m})$ base en $W$. Para un vector $\overrightarrow{v} \in V$ existen escalares $k_{1},k_{2},...,k_{n}$ tales que.

$\overrightarrow{v} = k_{1}\overrightarrow{v}_{1} + k_{2}\overrightarrow{v}_{2} + \cdots + k_{n}\overrightarrow{v}_{n}$

O bien:

$[\overrightarrow{v}]_{B_{1}} = \begin{bmatrix}{k_{1}}\\\vdots\\{k_{n}}\end{bmatrix}$

$T(\overrightarrow{v})$ es el vector:

$T(\overrightarrow{v}) = T( k_{1}\overrightarrow{v}_{1} + k_{2}\overrightarrow{v}_{2} + \cdots + k_{n}\overrightarrow{v}_{n}) = $

$k_{1}T(\overrightarrow{v}_{1}) + k_{2}T(\overrightarrow{v}_{2}) +\cdots+ k_{n}T(\overrightarrow{v}_{n}) = \displaystyle\sum_{i=1}^n k_{i}T(\overrightarrow{v}_{i})$

Cada vector $T(\overrightarrow{v}_{i})$ se encuentra en $W$, de modo que existen escalares $a_{1i},a_{2i},...,a_{mi}$ tales que:

$T(\overrightarrow{v}_{i}) = a_{1i}\overrightarrow{w}_{1} + a_{2i}\overrightarrow{w}_{2} +\cdots+ a_{mi}\overrightarrow{w}_{m} = \displaystyle\sum_{j=1}^m a_{ji}\overrightarrow{w}_{j}$

O bien:

$[T(\overrightarrow{v}_{i})]_{B_{2}} = \begin{bmatrix}{a_{1i}}\\\vdots\\{a_{mi}}\end{bmatrix}$

Finalmente $T(\overrightarrow{v})$ es:

$T(\overrightarrow{v}) = \displaystyle\sum_{i=1}^n k_{i}T(\overrightarrow{v}_{i}) = \displaystyle\sum_{i=1}^n k_{i} \displaystyle\sum_{j=1}^m a_{ji}\overrightarrow{w}_{j} = \displaystyle\sum_{i=1}^n a_{ji} k_{i} $

Como podemos ver $T(\overrightarrow{v})$ tiene una expresión única en $W$ como combinación lineal de los vectores $\overrightarrow{w}_{1},\overrightarrow{w}_{2},..,\overrightarrow{w}_{m}$ de la base $B_{2}$, por lo tanto:

$[T(\overrightarrow{v})]_{B_{2}} = (\displaystyle\sum_{i=1}^n a_{1i}k_{i}, \displaystyle\sum_{i=1}^n a_{2i}k_{i},...,\displaystyle\sum_{i=1}^n a_{mi}k_{i} )$

Es decir:

$[T(\overrightarrow{v})]_{B_{2}} = \begin{bmatrix}{\displaystyle\sum_{i=1}^n a_{1i}k_{i}}\\\vdots\\{\displaystyle\sum_{i=1}^n a_{mi}k_{i}}\end{bmatrix}$

Consideremos la matriz $A = (a_{ji})$, con $j = 1,2,...,m$ y $i = 1,2,...,n$. Observemos que:

$\begin{bmatrix}{\displaystyle\sum_{i=1}^n a_{1i}k_{i}}\\\vdots\\{\displaystyle\sum_{i=1}^n a_{mi}k_{i}}\end{bmatrix} = \begin{bmatrix}{a_{11}}&{a_{12}}&\cdots&{a_{1n}}\\{a_{21}}&{a_{22}}&\cdots&{a_{2n}}\\ \vdots \\ {a_{m1}}&{a_{m2}}&\cdots&{a_{mn}}\end{bmatrix} \begin{bmatrix}{k_{1}}\\{k_{2}}\\ \vdots\\{k_{n}}\end{bmatrix} = A[\overrightarrow{v}]_{B_{1}}$

Entonces $[T(\overrightarrow{v})]_{B_{2}} = A[\overrightarrow{v}]_{B_{1}}$. La matriz $A$ es tal que en su $i$-ésima columna se encuentran los elementos de la matriz de coordenada del vector $T(\overrightarrow{v}_{i})$ con respecto de la base $B_{2}$ de $W$.

$A=( [T(\overrightarrow{v}_{1})_{B_{2}}] [T(\overrightarrow{v}_{2})_{B_{2}}] \cdots [T(\overrightarrow{v}_{n})_{B_{2}}])$

Esta matriz tiene la propiedad de que al multiplicarla por la matriz de coordenadas del vector $\overrightarrow{v} \in V$ con respecto a $B_{1}$ da como resultado la matriz de coordenadas del vector $T(\overrightarrow{v})\in W$ con respecto a $B_{2}$. Entonces decimos que $A$ es la matriz de la transformación $T$ respecto a las bases $B_{1}$ y $B_{2}$.

$A = [T]_{B_{1}B_{2}}$

Construcción obtenida de .

Ejemplo: Sea $T : ℝ^{2} \rightarrow ℝ^{3}$ una transformación lineal dada por $T(x,y) = (2x-y, x+2y, 3x)$. Sean $B_{1} = \{(1,-1),(1,1)\}$ una base en $ℝ^{2}$ y $B_{2} = \{(1,1,0),(0,1,0),(0,0,1)\}$ una base en $ℝ^{3}$. Encontremos la matriz asociada a $T$.

Como sabemos $A=( [T(\overrightarrow{v}_{1})_{B_{2}}] [T(\overrightarrow{v}_{2})_{B_{2}}] \cdots [T(\overrightarrow{v}_{n})_{B_{2}}])$, en nuestro caso:

$A=( [T(1,-1)_{B_{2}}] [T(1,1)_{B_{2}}] )$

Aplicamos la transformación lineal a los vectores de la base $B_{1}$

$T(1,-1) = (2(1) - (-1),1 + 2(-1),3(1)) = (3,-1,3)$

$T(1,1) = (2(1) - 1, 1 + 2(1), 3(1)) = (1,3,3)$

Ahora encontramos las coordenadas de los vectores obtenidos con respecto a la base $B_{2}$, es decir los expresamos como combinación lineal.

$(3,-1,3) = a_{11}(1,1,0) + a_{21}(0,1,0) + a_{31}(0,0,1)$

Resolvemos el sistema de ecuaciones

$ \begin{dcases} a_{11} = 3 \\ a_{11} + a_{21} = -1 \\ a_{31} = 3 \end{dcases}$

$a_{11} = 3, a_{31} = 3, a_{21} = -1 - a_{11} \Rightarrow a_{21} = -1-3 = -4$

Por lo tanto

$[T(1,-1)_{B_{2}}] = \begin{bmatrix}{3}\\{-4}\\{3}\end{bmatrix}$

$(1,3,3) = a_{12}(1,1,0) + a_{22}(0,1,0) + a_{32}(0,0,1)$

Resolvemos el sistema de ecuaciones

$ \begin{dcases} a_{12} = 1 \\ a_{12} + a_{22} = 3 \\ a_{32} = 3 \end{dcases}$

$a_{12} = 1, a_{32} = 3, a_{22} = 3 - a_{12} \Rightarrow a_{22} = 3-1 = 2$

Por lo tanto

$[T(1,1)_{B_{2}}] = \begin{bmatrix}{1}\\{2}\\{3}\end{bmatrix}$

Finalmente obtenemos la matriz asociada a la transformación.

$A = \begin{bmatrix}{3}&{1}\\{-4}&{2}\\{3}&{3}\end{bmatrix}$

Ahora utilizando la matriz $A$ hallemos $T(2,3)$. Recordemos que:

$ A[\overrightarrow{v}]_{B_{1}} = [T(\overrightarrow{v})]_{B_{2}} $

Como $A$ opera con coordenadas debemos buscar las coordenadas del vector $(2,3)$ en la base $B_{1}$, es decir $[\overrightarrow{v}]_{B_{1}}$

$(2,3) = k_{1}(1,-1) + k_{2}(1,1) \Rightarrow k_{1} = -.5, k_{2} = 2.5$

$[\overrightarrow{v}]_{B_{1}} = \begin{bmatrix}{-.5}\\{2.5}\end{bmatrix}$

Entonces

$A[\overrightarrow{v}]_{B_{1}} = \begin{bmatrix}{3}&{1}\\{-4}&{2}\\{3}&{3}\end{bmatrix} \begin{bmatrix}{-.5}\\{2.5}\end{bmatrix} = \begin{bmatrix}{1}\\{7}\\{6}\end{bmatrix} = [T(\overrightarrow{v})]_{B_{2}}$

El vector obtenido no es $T(2,3)$ sino que son sus coordenada en $B_{1}$. Para hallar $T(2,3)$ debemos multiplicar las coordenadas obtenidas por los vectores de la base $B_{2}$.

$T(2,3) = 1(1,1,0) + 7(0,1,0) + 6(0,0,1) = (1,8,6)$

Podemos hacer la comprobación aplicando la función de la transformación de manera normal al vector $(2,3)$.

$T(2,3) = (2(2) - 3, 2 + 2(3), 3(2)) = (1,8,6)$

Como podemos ver obtenemos el mismo resultado utilizando la matriz asociada a la transformación.

Vector propio. Forma canónica de Jordan en 2 y 3 dimensiones.

Vectores y valores propios

Sea $T : ℝ^{n} \rightarrow ℝ^{n}$ una transformación lineal, decimos que el número real $\lambda$ es un valor propio de $T$ si existe un vector $\overrightarrow{u} \in ℝ^{n}$ no nulo tal que:

$T(\overrightarrow{u})=\lambda \overrightarrow{u}$

Al vector $\overrightarrow{u}$ se le llama el vector propio asociado al valor propio $\lambda$. Considerando la correspondencia entre transformaciones lineales y matrices, podemos definir el valor propio y el vector propio para una matriz cuadrada $A$ como sigue.

El número real $\lambda$ es un valor propio de la matriz $A$ si existe un vector $\overrightarrow{u} \in ℝ^{n}$ llamado vector propio tal que:

$A\overrightarrow{u} = \lambda \overrightarrow{u}$

.

La ecuación de la definición anterior es equivalente a decir que $A\overrightarrow{u} = \lambda I\overrightarrow{u}$, donde $I$ es la matriz identidad de orden $n$.

$ I = \begin{bmatrix}{1}&{0}&\cdots&{0}\\{0}&{1}&\cdots&{0}\\ \vdots \\ {0}&{0}&\cdots&{1}\end{bmatrix}$

Que a su vez puede reescribirse como el sistema de ecuaciones homogéneo $(A - \lambda I) \overrightarrow{u} = 0$. Como el vector $\overrightarrow{u}$ no puede ser nulo, para que se cumpla la igualdad el determinante $|A - \lambda I|$ debe ser igual a cero, esto quiere decir que $\lambda$ es el valor propio de $A$ si y sólo si $|A - \lambda I| = 0$.

Un sistema de ecuaciones homogéneo es un sistema de la forma $Ax = 0$, es decir, los términos independientes o segundos miembros de cada ecuación son cero.

$ \begin{dcases} a_{11}x_{1} + a_{12}x_{2} + \cdots + a_{1n}x_{n} = 0 \\ a_{21}x_{1} + a_{22}x_{2} + \cdots + a_{2n}x_{n} = 0 \\ \vdots \\ a_{m1}x_{1} + a_{m2}x_{2} + \cdots + a_{mn}x_{n} = 0 \end{dcases}$

Notemos que la expresión $|A - \lambda I|$ es un polinomio en $\lambda$ de grado $n$, llamado polinomio característico de $A$ y lo denotamos como:

$p(\lambda) = |A - \lambda I|$

Los valores propios de la matriz cuadrada $A$ son las raíces de su polinomio característico $p(\lambda) = |A - \lambda I|$.

.

Ejemplo: Sea la matriz $A$, hallar los valores y vectores propios asociados a la matriz $A$.

$A = \begin{bmatrix}{1}&{6}\\{1}&{0}\end{bmatrix}$

Su polinomio característico es

$p(\lambda) = |A - \lambda I| = \left|\begin{bmatrix}{1}&{6}\\{1}&{0}\end{bmatrix} - \lambda \begin{bmatrix}{1}&{0}\\{0}&{1}\end{bmatrix}\right|$

$ = \left|\begin{bmatrix}{1}&{6}\\{1}&{0}\end{bmatrix} - \begin{bmatrix}{\lambda}&{0}\\{0}&{\lambda}\end{bmatrix}\right| = \left|\begin{bmatrix}{1 - \lambda}&{6}\\{1}&{-\lambda}\end{bmatrix}\right|$

Calculamos el determinante de la matriz $2$ x $2$

$\left|\begin{bmatrix}{1 - \lambda}&{6}\\{1}&{-\lambda}\end{bmatrix}\right| = (1 - \lambda ) \cdot (-\lambda) - 6 \cdot (1) $

$ = \lambda ^{2} -\lambda - 6 = (\lambda - 3)(\lambda + 2)$

Entonces los valores propios de $A$ son $\lambda_{1} = 3$, $\lambda_{2} = -2$. Ahora encontramos los vectores propios asociados a los valores propios, para eso debemos obtener las soluciones no triviales del sistema de ecuaciones homogéneo $(A - \lambda I)\overrightarrow{u} = 0$.

Para $\lambda_{1} = 3$ se tiene:

$\begin{bmatrix}{1 - 3}&{6}\\{1}&{-3}\end{bmatrix} \overrightarrow{u} = \begin{bmatrix}{-2}&{6}\\{1}&{-3}\end{bmatrix} \overrightarrow{u} = 0$

Si consideramos el vector $\overrightarrow{u} = (u_{1},u_{2})$, entonces el sistema de ecuaciones homogéneo es

$ \begin{dcases} -2u_{1} + 6u_{2} = 0 \\ u_{1} - 3u_{2} = 0 \end{dcases} $

Obtenemos que $u_{1} = 3u_{2}$, de esta forma los vectores propios asociados al valor propio $\lambda_{1}$ son de la forma $t(3,1)$, con $t$ un número en los reales.

Si consideramos el vector $\overrightarrow{u} = (3,1)$, podemos verificar que se cumple $A\overrightarrow{u} = \lambda \overrightarrow{u}$.

$\begin{bmatrix}{1}&{6}\\{1}&{0}\end{bmatrix} \cdot \begin{bmatrix}{3}\\{1}\end{bmatrix} =\begin{bmatrix}{9}\\{3}\end{bmatrix} = 3 \begin{bmatrix}{3}\\{1}\end{bmatrix}$

Por lo tanto $(3,1)$ es un vector propio asociado al valor propio $\lambda_{1} = 3$.

Hacemos el mismo procedimiento con $\lambda_{2}$ y encontramos que los vectores propios asociados son de la forma $t(-2,1)$, con $t$ un número en los reales.

Subespacio propio

Si $\lambda$ es un valor propio, todos sus vectores asociados forman un subespacio. Este subespacio se llama subespacio propio asociado a $\lambda$ y se denota como $V_{\lambda}$ .

En la puedes verificar los valores y vectores propios de una matriz $2$ x $2$.

Vectores y valores propios de una matriz $2$ x $2$.

Forma canónica de Jordan en 2 y 3 dimensiones

Antes de explicar como obtener la forma canónica de Jordan en $ℝ^{2}$ y $ℝ^{3}$ será necesario dar algunas definiciones.

Matrices invertibles y diagonales

Sea $A$ una matriz cuadrada, si existe una matriz $B$ tal que

$A \cdot B = B \cdot A = I$

Decimos que $A$ es invertible y que $B$ es la matriz inversa de $A$. .

La matriz diagonal que denotamos como $D$, es una matriz cuadrada en la que todos los elementos no pertenecientes a la diagonal principal son nulos, es decir

$D = [a_{ij}]$ si cumple que $a_{ij} = 0$ con $i \neq j$

.

Matrices diagonalizables

Sea $A$ una matriz cuadrada, decimos que $A$ es diagonalizable si y solo si existe una matriz $P$ invertible y una matriz $D$ diagonal, ambas de la misma dimensión tal que

$D= P^{-1}AP$

.

Entre las propiedades de una matriz diagonalizable podemos destacar las siguientes

La matriz diagonal $D$ tienen en su diagonal los valores propios de una matriz $A$.
La columna $i$ de la matriz $P$ es el vector propio asociado al valor propio de la posición $i$ de la diagonal de $D$.

.

Núcleo de una matriz y espacio nulo

Sea $A$ una matriz y $\overrightarrow{v}$ un vector, el conjunto de todas las soluciones del sistema de ecuaciones homogéneo $A\overrightarrow{v} = 0$ es llamado núcleo de $A$ y se denota como $N(A)$, es decir.

$N(A) = \{\overrightarrow{v} \in ℝ^{n} | A\overrightarrow{v} = 0\}$

.

Sea $A$ una matriz, llamamos nulidad o espacio nulo, denotado como $nulidad(A)$ a la dimensión del núcleo de $A$, es decir

$nulidad(A) = dim(N(A))$

.

Multiplicidad Algebraica y multiplicidad geométrica

El número de veces que un valor propio $\lambda$ se repite como raíz de un polinomio característico se llama multiplicidad algebraica y se denota como $m_{a}(\lambda)$ .

El número máximo de vectores propios linealmente independientes que tiene asociado un valor propio $\lambda$ se llama multiplicidad geométrica de $\lambda$, es decir $dim(N(A - \lambda I))$ y se denota como $m_{g}(\lambda)$ .

Forma canónica de Jordan en $ℝ^{2}$

Sea $A$ una matriz $2$ x $2$, existe una matriz $P$ invertible (llamada matriz de cambio de base) y una matriz $J$ llamada forma canónica de Jordan, tal que $J = P^{-1}AP$, donde $J$ es igual a una de los siguientes tipos:

$\begin{bmatrix}{\lambda_{1}}&{0}\\{0}&{\lambda_{2}}\end{bmatrix}$ o $\begin{bmatrix}{\lambda}&{1}\\{0}&{\lambda}\end{bmatrix}$

y .

Para calcular la forma canónica de Jordán en $ℝ^{2}$ debemos encontrar el polinomio característico y los valores propios de una matriz $2$ x $2$. Al hacer esto se pueden presentar dos casos:

Caso 1: Obtenemos dos valores propios distintos, es decir $\lambda_{1} \neq \lambda_{2}$. Buscamos los vectores propios $\overrightarrow{v_{1}}$ y $\overrightarrow{v_{2}}$ asociados a los valores propios tal que $A\overrightarrow{v_{i}} = \lambda_{i}\overrightarrow{v_{i}}$, con $i = 1,2$. Ahora formamos la matriz $P=(v_{1} v_{2})$, es decir si:

$\overrightarrow{v_{1}} = \begin{bmatrix}{a}\\{c}\end{bmatrix}$ y $\overrightarrow{v_{2}} = \begin{bmatrix}{b}\\{d}\end{bmatrix}$, entonces $P = \begin{bmatrix}{a}&{b}\\{c}&{d}\end{bmatrix}$

Decimos que dos (o más) vectores propios son linealmente independientes si los valores propios asociados a dichos vectores propios son distintos.

.

Como los valores propios son distintos, entonces los vectores $\overrightarrow{v_{1}}$ y $\overrightarrow{v_{2}}$ son linealmente independientes (), por lo tanto la matriz $P$ es invertible , entonces:

$J = P^{-1}AP = \begin{bmatrix}{\lambda_{1}}&{0}\\{0}&{\lambda_{2}}\end{bmatrix}$

Ya que los valores propios de $A$ se encuentran en la diagonal de la matriz $J$ (Propiedad 1, ).

Caso 2: Obtenemos sólo un valor propio $\lambda$. Para este caso tenemos dos escenarios.

Subcaso a): La multiplicidad geométrica de $\lambda$ es $2$, por lo tanto $A = \lambda 1$. Este es un caso trivial ya que la matriz $A$ ya se encuentra en la forma canónica de Jordan, por lo tanto basta con elegir $J = A$ y $P = I$.

Subcaso b): La multiplicidad geométrica de $\lambda$ es $1$. En este caso la forma canónica de Jordan está dada por:

$J = P^{-1}AP = \begin{bmatrix}{\lambda}&{1}\\{0}&{\lambda}\end{bmatrix}$

Si queremos encontrar la matriz $P$ podemos aplicar el siguiente teorema.

Si $A$ es una matriz $2$ x $2$ con un único valor propio $\lambda$, si este tiene multiplicidad geométrica igual a $1$, y si $\overrightarrow{v_{2}}$ es un vector cualquiera que no está en el subespacio propio de $A$, entonces el vector $\overrightarrow{v_{1}} = (A - \lambda I) \cdot \overrightarrow{v_{2}}$ es un vector propio de $A$, $\{\overrightarrow{v_{1}}, \overrightarrow{v_{2}}\}$ son linealmente independientes y la matriz $P = (v_{1} v_{2})$ es una matriz de cambio de base para $A$.

.

Ejemplo: Dada la matriz $A$, encontremos las matrices $J$ y $P$.

$A = \begin{bmatrix}{0}&{-2}\\{3}&{5}\end{bmatrix}$

Calculamos los valores propios de $A$

$p(\lambda) = |A - \lambda I| = \left|\begin{bmatrix}{0}&{-2}\\{3}&{5}\end{bmatrix} - \begin{bmatrix}{\lambda}&{0}\\{0}&{\lambda}\end{bmatrix}\right|$

$= \lambda^{2} - 5\lambda + 6 = (\lambda - 2)(\lambda - 3)$

Obtenemos dos valores propios distintos, llamémoslos $\lambda_{1} = 2$ y $\lambda_{2} = 3$. Como los valores propios son distintos entramos en el caso 1, por lo tanto la forma canónica de Jordan de $A$ es:

$J = \begin{bmatrix}{2}&{0}\\{0}&{3}\end{bmatrix}$

Si quisiéramos calcular la matriz $P$ para hacer la comprobación buscamos los vectores propios $\overrightarrow{v_{1}}, \overrightarrow{v_{2}}$ asociados a $\lambda_{1}$ y $\lambda_{2}$ respectivamente, en nuestro caso para $\lambda_{1} = 2$ se tiene que resolver el sistema de ecuaciones homogéneo $(A - 2I)\overrightarrow{v} = 0$, es decir:

$\begin{bmatrix}{-2}&{-2}\\{3}&{5-2}\end{bmatrix} \overrightarrow{v} = \begin{bmatrix}{-2}&{-2}\\{3}&{3}\end{bmatrix} \overrightarrow{v} = 0$

Considerando a $\overrightarrow{v} = (v_{1},v_{2})$

$ \begin{dcases} -2v_{1} - 2v_{2} = 0 \\ 3v_{1} + 3v_{2} = 0 \end{dcases}$

Obtenemos que $v_{1} = -v_{2}$, de esta forma el vector propio asociado a $\lambda_{1}$ es $\overrightarrow{v_{1}} = (1,-1)$. Hacemos el mismo procedimiento para $\lambda_{2} = 3$ y obtenemos que $\overrightarrow{v_{2}} = (2,-3)$, por lo tanto

$P = \begin{bmatrix}{1}&{2}\\{-1}&{-3}\end{bmatrix}$

Comprobamos que $J = P^{-1}AP$

$\begin{bmatrix}{3}&{2}\\{-1}&{-1}\end{bmatrix} \begin{bmatrix}{0}&{-2}\\{3}&{5}\end{bmatrix} \begin{bmatrix}{1}&{2}\\{-1}&{-3}\end{bmatrix} = \begin{bmatrix}{2}&{0}\\{0}&{3}\end{bmatrix}$

Como vemos se cumple la definición de la forma canónica de Jordan para matrices $2$ x $2$.

Forma canónica de Jordan en $ℝ^{3}$

Sea $A$ una matriz $3$ x $3$, existe una matriz $P$ invertible (llamada matriz de cambio de base) y una matriz $J$ llamada forma canónica de Jordan, tal que $J = P^{-1}AP$, donde $J$ es igual a una de los siguientes tipos:

$\begin{bmatrix}{\lambda_{1}}&{0}&{0}\\{0}&{\lambda_{2}}&{0}\\{0}&{0}&{\lambda_{3}}\end{bmatrix}$ o $\begin{bmatrix}{\lambda_{1}}&{0}&{0}\\{0}&{\lambda_{2}}&{0}\\{0}&{0}&{\lambda_{2}}\end{bmatrix}$

o $\begin{bmatrix}{\lambda_{1}}&{0}&{0}\\{0}&{\lambda_{2}}&{1}\\{0}&{0}&{\lambda_{2}}\end{bmatrix}$ o $\begin{bmatrix}{\lambda}&{1}&{0}\\{0}&{\lambda}&{0}\\{0}&{0}&{\lambda}\end{bmatrix}$ o $\begin{bmatrix}{\lambda}&{1}&{0}\\{0}&{\lambda}&{1}\\{0}&{0}&{\lambda}\end{bmatrix}$

y .

Para calcular la forma canónica de Jordan en $R^{3}$ debemos calcular los valores propios y el polinomio característico de una matriz $3$ x $3$, al hacer esto se nos pueden presentar los siguientes casos:

Caso 1: Obtenemos tres valores propios distintos $\lambda_{1}, \lambda_{2}$ y $\lambda_{3}$, es decir el polinomio característico de $A$ es de la forma $(t - \lambda_{1})(t - \lambda_{2})(t - \lambda_{3})$ con $t \in \R$. Este caso es parecido al caso 1 para las matrices $2$ x $2$. Buscamos los vectores propios $\overrightarrow{v_{1}} , \overrightarrow{v_{2}}$ y $\overrightarrow{v_{3}}$, tal que $A\overrightarrow{v_{i}} = \lambda_{i}\overrightarrow{v_{i}}$, para $i = 1,2,3$. Ahora definimos la matriz $P = (\overrightarrow{v_{1}} \overrightarrow{v_{2}} \overrightarrow{v_{3}})$, entonces tenemos que:

$ J = P^{-1}AP = \begin{bmatrix}{\lambda_{1}}&{0}&{0}\\{0}&{\lambda_{2}}&{0}\\{0}&{0}&{\lambda_{3}}\end{bmatrix}$

Caso 2: Obtenemos dos valores propios distintos $\lambda_{1}$ y $\lambda_{2}$ (con $m_{a}(\lambda_{2}) = 2$ y $m_{a}(\lambda_{1}) = 1$ ), es decir el polinomio característico de $A$ es de la forma $(t - \lambda_{1})(t - \lambda_{2})^{2}$, con $t \in \R$. Para este caso tenemos 2 escenarios.

Subcaso a): La multiplicidad geométrica de $\lambda_{2}$ es $2$. En este caso la forma canónica de Jordan está dada por:

$J = P^{-1}AP = \begin{bmatrix}{\lambda_{1}}&{0}&{0}\\{0}&{\lambda_{2}}&{0}\\{0}&{0}&{\lambda_{2}}\end{bmatrix}$

Si queremos encontrar la matriz $P$ podemos aplicar el siguiente teorema.

Sea $A$ una matriz $3$ x $3$ con dos valores propios $\lambda_{1}$ y $\lambda_{2}$ ($m_{a}(\lambda_{2}) = 2$ y $m_{a}(\lambda_{1}) = 1$), si $m_{g}(\lambda_{2}) = 2$, entonces podemos formar la matriz de cambio de base $P$ como sigue: Buscamos un vector propio $\overrightarrow{v_{1}}$ tal que $A\overrightarrow{v_{1}} = \lambda_{1} \overrightarrow{v_{1}}$, es decir un vector en $N(A - \lambda_{1} I)$. Ahora tomamos dos vectores cualesquiera $\overrightarrow{v_{2}}$ y $\overrightarrow{v_{3}}$ que se encuentren en $N(A - \lambda_{2} I)$. Entonces $P = (\overrightarrow{v_{1}} \overrightarrow{v_{2}} \overrightarrow{v_{3}})$.

.

Subcaso b): La multiplicidad geométrica de $\lambda_{2}$ es $1$. En este caso la forma canónica de Jordan está dada por:

$J = P^{-1}AP = \begin{bmatrix}{\lambda_{1}}&{0}&{0}\\{0}&{\lambda_{2}}&{1}\\{0}&{0}&{\lambda_{2}}\end{bmatrix}$

Si queremos encontrar la matriz $P$ podemos aplicar el siguiente teorema.

Sea $A$ una matriz $3$ x $3$ con dos valores propios $\lambda_{1}$ y $\lambda_{2}$ ($m_{a}(\lambda_{2}) = 2$ y $m_{a}(\lambda_{1}) = 1$), como $m_{g}(\lambda_{2}) = 1$, entonces podemos formar la matriz de cambio de base $P$ como sigue: Buscamos un vector propio $\overrightarrow{v_{1}}$ tal que $A\overrightarrow{v_{1}} = \lambda_{1} \overrightarrow{v_{1}}$, es decir un vector en $N(A - \lambda_{1} I)$. Ahora tomamos un vector cualquiera $\overrightarrow{v_{3}}$ que se encuentre en $N(A - \lambda_{2} I)^{2}$ pero no en $N(A - \lambda_{2} I)$. Por último calculamos el vector $v_{2} = (A - \lambda_{2} I) \overrightarrow{v_{3}}$. Entonces $P = (\overrightarrow{v_{1}} \overrightarrow{v_{2}} \overrightarrow{v_{3}})$.

.

Caso 3: Obtenemos sólo un valor propio $\lambda$, es decir el polinomio característico de $A$ es de la forma $(t - \lambda)^{3}$, con $t \in \R$. Para este caso tenemos 3 escenarios.

Subcaso a): La multiplicidad geométrica de $\lambda$ es $3$, por lo tanto se cumple que $A = \lambda I $. Este es un caso trivial dado que $A$ ya se encuentra en la forma canónica de Jordan, por lo tanto basta con tomar $J = A$ y $P = I$.

Subcaso b): La multiplicidad geométrica de $\lambda$ es $2$. En este caso la forma canónica de Jordan está dada por:

$J = P^{-1}AP = \begin{bmatrix}{\lambda}&{1}&{0}\\{0}&{\lambda}&{0}\\{0}&{0}&{\lambda}\end{bmatrix}$

Si queremos encontrar la matriz $P$ podemos aplicar el siguiente teorema.

Sea $A$ una matriz $3$ x $3$ con un solo valor propio $\lambda$, si $m_{g}(\lambda) = 2$, entonces podemos formar la matriz de cambio de base $P$ como sigue: Buscamos un vector propio $\overrightarrow{v_{2}}$ tal que $A\overrightarrow{v_{2}} = \lambda \overrightarrow{v_{2}}$, es decir un vector en $N(A - \lambda I)$. Ahora tomamos un vector cualquiera $\overrightarrow{v_{3}}$ que se encuentre en $N(A - \lambda I)^{2}$ pero no en $N(A - \lambda I)$. Por último calculamos el vector $\overrightarrow{v_{1}}= (A - \lambda I)\overrightarrow{v_{3}}$. Entonces $P = (\overrightarrow{v_{1}} \overrightarrow{v_{2}} \overrightarrow{v_{3}})$.

.

Subcaso c): La multiplicidad geométrica de $\lambda$ es $1$. En este caso la forma canónica de Jordan está dada por:

$J = P^{-1}AP = \begin{bmatrix}{\lambda}&{1}&{0}\\{0}&{\lambda}&{1}\\{0}&{0}&{\lambda}\end{bmatrix}$

Si queremos encontrar la matriz $P$ podemos aplicar el siguiente teorema.

Sea $A$ una matriz $3$ x $3$ con un solo valor propio $\lambda$, si $m_{g}(\lambda) = 1$, entonces podemos formar la matriz de cambio de base $P$ como sigue: Buscamos un vector cualquiera $\overrightarrow{v_{3}}$ que se encuentre en $N(A - \lambda I)^{3}$ pero no en $N(A - \lambda I)^{2}$. Ahora calculamos los vectores $\overrightarrow{v_{2}} = (A - \lambda I) \overrightarrow{v_{3}}$ y $v_{1} = (A - \lambda I) \overrightarrow{v_{2}}$. Entonces $P = (\overrightarrow{v_{1}} \overrightarrow{v_{2}} \overrightarrow{v_{3}})$.

.

Ejemplo: Sea la matriz $A$, encontremos las matrices $J$ y $P$.

$A = \begin{bmatrix}{0}&{3}&{1}\\{2}&{-1}&{-1}\\{-2}&{-1}&{-1}\end{bmatrix}$

Calculamos los valores propios de $A$

$p(\lambda) = |A - \lambda I|$ $= \left|\begin{bmatrix}{0}&{3}&{1}\\{2}&{-1}&{-1}\\{-2}&{-1}&{-1}\end{bmatrix} - \begin{bmatrix}{\lambda}&{0}&{0}\\{0}&{\lambda}&{0}\\{0}&{0}&{\lambda}\end{bmatrix}\right|$

$ = \left|\begin{bmatrix}{0 - \lambda}&{3}&{1}\\{2}&{-1 - \lambda}&{-1}\\{-2}&{-1}&{-1-\lambda}\end{bmatrix} \right| = -\lambda^{3}-2\lambda^{2} + 4\lambda + 8$

$ = -(\lambda - 2)(\lambda + 2)^{2}$.

Por lo tanto obtenemos dos raíces, es decir obtenemos dos valores propios $\lambda_{1} = 2$ y $\lambda_{2} = -2$. Ahora calculamos $m_{g}(\lambda_{1})$ y $m_{g}(\lambda_{2})$, para $m_{g}(\lambda_{2})$ tenemos:

$m_{g}(\lambda_{2}) = dim(N(A + 2 I)) = dim \left(N \left(\begin{bmatrix}{2}&{3}&{1}\\{2}&{1}&{-1}\\{-2}&{-1}&{1}\end{bmatrix}\right)\right)$

Para ello resolvemos el sistema $(A + 2 I)\overrightarrow{v} = 0$:

$\begin{bmatrix}{2}&{3}&{1}\\{2}&{1}&{-1}\\{-2}&{-1}&{1}\end{bmatrix} \overrightarrow{v} = 0$

Si consideramos a $\overrightarrow{v} = (v_{1},v_{2},v_{3})$, tenemos

$ \begin{dcases} 2v_{1} + 3v_{2} + v_{3} = 0 \\ 2v_{1} + v_{2} - v_{3} = 0 \\ -2v_{1} - v_{2} + v_{3} = 0 \end{dcases}$

Resolviendo el sistema obtenemos que $v_{1} = v_{3}$ y $v_{2} = -v_{3}$, por lo tanto el espacio nulo es $\{t(1,-1,1)\}$, es decir $dim(N(A + 2 I)) = 1$, o lo que es lo mismo $m_{g}(\lambda_{2}) = 1$. Si hacemos el mismo procedimiento para $\lambda_{1}$ tenemos que $m_{g}(\lambda_{1}) = 1$ ya que $N(A - \lambda_{1} I ) = \{t(-1,-1,1)\}$.

Como $m_{g}(\lambda_{2}) = 1$ entramos en el subcaso b) del caso 2, por lo tanto la forma canónica de Jordan es:

$J = \begin{bmatrix}{\lambda_{1}}&{0}&{0}\\{0}&{\lambda_{2}}&{1}\\{0}&{0}&{\lambda_{2}}\end{bmatrix} = \begin{bmatrix}{2}&{0}&{0}\\{0}&{-2}&{1}\\{0}&{0}&{-2}\end{bmatrix} $

Para verificar la definición de la forma canónica de Jordan en matrices $3$ x $3$ calculamos la matriz $P$, para eso utilizaremos el .

Primero buscamos un vector propio $\overrightarrow{v_{1}}$ tal que $A\overrightarrow{v_{1}} = \lambda_{1}\overrightarrow{v_{1}}$. Anteriormente habíamos calculado que los vectores propios de $\lambda_{1}$ son de la forma $t(-1,-1,1)$, si consideramos $t = 1$ obtenemos el vector $(-1,-1,1)$, entonces $\overrightarrow{v_{1}} = (-1,-1,1)$.

Ahora tomamos un vector cualquiera $\overrightarrow{v_{3}}$ que se encuentre en $N(A - \lambda_{2} I)^{2}$ pero no en $N(A - \lambda_{2} I)$, donde

$(A - \lambda_{2} I)^{2} = \begin{bmatrix}{8}&{8}&{0}\\{8}&{8}&{0}\\{-8}&{-8}&{0}\end{bmatrix}$

Para encontrar un vector en $N(A - \lambda_{2})^{2}$ resolvemos el sistema $(A + 2 I)^{2} \overrightarrow{v} = 0$.

$\begin{bmatrix}{8}&{8}&{0}\\{8}&{8}&{0}\\{-8}&{-8}&{0}\end{bmatrix} \overrightarrow{v} = 0$

Si consideramos $\overrightarrow{v} = (v_{1},v_{2},v_{3})$, tenemos

$ \begin{dcases} 8v_{1} + 8v_{2} = 0 \\ 8v_{1} + 8v_{2} = 0 \\ -8v_{1} - 8v_{2} = 0 \end{dcases}$

Resolviendo el sistema obtenemos que $v_{1} = -v_{2}$ y $v_{2} = v_{2}$, por lo tanto el espacio nulo es $\{t(-1,1,0), s(0,0,1)\}$ con $t,s \in \R$. Si consideramos $s = 1$ podemos tomar el vector $\overrightarrow{v_{3}} = (0,0,1)$.

Por último calculamos el vector $\overrightarrow{v_{2}} = (A- \lambda_{2} I ) \overrightarrow{v_{3}}$, es decir $\overrightarrow{v_{2}} = (A + 2 I ) \overrightarrow{v_{3}}$.

$\overrightarrow{v_{2}} = \begin{bmatrix}{2}&{3}&{1}\\{2}&{1}&{-1}\\{-2}&{-1}&{1}\end{bmatrix} \begin{bmatrix}{0}\\{0}\\{1}\end{bmatrix} = \begin{bmatrix}{1}\\{-1}\\{1}\end{bmatrix}$.

Ya tenemos los vectores $\overrightarrow{v_{1}}, \overrightarrow{v_{2}}, \overrightarrow{v_{3}}$, ahora podemos formar la matriz $P = (\overrightarrow{v_{1}} \overrightarrow{v_{2}} \overrightarrow{v_{3}})$.

$P = \begin{bmatrix}{-1}&{1}&{0}\\{-1}&{-1}&{0}\\{1}&{1}&{1}\end{bmatrix}$

Es fácil comprobar que $J = P^{-1}AP$

$\begin{bmatrix}{-.5}&{-.5}&{0}\\{.5}&{-.5}&{0}\\{0}&{1}&{1}\end{bmatrix} \begin{bmatrix}{0}&{3}&{1}\\{2}&{-1}&{-1}\\{-2}&{-1}&{-1}\end{bmatrix} \begin{bmatrix}{-1}&{1}&{0}\\{-1}&{-1}&{0}\\{1}&{1}&{1}\end{bmatrix} $

$= \begin{bmatrix}{2}&{0}&{0}\\{0}&{-2}&{1}\\{0}&{0}&{-2}\end{bmatrix}$

Como vemos se cumple la definición de la forma canónica de Jordan para matrices $3$ x $3$.

Forma canónica de Jordan para una matriz $2$x$2$

Ecuaciones Lineales.

En esta sección se explicará lo que son las ecuaciones lineales y como resolverlas, también se dará su interpretación geométrica.

Una ecuación lineal con las variables $x_{1},x_{2},...,x_{n}$ es una ecuación de la forma

$a_{1}x_{1} + a_{2}x_{2}+\cdots+a_{n}x_{n} = b$

Donde $a_{1},a_{2},...,a_{n}$ y $b$ son constantes en los reales. La constante $a_{i}$ es llamada coeficiente de $x_{i}$ con $i = 1,2,...,n$; y $b$ es llamado término constante de la ecuación .

Hay que tomar en cuenta que las ecuaciones lineales son ecuaciones de primer grado, por lo que las variables $x_{1},x_{2},...,x_{n}$ no deben de tener potencias, raíces, multiplicarse o dividirse entre si.

Ejemplos de ecuaciones lineales:

$2x + y = 3$

$x + y + z = -5$

Ejemplos que no son ecuaciones lineales:

$y^{2}-2 = 0$

$x + yz = 1$

Conjunto solución de una ecuación lineal

El conjunto de valores que satisfacen una ecuación se conoce como el conjunto solución de la ecuación. Para ecuaciones con dos y tres variables podemos representar este conjunto de valores mediante un sistema cartesiano (para dos variables en el plano cartesiano y para tres variables en el espacio cartesiano), donde cada solución de la ecuación está representada como un punto en el sistema cartesiano.

En la podemos observar cual es la representación geométrica del conjunto solución para ecuaciones con dos y tres variables.

Escribe los valores de los coeficiente de una ecuación lineal y observa la representación geométrica de su conjunto solución.

Como podemos ver para ecuaciones lineales con dos variables el conjunto solución forma una línea en el plano, mientras que en las ecuaciones lineales con tres variables el conjunto solución forma un plano en el espacio.

Descripción paramétrica de las soluciones de una ecuación lineal

Las soluciones de las ecuaciones lineales podemos escribirlas en términos de ciertos parámetros. Por ejemplo, si tomamos la ecuación $x + y + z = 1$, podemos reescribirla como $ x = 1 - y - z$ (despejamos la $x$ de la ecuación), ahora si consideramos la variable $y$ como el parámetro $t$ y la variable $z$ como el parámetro $s$ podemos escribir las soluciones de la siguiente manera:

$(x,y,z) = (1 - t - s, t , s)$ con $ t, s \in \R$

Esto quiere decir que cada punto en el plano que forma la ecuación $x + y + z = 1$ es de la forma $(1 - t - s, t , s)$ y es una solución de la ecuación. En la podemos ver la parametrización de una ecuación con dos y tres variables.

Sistemas de ecuaciones lineales

Ahora que ya comprendemos lo que es una ecuación lineal definiremos lo que es un sistema de ecuaciones lineales y cómo resolverlos.

Selecciona los valores de los parámetros y observa los puntos que representan las soluciones de la ecuación.

Un sistema de ecuaciones lineales es una colección finita de ecuaciones lineales con las mismas variables, es decir, es un sistema de $m$ ecuaciones y $n$ variables $x_{1},x_{2},...,x_{n}$ que podemos escribir como

$ \begin{dcases} a_{11}x_{1} + a_{12}x_{2} + \cdots + a_{1n}x_{n} = b_{1} \\ a_{21}x_{1} + a_{22}x_{2} + \cdots + a_{2n}x_{n} = b_{2} \\ \vdots \\ a_{m1}x_{1} + a_{m2}x_{2} + \cdots + a_{mn}x_{n} = b_{3} \end{dcases}$

.

Una solución del sistema es una tupla de números $(s_{1},s_{2},...,s_{n})$ que hacen que se cumplan todas las igualdades cuando los valores $s_{1},s_{2},...,s_{n}$ son sustituidos por $x_{1},x_{2},...,x_{n}$ respectivamente. El conjunto de todas las soluciones de un sistema de ecuaciones es llamado conjunto solución del sistema.

Cualquier sistema de ecuaciones lineales tiene una de las siguientes conclusiones exclusivas

Tiene una única solución
No tiene solución
Tiene infinitas soluciones

Si un sistema tiene al menos una solución se dice que es consistente, en caso contrario se dice que es inconsistente.

.

El siguiente sistema de ecuaciones lineales es inconsistente ya que no existen valores para $x$ y $y$ que hagan que la igualdad de ambas ecuaciones se cumplan simultáneamente:

$\begin{dcases} 3x + 2y = 5 \\ 3x + 2y = -5 \end{dcases}$

En la podemos ver geométricamente cada caso que se presenta en el para sistemas con dos ecuaciones y dos variables.

Ejemplos del .

Ahora que hemos explicado lo que son los sistemas de ecuaciones lineales vamos a ver cómo resolverlos. En estas notas se explicarán tres de los métodos más utilizados, el método de sustitución, el método de igualación y el método de reducción.

Método de sustitución

Este método consiste en ir aislando las variables para después sustituirlas en las ecuaciones del sistema, los pasos que hay que seguir son los siguientes.

Sea un sistema con $m$ ecuaciones lineales y $n$ variables. Empezamos eligiendo cualquiera de la ecuaciones del sistema, ahora seleccionamos cualquier variable $x_{i}, i = 1,2,...,n$ de la ecuación seleccionada y la resolvemos (despejamos la variable de la ecuación).
Sustituimos el valor que obtuvimos de la variable $x_{i}$ en todas las demás ecuaciones del sistema y simplificamos.
Ahora tenemos un sistema con $m-1$ ecuaciones y $n-1$ variables (la ecuación que seleccionamos en el paso $1$ la retiramos del sistema).
Repetimos los pasos 1-3 hasta que ya no queden ecuaciones por resolver. Al terminar este paso ya obtuvimos el valor de una variable $x_{i}$.
El valor que obtuvimos en el paso 4 lo sustituimos en las soluciones de las demás variables (las soluciones de las variables $x_{i}$ obtenidas del paso $1$) para obtener su valor también.
Finalizamos cuando hayamos obtenido todos los valores de las variables, expresamos la solución como la tupla $(s_{1},s_{2},...,s_{n})$ donde los $s_{1},s_{2},...,s_{n}$ son los valores de las variables que obtuvimos en el paso 5.

Ahora veremos tres ejemplos, cada uno presenta un caso del .

Ejemplo 1

$ \begin{dcases} 3x + 2y - z = 6 \\-2x + 2y + z = 3 \\ x + y + z = 4 \end{dcases}$

Seleccionamos la tercera ecuación y resolvemos para $x$

$x + y + z = 4 \Rightarrow x = 4 - y - z \space (1)$

Sustituimos $x$ en las dos ecuaciones restantes

$ 3x + 2y - z = 6 \Rightarrow 3(4 - y - z) + 2y - z = 6$

$12 - 3y - 3z + 2y - z = 6 \Rightarrow 12 - y - 4z = 6$

$\Rightarrow -y -4z = -6$

$-2x + 2y + z = 3 \Rightarrow -2(4 - y - z) + 2y + z = 3$

$\Rightarrow -8 + 2y + 2z + 2y + z = 3 \Rightarrow -8 + 4y + 3z = 3$

$\Rightarrow 4y + 3z = 11$

Nos queda el sistema

$ \begin{dcases} -y -4z = -6 \\ 4y + 3z = 11 \end{dcases}$

Seleccionamos la primera ecuación y resolvemos para $y$

$-y -4z = -6 \Rightarrow -y = -6 + 4z \Rightarrow y = 6 -4z \space (2)$

Sustituimos $y$ en la ecuación restante

$ 4y + 3z = 11 \Rightarrow 4( 6 -4z) + 3z = 11$

$ 24 - 16z + 3z = 11 \Rightarrow 24 - 13z = 11$

$\Rightarrow -13z = -13 \Rightarrow z = 1 $

Ya terminamos el paso 4 de este método, ahora vamos a obtener el valor de todas las variables, para eso primero sustituimos $z$ en $(2)$

$(2) \space y = 6 -4z \Rightarrow y = 6 -4(1) \Rightarrow y = 2$

Tenemos los valores de $y$ y $z$, solo falta sustituirlo en $(1)$ para obtener el valor de $x$

$(1) \space x = 4 - y - z \Rightarrow x = 4 - 2 - 1 \Rightarrow x = 1$

Ya hemos obtenido el valor de las tres variables, entonces la solución es la tupla $(1,2,1)$ y es una solución única.

Ejemplo 2:

$ \begin{dcases} x - 3y + z = 4 \\-x + 2y -5z = 3 \\ 5x - 13y + 13z = 8 \end{dcases}$

Seleccionamos la primera ecuación y resolvemos para $x$

$ x - 3y + z = 4 \Rightarrow x = 4 + 3y - z \space (1)$

Sustituimos en $x$ las ecuaciones restantes

$-x + 2y -5z = 3 \Rightarrow -( 4 + 3y - z) + 2y - 5z = 3$

$\Rightarrow -4 -3y + z + 2y - 5z = 3$

$\Rightarrow -y - 4z = 7 $

$5x - 13y + 13z = 8 \Rightarrow 5(4 + 3y - z) - 13y + 13z = 8$

$20 + 15y -5z -13y + 13z = 8 \Rightarrow 20 + 2y +8z = 8 $

$\Rightarrow 2y + 8z = -12 $

Nos queda el sistema

$ \begin{dcases} -y - 4z = 7 \\2y + 8z = -12 \end{dcases}$

Seleccionamos la primera ecuación y resolvemos para $y$

$-y - 4z = 7 \Rightarrow -y = 7 + 4z \Rightarrow y = -7 -4z \space (2) $

Sustituimos $y$ en la ecuación restante

$2y + 8z = -12 \Rightarrow 2(-7 -4z) + 8z = -12$

$-14 -8z +8z = -12 \Rightarrow 0 = 2 $

Como vemos obtenemos una contradicción, por lo tanto no hay que continuar más y concluimos que no existe ninguna solución para el sistema de ecuaciones.

Ejemplo 3

$ \begin{dcases} 2x + y -3z = 0 \\4x + 2y - 6z = 0 \\ x - y + z = 0 \end{dcases}$

Seleccionamos la tercera ecuación y resolvemos para $x$

$x - y + z = 0 \Rightarrow x = y - z \space (1)$

Sustituimos en las ecuaciones restantes

$2x + y -3z = 0 \Rightarrow 2(y - z) + y -3z$

$2y - 2z + y -3z = 0 \Rightarrow 3y -5z = 0$

$4x + 2y - 6z = 0 \Rightarrow 4(y - z) + 2y - 6z = 0 $

$\Rightarrow 4y - 4z +2y -6z = 0 \Rightarrow 6y -10z = 0$

Nos queda el sistema

$ \begin{dcases} 3y -5z = 0 \\6y -10z = 0 \end{dcases}$

Seleccionamos la primera ecuación y resolvemos para $y$

$ 3y -5z = 0 \Rightarrow y = \frac{5z}{3} \space (2)$

Sustituimos $y$ en la ecuación restante

$6y -10z = 0 \Rightarrow 6(\frac{5z}{3}) -10z = 0 \Rightarrow 10z -10z = 0 \Rightarrow 0 = 0$

Obtenemos que $0 = 0$, por lo tanto no necesitamos continuar, el resultado obtenido es una identidad que nos indica que el sistema tiene un número infinito de soluciones.

Estás soluciones las podemos expresar en su forma paramétrica. Sabemos que $y = \frac{5z}{3}$ y $x = y - z$, como no sabemos nada de $z$ entonces decimos que es una variables libre y podemos considerarla como el parámetro $t$. Ahora dejamos las variables $y,x$ expresadas en términos de $z$, en el caso de $y = \frac{5z}{3}$ ya lo está, para $x = y - z$ sustituimos el valor de $y$, es decir $x = \frac{5z}{3} - z = \frac{2z}{3}$. Por lo tanto las soluciones son de la forma $(x,y,z) = (\frac{2t}{3},\frac{5t}{3},t)$ o bien $t(\frac{2}{3},\frac{5}{3},1)$.

Método de igualación

Este método consiste en despejar las variables de las ecuaciones del sistema e ir igualando los resultados para obtener su valor. Hay que tomar en cuenta que el número de pasos necesarios incrementa demasiado mientras más variables tengamos en el sistema, es por eso que no se recomienda resolver sistemas con más de tres variables utilizando este método. En estas notas se explica cómo resolver sistemas de $3$ x $3$ (tres ecuaciones con tres variables).

Sea un sistema con $3$ ecuaciones lineales y $3$ variables. Empezamos eligiendo una variable $x_{i}$ con $i = 1, 2,3$ y la resolvemos para todas las ecuaciones del sistema.
De los resultados obtenidos en el paso 1 seleccionamos dos (cualesquiera) y las igualamos. Al igualarlas tenemos una ecuación con $2$ variables, seleccionamos una de ellas y la

despejamos, decimos que este es el resultado $(1)$.

Ahora igualamos el resultado restante del paso 1 con cualquiera de los resultado seleccionados en el paso 2. Al igualarlas nuevamente tenemos una ecuación con 2 variables, seleccionamos la misma variable que en el paso 2 y la despejamos, decimos que este es el resultado $(2)$.
Igualamos los resultados $(1)$ y $(2)$, al hacerlo obtenemos una ecuación con una variable, la despejamos para obtener su valor.
Sustituimos el valor de la variable obtenida en el paso anterior en alguno de los resultados $(1),(2)$, esto para obtener el valor de la variable faltante.
Por último sustituimos el valor de las dos variables que ya hemos obtenido en alguno de los resultado del paso 1, de esta forma obtenemos el valor de la variable faltante y terminamos. Expresamos la solución como la tupla $(s_{1},s_{2},s_{3})$, donde $s_{1},s_{2},s_{3}$ son los valores de las tres variables.

Ejemplo

$ \begin{dcases} 3x + 2y + z = 1 \\5x + 3y + 4z = 2 \\ x + y - z = 1 \end{dcases}$

Elegimos la variable $x$ y lo resolvemos en las tres ecuaciones

$3x + 2y + z = 1 \Rightarrow x = \frac{1}{3} - \frac{2y}{3} - \frac{z}{3}$

$5x + 3y + 4z = 2 \Rightarrow x = \frac{2}{5} - \frac{3y}{5} - \frac{4z}{5} $

$x + y - z = 1 \Rightarrow x = 1 - y + z$

Seleccionamos la primera y segunda ecuación y las igualamos

$\frac{1}{3} - \frac{2y}{3} - \frac{z}{3} = \frac{2}{5} - \frac{3y}{5} - \frac{4z}{5} \Rightarrow - \frac{2y}{3} - \frac{z}{3} + \frac{3y}{5} + \frac{4z}{5} = \frac{2}{5} - \frac{1}{3}$

$-\frac{y}{15} + \frac{7z}{15} = \frac{1}{15} $

Despejamos $y$

$-\frac{y}{15} = \frac{1}{15} - \frac{7z}{15} \Rightarrow -y = 1 - 7z \Rightarrow y = -1 + 7z \space (1) $

Seleccionamos la primera y tercera ecuación y las igualamos

$\frac{1}{3} - \frac{2y}{3} - \frac{z}{3} = 1 - y + z \Rightarrow - \frac{2y}{3} - \frac{z}{3} + y - z = 1 - \frac{1}{3}$

$\frac{y}{3} - \frac{4z}{3} = \frac{2}{3}$

Despejamos $y$

$\frac{y}{3} = \frac{2}{3} + \frac{4z}{3} \Rightarrow y = 2 + 4z \space (2)$

Igualamos $(1)$ y $(2)$

$-1 + 7z = 2 + 4z$

$7z - 4z = 2 + 1 \Rightarrow 3z = 3 \Rightarrow z = 1$

Sustituimos $z$ en $(2)$

$y = 2 + 4(1) \Rightarrow y = 6$

Sustituimos $y$ y $z$ en la primera ecuación

$x = \frac{1}{3} - \frac{2(6)}{3} - \frac{1}{3} \Rightarrow x = -\frac{12}{3} \Rightarrow x = -4$.

Ya hemos obtenido el valor de las tres variables, entonces tenemos la solución única $(-4,6,1)$

Al igual que en el método de sustitución, cuando obtenemos alguna contradicción en el proceso significa que el sistema no tiene solución, mientras que si obtenemos la igualdad identidad $0 = 0$ decimos que el sistema tiene soluciones infinitas y podemos expresarlas en su forma paramétrica.

Método de reducción

Este método consiste en ir eliminando las variables en las ecuaciones hasta obtener sus valores, los pasos que hay que seguir son los siguientes.

Sea un sistema con $m$ ecuaciones lineales y $n$ variables. Comenzamos eligiendo alguna ecuación del sistema y una variable $x_{i}$ con $i = 1,2,...,n$.
Multiplicamos las ecuaciones restantes por algún número (cada ecuación puede tener que multiplicarse por un número diferente), de tal forma que el coeficiente de la variable que elegimos quede igual al de la ecuación que elegimos en el paso 1.
Restamos la ecuación elegida en el paso 1 con las ecuaciones obtenidas en el paso 2. Actualizamos el sistema con los resultados obtenidos excluyendo la ecuación elegida en el paso 1.

En este paso ya eliminamos la variable $x_{i}$ que elegimos del sistema.

Repetimos los pasos del 1 al 3 hasta que solo quede una ecuación con una variable y obtenemos su valor.
Sustituimos la variable que obtuvimos en el paso anterior en las ecuaciones obtenidas en el paso 2, esto para obtener el valor de las variables restantes. Finalizamos expresando la solución como la tupla $(s_{1},s_{2},...,s_{n})$, donde $s_{1},s_{2},...,s_{n}$ son los valores de $n$ variables.

Ejemplo

$ \begin{dcases} 2x + 2y + 2z = 4 \\x - y + 3z = 2 \\ x + 3y + 2z = 6 \end{dcases}$

Elegimos la primera ecuación y la variable $x$. Multiplicamos la segunda y tercera ecuación por un número de tal forma que el coeficiente de $x$ sea igual al de la primera ecuación

$x - y + 3z = 2 \Rightarrow 2 (x - y + 3z = 2 ) \Rightarrow 2x - 2y + 6z = 4$

$ x + 3y + 2z = 6 \Rightarrow 2 (x + 3y + 2z = 6) \Rightarrow 2x + 6y + 4z = 12 $

Restamos la primera ecuación con las ecuaciones que obtuvimos

$\def\arraystretch{1.5} \begin{array}{c} \hspace*{2.2em} 2x + 2y + 2z = 4 \\ -\hspace*{1.5em} 2x - 2y + 6z = 4 \\ \hline 4y - 4z = 0 \end{array}$

$\def\arraystretch{1.5} \begin{array}{c} \hspace*{2.2em} 2x + 2y + 2z = 4 \\ -\hspace*{1.5em} 2x + 6y + 4z = 12 \\ \hline -4y -2z = -8 \end{array}$

Actualizamos el sistema

$ \begin{dcases} 4y - 4z = 0 \\-4y -2z = -8 \end{dcases}$

Elegimos la primera ecuación y la variable $y$. Multiplicamos la segunda ecuación por un número de tal forma que el coeficiente de $y$ sea igual al de la primera ecuación.

$-4y -2z = -8 \Rightarrow -1(-4y -2z = -8) \Rightarrow 4y + 2z = 8$

Restamos la primera ecuación con la ecuación que obtuvimos

$\def\arraystretch{1.5} \begin{array}{c} \hspace*{2.2em} 4y - 4z = 0 \\ -\hspace*{1.5em} 4y + 2z = 8 \\ \hline -6z = -8 \end{array}$

Solo nos queda una ecuación de primer grado con un variable. Despejamos $z$ y obtenemos su valor

$-6z = -8 \Rightarrow z = \frac{4}{3}$

Ahora que hemos obtenido el valor de $z$ podemos obtener el valor de $y$

$4y + 2z = 8 \Rightarrow 4y + 2(\frac{4}{3}) = 8 \Rightarrow 4y + \frac{8}{3} = 8 $

$\Rightarrow 4y = \frac{16}{3} \Rightarrow y = \frac{4}{3}$

Utilizando los valores de $y$ y $z$ obtenemos el valor de $x$

$2x + 2y + 2z = 4 \Rightarrow 2x + 2(\frac{4}{3}) + 2(\frac{4}{3}) = 4 \Rightarrow 2x + \frac{8}{3} + \frac{8}{3} = 4$

$2x = -\frac{4}{3} \Rightarrow x = -\frac{2}{3}$

Ya hemos obtenido el valor de las tres variables, entonces tenemos la solución única $(-\frac{2}{3},\frac{4}{3},\frac{4}{3})$

Al igual que en los métodos de igualación y sustitución cuando obtenemos alguna contradicción en el proceso significa que el sistema no tiene solución, mientras que si obtenemos la igualdad identidad $0 = 0$ decimos que el sistema tiene soluciones infinitas y las podemos expresar en su forma paramétrica.

Capítulo II

Sólidos de revolución

Volúmenes de sólidos.

En esta sección veremos cómo determinar el volumen de sólidos en tres dimensiones utilizando el método de los discos, el método del anillo y el cálculo de volúmenes mediante las secciones transversales conocidas.

Sólido de revolución

Los sólidos generados al girar una región plana (región de revolución) alrededor de un eje (eje de revolución) son llamados sólidos de revolución. Esta región plana esta acotada por una función $f(x)$ y un intervalo $[a,b]$. En la podemos ver algunos ejemplos.

Método de los discos

Este método es utilizado para calcular el volumen de sólidos de revolución como los mostrados en la . Podemos pensar que estos sólidos están conformados por $n$ discos, los cuales se forman al girar un rectángulo dentro de la región plana alrededor del eje de revolución ().

Observa como se genera un sólido de revolución girando una región plana alrededor de un eje

El volumen de estos discos es

Volumen del disco = Área del disco $\cdot$ Ancho del disco = $\pi R^{2}w$

Donde $R$ es el radio del disco y $w$ es su anchura. Denotaremos el volumen de un disco como $\varDelta V$ y la anchura como $\varDelta x$, es decir

$\varDelta V = \pi R^{2} \varDelta x $

Si aproximamos el volumen de un sólido de revolución sumando los $n$ discos de anchura $\varDelta x$ y radio $R(x_{i})$ que lo conforman tenemos:

Volumen del sólido $\simeq \displaystyle\sum_{i=1}^n \pi[R(x_{i})]^{2} \varDelta x$

Observa como se forman los discos en un sólido de revolución.

$= \pi \displaystyle\sum_{i=1}^n [R(x_{i})]^{2} \varDelta x$

Esta aproximación mejora mientras más discos tomemos, en otras palabras cuando $n \rightarrow \infty$, de esta manera podemos definir el volumen de un sólido como sigue.

Volumen del sólido = $\lim\limits_{n \rightarrow \infty} \pi \displaystyle\sum_{i=1}^n [R(x_{i})]^{2} \varDelta x = \displaystyle\int_{a}^{b} \pi [R(x)]^{2} dx$

Donde $R(x) = f(x)$ y $a,b$ son los intervalos de la región plana que forman el sólido. En la podemos ver como la aproximación va mejorando mientras más discos se tomen.

Observa como al tomar más discos estos se asemejan cada vez más al solido de revolución.

Sea $f(x)$ una función, definimos $R$ como la región limitada por la gráfica de $f(x)$ en el intervalo $[a,b]$. El volumen de un sólido de revolución formado al girar $R$ sobre el eje de revolución es

$V = \displaystyle\int_{a}^{b} \pi [f(x)]^{2} dx$

.

Nota: La integral está definida en términos del eje de revolución, es decir si el eje de revolución es $y$, entonces la región plana está acotada por una función del tipo $f(y)$, por lo tanto:

$V = \displaystyle\int_{a}^{b} \pi [f(y)]^{2} dy$

Ejemplo: Encontrar el volumen del sólido formado al girar la región acotada por la función $f(x)=x^2-4x+5$ en el intervalo $[0,4]$, alrededor del eje $x$.

El sólido representado por esta función la podemos ver en la , así el volumen del sólido de revolución es:

$V= \displaystyle\int_{0}^{4} \pi [f(x)]^{2} dx = \displaystyle\int_{0}^{4} \pi (x^2-4x+5)^{2} dx$

$=\pi \displaystyle\int_{0}^{4} (x^2-4x+5)^{2} dx =\pi \displaystyle\int_{0}^{4} x^{4} -8x^{3}+26x^{2} - 40x + 25 dx$

$=\pi \left(\displaystyle\int_{0}^{4} x^{4} dx - \displaystyle\int_{0}^{4} 8x^{3} dx + \displaystyle\int_{0}^{4} 2x^{2} dx - \displaystyle\int_{0}^{4} 40x dx + \displaystyle\int_{0}^{4} 25 dx \right)$

$=\pi \left([\frac{x^{5}}{5}]^{4}_{0} - 8 [\frac{x^{4}}{4}]^{4}_{0} + 26[\frac{x^{3}}{3}]^{4}_{0} - 40 [\frac{x^{2}}{2}]^{4}_{0} + [25x]^{4}_{0} \right)$

$= \pi \left(\frac{1024}{5} - 512 + \frac{1664}{3} - 320 + 100 \right) = \pi \left(\frac{412}{15} \right)$

Por lo tanto el volumen del sólido es $\pi \left(\frac{412}{15} \right)$.

Método del anillo

El método del anillo también conocido como método de las arandelas es una extensión del método de los discos que sirve para calcular el volumen de sólidos con huecos. Esto es producido cuando la región de revolución se define como la región que se encuentra entre las gráficas de dos funciones $f(x)$ y $g(x)$ ().

Mueve el intervalo $[a,b]$ y observa el sólido acotado por las dos funciones

Para calcular el volumen de sólidos de revolución con huecos reemplazamos los discos por anillos, estos anillos se forma al girar un rectángulo dentro de la región que se encuentra acotada por las dos funciones en el intervalo $[a,b]$ alrededor del eje de revolución,

en la podemos ver cómo se generan estos anillos.

Si consideramos a $r$ y $R$ como los radios interiores y exteriores del anillo y $\varDelta x$ como la anchura, el volumen del anillo está dado por:

Volumen anillo $= \pi (R^{2}-r^{2}) \varDelta x $

Observa cómo se forman los anillos de un sólido de revolución acotado por dos funciones

Podemos pensar que los sólidos con huecos están formados por $n$ anillos. Ahora si aproximamos el volumen del sólido por los $n$ anillos de anchura $\varDelta x$ con radio exterior $R(x_{i})$ y radio interior

$r(x_{i})$ tenemos que:

Volumen del sólido $\simeq \displaystyle\sum_{i=1}^n \pi[[R(x_{i})]^{2} - [r(x_{i})]^{2}] \varDelta x$

$=\pi \displaystyle\sum_{i=1}^n [[R(x_{i})]^{2} - [r(x_{i})]^{2}] \varDelta x$

De la misma manera que en el método de los discos esta aproximación mejora mientras más anillos tomemos, por lo que podemos definir el volumen de un solido de revolución con huecos como sigue.

Volumen del sólido $= \displaystyle\int_{a}^{b} \pi [[R(x)]^{2}-[r(x)]^{2}] dx$

Observa como al tomar más anillos estos se asemejan cada vez más al solido de revolución acotado por dos funciones.

Donde $R(x) = f(x)$ , $r(x) = g(x)$ y $a,b$ son los intervalos de la región de revolución. El la se puede ver gráficamente como solido entre dos funciones se aproxima de mejor manera mientras más anillos sean tomados.

Notemos que la integral que contiene el radio interior $r(x)$ representa el volumen del hueco y se resta a la integral que contiene el radio exterior.

Sean $f(x)$ y $g(x)$ dos funciones tal que $f(x) \geq g(x)$ sobre el intervalo $[a,b]$. Definimos $R$ como la región limitada por las gráfica de $f(x)$ y $g(x)$ en el intervalo $[a,b]$. El volumen del sólido de revolución formado al girar $R$ sobre el eje de revolución es

$V = \displaystyle\int_{a}^{b} \pi [[f(x)]^{2}-[g(x)]^{2}] dx$ .

Al igual que en el método de los discos, si $y$ es el eje de revolución, entonces el volumen del sólido es:

$V = \displaystyle\int_{a}^{b} \pi [[f(y)]^{2}-[g(y)]^{2}] dy$

Ejemplo: Encontrar el volumen del sólido formado al girar la región acotada por las funciones $f(x)=x$ y $g(x)=\frac{1}{x}$ en el intervalo $[1,4]$ alrededor del eje $x$.

El sólido generado por estas funciones lo podemos ver en el primer ejemplo de la , así el volumen del solido de revolución es:

$V = \displaystyle\int_{a}^{b} \pi [[f(x)]^{2}-[g(x)]^{2}] dx = \displaystyle\int_{1}^{4} \pi [(x)^{2}- \left(\frac{1}{x} \right)^{2}] dx$

$=\pi \displaystyle\int_{1}^{4} x^{2}-\frac{1}{x^{2}} dx = \pi \left( \displaystyle\int_{1}^{4} x^{2} dx - \displaystyle\int_{1}^{4} \frac{1}{x^{2}} dx\right)$

$= \pi \left( [\frac{x^{3}}{3}]^{4}_{1} - [-\frac{1}{x}]^{4}_{1} \right) = \pi \left( \frac{63}{3} - \frac{3}{4} \right) = \pi \left( \frac{84}{4} - \frac{3}{4} \right) = \pi (\frac{81}{4})$

Por lo tanto el volumen del sólido acotado por las funciones $f(x)=x$ y $g(x)=\frac{1}{x}$ en el intervalo $[1,4]$ es $\pi (\frac{81}{4}).$

Cálculo de volúmenes con secciones transversales conocidas

Hasta ahora hemos estudiado cómo calcular los volúmenes de sólidos de revolución, sin embargo no todos los sólidos se generan al rotar una región plana alrededor de un eje, en estos casos podemos calcular su volumen si conocemos sus secciones transversales.

Sea $S$ un sólido, si la región formada por la intersección de $S$ con un plano es perpendicular a un eje, entonces esa región es llamada sección transversal de $S$. .

En la podemos ver que las secciones transversales son regiones planas de área $A(x)$ (con $x$ un punto en el eje), que se encuentran dentro del sólido. Por ejemplo, si la sección transversal es un cuadrado, entonces su área se calcula con la fórmula $l$ x $l$, donde $l$ es la longitud de los lados, ahora si consideramos que los lados de la sección transversal son de longitud $x$, entonces $A(x) = x^{2}$.

Mueve la barra y observa las secciones transversales del sólido que se encuentra en el intervalo $[0,3]$ sobre el eje $x$.

Podemos calcular el volumen del sólido cortándolo en $n$ “rebanadas” de longitud $\varDelta x_{k}$, estimar el volumen de cada rebanada y después sumarlas. Estas rebanadas son paralelas unas con otras y perpendiculares al eje donde se encuentra el sólido, por lo que si las juntamos todas deben de formar el sólido original.

Supongamos que tenemos una partición regular $p=[x_{0},x_{1},...,x_{n}]$ en el intervalo $[a,b]$ donde se definió el sólido y $n$ rebanadas $S_{i}$, cuya longitud se extiende desde $x_{i-1}$ hasta $x_{i}$ como podemos ver en la . Ahora bien, sea $x^{*}_{i}$ un punto arbitrario en el intervalo $[x_{i-1},x_{i}]$, entonces el volumen de la rebanada $S_{i}$ puede ser estimada como sigue:

$V(S_{i}) \simeq A(x^{*}_{i}) \varDelta x$

Con $\varDelta x$ la longitud del intervalo $[x_{i-1},x_{i}]$. Si sumamos el volumen de cada rebanada podemos hacer un aproximación del volumen total del sólido de la siguiente manera

Volumen de sólido $ \simeq \displaystyle\sum_{i=1}^n V(S_{i}) = \displaystyle\sum_{i=1}^n A(x^{*}_{i}) \varDelta x$

Introduce el número de rebanadas en el que quieres que se divida el sólido

Esta aproximación mejora mientras más delgadas sean las rebanadas, de hecho tan pequeñas como para que cada subsección sea igual a una de las secciones transversales del sólido, es decir cuando $n \rightarrow \infty$, por lo que:

Volumen del sólido $ =\lim\limits_{n \rightarrow \infty} \displaystyle\sum_{i=1}^n A(x^{*}_{i}) \varDelta x = \displaystyle\int_{a}^{b} A(x) dx$

Sea $S$ un sólido, definido en el intervalo $[a,b]$ sobre el eje $x$, decimos que su volumen es igual a

$V = \displaystyle\int_{a}^{b} A(x) dx$ .

Como se dijo en un inicio, las rebanadas deben ser perpendiculares a un eje, la definición anterior describe la fórmula cuando las rebanadas son perpendiculares al eje $x$, si las rebanadas son perpendiculares al eje $y$ la fórmula es análoga, es decir

$ \displaystyle\int_{a}^{b} A(y) dy$

La estrategia que debemos de seguir para calcular el volumen de un sólido es la siguiente

Examine el sólido y determine la forma que tienen sus secciones transversales.
Determine una fórmula para calcular el área de las secciones transversales.
Integre la fórmula obtenida sobre el intervalo $[a,b]$.

Ejemplo: Calcular el volumen de una pirámide cuadrada con base de $6$ x $6$ unidades, que se encuentra en el intervalo $[0,3]$ y cuyas secciones transversales son perpendiculares al eje $x$.

El problema nos dice que el sólido es una pirámide cuadrada (como la mostrada en la ), por lo tanto sus secciones transversales tienen la forma de un cuadrado (ya que son perpendiculares al eje $x$).

La fórmula para calcular el área de un cuadrado es $l$ x $l$. Si nos fijamos en la sección transversal que se encuentra en $x=1$ sus lados tienen longitud $2$, por lo que $A(1) = 2^{2} = 4$, si $x=2$ tenemos que $A(2) = 4^{2} = 16$ y si $x=3$ tenemos que $A(3) = 6^{2}= 36$.

En términos generales, el área de la sección transversal es $A(x) = (2x)^{2} = 4x^{2}$. Ahora que determinamos la fórmula para calcular el área de las secciones transversales la integramos en el intervalo $[0,3]$.

$V = \displaystyle\int_{0}^{3} 4x^{2} dx = 4 \displaystyle\int_{0}^{3} x^{2} dx $

$= 4 \cdot \left[\frac{x^{3}}{3} \right]^{3}_{0} = 4 \cdot 9 = 36$

Por lo tanto el volumen de una pirámide cuadrada con secciones transversales perpendiculares al eje $x$ definida en el intervalo $[0,3]$ con base de $6$ x $6$ unidades es igual a $36$.

Área de superficies de revolución.

En la sección anterior vimos cómo calcular el volumen de sólidos utilizando integrales. Ahora veremos cómo calcular el volumen de superficies de revolución.

Sea $G$ la gráfica de una función $f(x)$ continua en el intervalo $[a,b]$ y diferenciable en $(a,b)$. La superficie resultante de girar $G$ sobre un eje (eje de revolución) es llamada superficie de revolución.

.

Introduce una función y observa la superficie de revolución generada al girar la gráfica en el eje $x$.

Supongamos que tenemos una partición regular $p = [x_{0},x_{1},...,x_{n}]$ en el intervalo $[a,b]$. Entonces para $i = 1,2,...,n$ construimos un segmento de recta que va del punto $(x_{i-1},f(x_{i-1}))$ al punto $(x_{i},f(x_{i}))$ .

Introduce el número de segmentos de recta en los que quieres aproximar la gráfica de la función y observa la superficie generada a partir de estas.

Notemos que $\varDelta x_{i} = x_{i} - x_{i-1}$ y $\varDelta y_{i} = y_{i} - y_{i-1}$, con $y_{i} = f(x_{i})$.

Al girar estos segmentos de recta alrededor del eje de revolución se generan unas bandas, las cuales nos ayudaran a aproximar el volumen de la superficie de revolución.

Como podemos ver en la , estas bandas son en realidad troncos de cono (un cono cortado), por lo que para calcular su área debemos calcular el área de la superficie lateral de un tronco de cono. Sean $R$ y $r$ el radio exterior e interior del tronco y $l$ su altura inclinada, si sabemos que el área de la superficie lateral de un cono completo es

Área superficie lateral del cono $= \pi R s $

Donde $R$ es el radio de la base y $s$ es su altura inclinada. Entonces para calcular el área de la superficie lateral del tronco podemos restar el área de la superficie lateral del cono completo menos el área de la superficie lateral del pedazo de cono (llamémoslo cono pequeño) que le hace falta al tronco para formar el cono completo.

El tronco de cono se muestra de color azul y el cono pequeño de color naranja.

Como las secciones transversales del cono completo y el cono pequeño son triángulos semejantes tenemos que :

$\frac{r}{R} = \frac{s-l}{s}$

Resolviendo para $s$

$rs = R(s-1)$

$\Rightarrow rs = Rs - Rl$

$\Rightarrow Rl = Rs - rs$

$\Rightarrow Rl = (R - r)s$

$\Rightarrow s = \frac{Rl}{R-r}$

Por lo tanto el área de la superficie de un tronco de cono es:

A = Área superficie cono completo - Área superficie cono pequeño

$ = \pi R s - \pi r(s-l) = \pi R \left(\frac{Rl}{R-r} \right) - \pi r \left(\frac{Rl}{R-r} - l\right)$

$ = \frac{\pi R^{2} l }{R-r} - \frac{\pi R r l}{R - r} + \pi r l = \frac{\pi R^{2} l }{R-r} - \frac{\pi R r l}{R - r} + \frac{\pi r l (R - r)}{R-r}$

$ = \frac{\pi R^{2} l}{R-r} - \frac{\pi R r l}{R - r} + \frac{\pi R r l}{R-r} - \frac{\pi r^{2} l}{R - r} = \frac{\pi \left(R^{2} - r^{2} \right) l }{R - r} $

$= \frac{\pi(R-r)(R + r) l}{R - r} = \pi(R+r)l$

Ahora aplicando esta fórmula para calcular el área de la superficie de las bandas tenemos que:

Área superficie banda $= \pi(R + r)l = \pi (f(x_{i-1}) + f(x_{i})) l$

Donde $l$ es la longitud del segmento de recta que se encuentra en el subintervalo $[x_{i-1},x_{i}]$ (), la cual se puede deducir de la fórmula

$l= \sqrt{(x_{i-1} - x_{i})^{2} + (y_{i-1} - y_{i}^{2})}$

Denotamos $(x_{i-1} - x_{i})$ como $\varDelta x_{i}$ y $(y_{i-1} - y_{i})$ como $\varDelta y_{i}$, entonces:

Área superficie banda $ = \pi (f(x_{i-1}) + f(x_{i})) \sqrt{(\varDelta x_{i})^{2} + (\varDelta y_{i})^{2}}$

$= \pi (f(x_{i-1}) + f(x_{i})) \sqrt{(\varDelta x_{i})^{2} + \left(\frac{\varDelta y_{i}}{\varDelta x_{i}}\right)^{2} (\varDelta x_{i})^{2}} $

$= \pi (f(x_{i-1}) + f(x_{i})) \sqrt{1 + \left(\frac{\varDelta y_{i}}{\varDelta x_{i}}\right)^{2}} (\varDelta x_{i})$

Por el teorema del valor medio sabemos que existe un punto $x^{*} \in [x_{i-1},x_{i}]$ tal que $f'(x^{*}) = \frac{\varDelta y_{i}}{\varDelta x_{i}}$, entonces:

$= \pi (f(x_{i-1}) + f(x_{i})) \sqrt{1 + [f'(x^{*}_{i})]^{2}} \varDelta x_{i}$

Teorema del valor medio: Sea $f(x)$ una función continua en $[a,b]$ y diferenciable en $(a,b)$. Entonces existe $c \in (a,b) $ de modo que

$f'(c) = \frac{f(b) - f(a)}{b - a}$ .

Además, dado que $f(x)$ es continua, según el teorema del valor intermedio, hay un punto $x^{**}_{i} \in [x_{i-1},x_{i}]$ tal que $f(x^{**}_{i}) = \left(\frac{1}{2}\right)[f(x_{i-1}+f(x_{i}))]$, entonces

Area banda = $2\pi f(x^{**}_{i}) \sqrt{1 + [f'(x_{i}*)]^{2}} \varDelta x_{i}$

Teorema del valor intermedio: Sea $f(x)$ una función continua en $[a,b]$ y sea $k$ un número entre $f(a)$ y $f(b)$. Entonces, existe un número $x_{0}$ en el intervalo $[a,b]$ que satisface que $f(x_{0}) = k$ .

Por lo tanto la aproximación del área de una superficie de revolución es:

Área superficie $\simeq \displaystyle\sum_{i=1}^n 2 \pi f(x^{**}_{i}) \sqrt{1 + [f'(x^{*}_{i})]^{2}} \varDelta x_{i} $

Esta aproximación mejora mientras mas subintervalos tengamos, es decir cuando $n \rightarrow \infty$, por lo tanto

Área superficie $= \lim\limits_{n \rightarrow \infty} \displaystyle\sum_{i=1}^n 2 \pi f(x^{**}_{i}) \sqrt{1 + [f'(x^{*}_{i})]^{2}} \varDelta x_{i} $

$\displaystyle\int_{a}^{b} 2\pi f(x) \sqrt{1 + [f'(x)]^{2}} dx$

Sea $f(x)$ una función continua definida en el intervalo $[a,b]$ y diferenciable en el intervalo $(a,b)$ , el área de la superficie de revolución formada al girar la gráfica de la función sobre el eje $x$ es

$\displaystyle\int_{a}^{b} 2\pi f(x) \sqrt{1 + [f'(x)]^{2}} dx$

.

La fórmula para calcular el área de superficies de revolución que se forman al girar la gráfica de una función sobre el eje $y$ es análoga, es decir:

$\displaystyle\int_{a}^{b} 2\pi f(y) \sqrt{1 + [f'(y)]^{2}} dy$

Ejemplo: Sea $f(x) = \sqrt{x}$ sobre el intervalo $[0,4]$. Buscar el área de la superficie de revolución al girar la gráfica de $f(x)$ sobre el eje $x$.

La superficie de revolución de $f(x)=\sqrt{x}$ la podemos generar en la , asi el área de la superficie de revolución es:

$A = \displaystyle\int_{a}^{b} 2\pi f(x) \sqrt{1 + [f'(x)]^{2}} dx = \displaystyle\int_{0}^{4} 2\pi \sqrt{x} \sqrt{1 + [\sqrt{x}']^{2}} dx$

$ = \displaystyle\int_{0}^{4} 2\pi \sqrt{x} \sqrt{1 + \left[\frac{1}{2 \sqrt{x}} \right]^{2}} dx = \displaystyle\int_{0}^{4} 2\pi \sqrt{x} \sqrt{1 + \frac{1}{4x}} dx$

$ = \displaystyle\int_{0}^{4} 2\pi \sqrt{x + \frac{x}{4x}} dx = 2\pi \displaystyle\int_{0}^{4} \sqrt{x + \frac{1}{4}} dx $

Haciendo la sustitución $u = x + \frac{1}{4}$

$2\pi \displaystyle\int_{\frac{1}{4}}^{\frac{17}{4}} \sqrt{u} \space du = 2\pi \displaystyle\int_{\frac{1}{4}}^{\frac{17}{4}} u^{\frac{1}{2}} du = 2\pi \left[\frac{2}{3} u^{\frac{3}{2}} \right]^{\frac{17}{4}}_{\frac{1}{4}}$

$= 2\pi \left[\frac{2}{3} u^{\frac{3}{2}} \right]^{\frac{17}{4}}_{\frac{1}{4}} = 2\pi \left(\frac{17 \sqrt{17}}{12} - \frac{1}{12} \right) \simeq 36.17 $

Por lo tanto, el área de la superficie de revolución generada al girar la gráfica de $f(x) = \sqrt{x}$ sobre el eje $x$ es $36.17$.

Coordenadas polares. Área

Coordenadas polares

Las coordenadas polares son un sistema de coordenadas bidimensional en el que cada punto se determina por una distancia y un ángulo (generalmente medido en radianes).

Para definir un sistema de coordenadas polares elegimos un punto en el plano que llamaremos “polo”, denotado como $O$, y una semirrecta que inicia en el punto $O$ que llamaremos “eje polar”. Por lo general el eje polar se traza horizontalmente a la derecha del polo y corresponde al eje $x$ positivo del sistema cartesiano.

Coordenadas polares.

Cada punto $P$ se localiza mediante un par de coordenadas $(r,\theta)$, donde $r$ es la distancia que hay de $O$ a $P$ y $\theta$ es el ángulo que hay entre el eje polar y la recta $OP$. Entonces decimos que el par ordenado $(r,\theta)$ es una coordenada polar de $P$.

Por convención el ángulo es positivo cuando se mide en sentido contrario a las manecillas del reloj y negativo cuando se mide en el sentido de las manecillas del reloj. Hay que notar que en el sistema de coordenadas cartesianas cada punto sólo tiene una representación, mientras que en coordenadas polares cada punto tiene varias representaciones. Por ejemplo, el punto con coordenadas polares $(5,\pi)$, también se puede escribir como $(5, 3\pi)$, ya que tanto $\pi$ como $3\pi$ representan $180°$.

Relación entre coordenadas cartesianas y coordenadas polares

La relación entre las coordenadas polares y las coordenadas cartesianas las podemos ver en la y la , donde el polo corresponde al origen del sistema cartesiano y el eje polar corresponde al eje $x$ positivo del sistema cartesiano, por lo tanto, si el punto $P$ tiene coordenadas polares $(r,\theta)$, tenemos

$cos(\theta) = \frac{x}{r} \hspace7ex sen(\theta) = \frac{y}{r}$

De modo que

$x = r cos(\theta) \hspace7ex y = r sen(\theta)$

Por ejemplo, si el punto $P$ tiene coordenadas polares $(3,\frac{5 \pi}{3})$, entonces sus coordenadas cartesianas son $(3 \space cos(\frac{5 \pi}{3}),3 \space sen(\frac{5 \pi}{3})) = (1.5,-2.6)$.

En el caso de que conozcamos las coordenadas cartesianas y queramos convertirlas a coordenadas polares utilizamos las siguientes igualdades:

$r^{2} = x^{2} + y^{2} \hspace7ex tan(\theta) = \frac{y}{x}$

Donde $r$ es obtenido utilizando el Teorema de Pitágoras, entonces $r = \sqrt{x^{2} + y^{2}}$. Como medimos los ángulos en radianes, el valor de $\theta$ se encuentra en el intervalo $(0,2\pi]$, por lo tanto podemos utilizar la inversa de la función tangente para calcularla.

Las siguientes fórmulas muestran como calcular el valor de $\theta$ dados los posibles escenarios de los valores que tomen las coordenadas cartesianas.

$\theta = \begin{dcases} arctan\left(\frac{y}{x}\right) &\text{si } x > 0 , y \geq 0 \\ \frac{\pi}{2} &\text{si } x = 0 , y > 0 \\ arctan\left(\frac{y}{x}\right) + \pi &\text{si } x < 0 \\ \frac{3\pi}{2} &\text{si } x=0 , y < 0 \\ arctan\left(\frac{y}{x}\right) + 2\pi &\text{si } x> 0 , y < 0 \end{dcases}$

En la podemos ver como convertir de coordenadas polares a cartesianas y viceversa. Notemos que las fórmulas anteriores devuelven el valor de $\theta$ en radianes, por lo que si queremos obtener $\theta$ en grados hacemos la conversión correspondiente.

Mueve el punto $P$ y observa la conversión de sus coordenadas.

Curvas polares

La gráfica de una ecuación polar $r = f(\theta)$, consiste en todos los puntos $P$ que tiene al menos una representación polar $(r,\theta)$, cuyas coordenadas satisfacen la ecuación polar.

La forma en la que podemos graficar la curva de una ecuación polar $r = f(\theta)$ es elaborando una tabla de valores $(r,\theta)$, graficar los puntos correspondientes y conectarlos en orden creciente de $\theta$. Hay que tomar en cuenta que esto puede funcionar bien solo si hay suficientes puntos para revelar todos los lazos de la gráfica.

Por ejemplo, si queremos graficar la ecuación polar $f(\theta) = 1 + cos(\theta)$, con $0 \leq \theta \leq 2 \pi$ haríamos una tabla como la siguiente:

$$ \begin{array}{c|c} \theta & f(\theta) = 1 + cos(\theta) \\ \hline 0 & 2 \\ \frac{\pi}{3} & 1.5 \\ \frac{2\pi}{3} & 0.5 \\ \pi & 0 \\ \frac{4\pi}{3} & 0.5 \\ \frac{5\pi}{3} & 1.5 \\ 2 \pi & 2 \\ \end {array} $$

En el primer ejemplo de la podemos ver la gráfica de esta ecuación polar.

Gráficas de ecuaciones polares

Esta ecuación polar es conocida como cardioide ya que al graficar los puntos y unirlos se asemeja al dibujo de un corazón.

Área en coordenadas polares

Sea $C$ una curva polar dada por la función $r=f(\theta)$, la región $A=\{(r,\theta): a \leq \theta \leq b, 0 \leq r \leq f(\theta) \}$ cuya área queremos calcular, es la región sombreada que se observa en la .

Como hemos estado haciendo a lo largo de este capítulo, empezaremos calculando aproximaciones del área para después obtener la fórmula del área por medio de una integral.

Observa los segmentos formados por la curva $f(\theta) = sen(2 \theta)$, en $0 \leq \theta \leq \frac{\pi}{2}$

Primero dividimos el intervalo $[a,b]$ en $n$ sectores circulares en forma de abanico, para eso tomamos una partición regular $p = [\theta_{1}, \theta_{2},...,\theta_{i}]$, de tal forma que cada subintervalo $S_{i}$ va de $\theta_{i-1}$ a $\theta_{i}$, como vemos en la , adicionalmente para cada subintervalo elegimos un punto arbitrario que llamaremos $\theta_{i}^{*}$. Entonces el área de $f(\theta)$, que va de $a \leq \theta \leq \ b$ la podemos aproximar sumando el área de cada subintervalo, es decir

A = $area(S_{1}) + area(S_{2}) +...+ area(S_{n})$

Donde $S_{i}$ es el sector circular de radio $r(\theta_{i}^{*})$ y ángulo $\theta_{i} - \theta_{i-1}$, el cual denotaremos como $\varDelta \theta_{i}$.

Ahora para calcular el área de los $S_{i}$ consideremos un círculo de radio $r$, que como sabemos su área es $\pi r^{2}$. Podemos pensar que el área de los $S_{i}$ es igual al área de un sector del círculo completo, cuyo ángulo es igual a $\varDelta \theta_{i}$ radianes. Entonces si tomamos en cuenta que una vuelta completa de un círculo es igual a $2\pi$ radianes, el área del sector del círculo con ángulo $\varDelta \theta_{i}$ es igual a

$\pi r^{2} \cdot \frac{\varDelta \theta_{i}}{2\pi} = \frac{1}{2} r^{2} \varDelta \theta_{i} = \frac{1}{2} (f(\theta_{i}))^{2} \varDelta \theta_{i}$

Por lo tanto sumando el área de cada uno de los subintervalos el área total es aproximadamente

$A \simeq \displaystyle\sum_{i=1}^n \frac{1}{2} (f(\theta_{i}))^{2} \varDelta \theta_{i}$

Si $f(\theta)$ es continua, la aproximación mejora mientras la partición nos genere subintervalos más pequeños, es decir cuando $n \rightarrow \infty$, por lo tanto podemos definir el área de la región acotada por $f(\theta)$ en el intervalo $[a,b]$ como una integral.

$A = \lim\limits_{n \rightarrow \infty} \displaystyle\sum_{i=1}^n \frac{1}{2} (f(\theta_{i}))^{2} \varDelta \theta_{i} = \displaystyle\int_{b}^{a} \frac{1}{2} (f(\theta))^{2} \space d\theta$

Sea $r = f(\theta)$ la ecuación de una curva en coordenadas polares, tal que $f(\theta)$ es continua, en el intervalo cerrado $[a,b]$. Se define el área de la región delimitada por la curva y las semirrectas de ecuaciones $\theta = a$ y $\theta = b$ como

$\displaystyle\int_{b}^{a} \frac{1}{2} (f(\theta))^{2} \space d\theta$

y

Ejemplo: Encontrar el área de la región en el plano, acotado por $f(\theta) = sen(2\theta)$, en el intervalo $[0,\frac{\pi}{2}]$.

La gráfica de $f(\theta)$ sobre el intervalo $[0,\frac{\pi}{2}]$ la podemos generar en la , de esta manera el área de la función es:

$\displaystyle\int_{0}^{\frac{\pi}{2}} \frac{1}{2} (sen(2\theta))^{2} \space d\theta = \frac{1}{2} \displaystyle\int_{0}^{\frac{\pi}{2}} (sen^{2}(2\theta)) \space d\theta $

Usando la identidad $cos^{2}(u) + sen^{2}(u) = 1$

$= \frac{1}{2} \displaystyle\int_{0}^{\frac{\pi}{2}} (1-cos^{2}(2\theta)) \space d\theta = \frac{1}{2} \left[ \displaystyle\int_{0}^{\frac{\pi}{2}} 1 \space d\theta - \displaystyle\int_{0}^{\frac{\pi}{2}} cos^{2}(2\theta) \space d\theta \right] $

Usando la identidad $cos^{2}(u) = \frac{1}{2} + \frac{1}{2} cos(2u)$

$=\frac{1}{2} \left[ \displaystyle\int_{0}^{\frac{\pi}{2}} 1 \space d\theta - \displaystyle\int_{0}^{\frac{\pi}{2}} \left(\frac{1}{2} + \frac{1}{2}cos(4\theta)\right) \space d\theta \right] $

$= \frac{1}{2} \left[ \displaystyle\int_{0}^{\frac{\pi}{2}} 1 \space d\theta - \displaystyle\int_{0}^{\frac{\pi}{2}} \frac{1}{2} \space d\theta - \displaystyle\int_{0}^{\frac{\pi}{2}} \frac{1}{2}cos(4\theta) \space d\theta \right] $

$= \frac{1}{2} \left[\displaystyle\int_{0}^{\frac{\pi}{2}} \frac{1}{2} \space d\theta - \frac{1}{2} \displaystyle\int_{0}^{\frac{\pi}{2}} cos(4\theta) \space d\theta \right] $

Hacemos el cambio de variable $u = 4x$ y $\frac{du}{d\theta} = 4 \rightarrow d\theta = \frac{1}{4}$

$= \frac{1}{2} \left[ \displaystyle\int_{0}^{\frac{\pi}{2}} \frac{1}{2} d\theta - \frac{1}{2} \displaystyle\int_{0}^{2\pi} \frac{1}{4} cos(u) \space du\right] = \frac{1}{2} \left[ [\frac{1}{2}x]_{0}^{\frac{\pi}{2}} - \frac{1}{8} [sen(u)]_{0}^{2\pi} \right]$

$= \frac{1}{2} \left[ \frac{1}{2}[\frac{\pi}{2} - 0] - \frac{1}{8}[0 - 0] \right] = \frac{1}{2} \left[ \frac{\pi}{4} \right] = \frac{\pi}{8}$

Por lo tanto el área de la región acotada por$f(\theta) = sen(2\theta)$, en el intervalo $[0,\frac{\pi}{2}]$ es $\frac{\pi}{8}$.

Capítulo III

Curvas

Trayectoria y velocidad.

Trayectoria

Supongamos que una partícula se mueve en el espacio en un intervalo de tiempo $I$. Podemos pensar que las coordenadas de la partícula están descritas como las funciones definidas en $I$:

$x = x(t) \hspace5ex y = y(t) \hspace5ex z= z(t) \hspace5ex t \in I$

Los puntos $(x,y,z) = (x(t),y(t),z(t)), t \in I$, forman una curva en el espacio, que llamaremos la trayectoria de la partícula y las ecuaciones $x(t)$, $y(t)$, $z(t)$ parametrizan la curva. Una curva en el espacio también puede representarse en forma vectorial. Por ejemplo, el vector en coordenadas cartesianas y en tres dimensiones

$\overrightarrow{r(t)} = x(t)\overrightarrow{i} + y(t)\overrightarrow{j} + z(t)\overrightarrow{k}$

que va del origen a la posición de la partícula $(x(t), y(t), z(t))$ en el instante $t$ es llamado vector de posición de la partícula, donde las funciones $x(t), y(t), z(t)$ son las funciones componentes del

vector posición y $\overrightarrow{i},\overrightarrow{j},\overrightarrow{k}$ son los vectores unitarios de los ejes.

En el caso de que se esté trabajando en dos dimensiones la fórmula se simplifica como

$\overrightarrow{r(t)} = x(t)\overrightarrow{i} + y(t)\overrightarrow{j}$

En la podemos observar la trayectoria de una partícula a lo largo del tiempo $t$, dadas las funciones componentes del vector de posición $\overrightarrow{r(t)}$ .

Introduce las funciones componentes del vector de posición y observa la trayectoria de una partícula en el instante de tiempo $t$.

Velocidad

El concepto de velocidad está asociado al cambio de posición de una partícula a lo largo del tiempo. A Continuación analizaremos la velocidad y aceleración utilizando diferenciación.

Supongamos que $\overrightarrow{r}(t) = x(t)\overrightarrow{i} + y(t)\overrightarrow{j} + z(t)\overrightarrow{k}$ es el vector de posición de una partícula que se mueve a lo largo de una curva, y que $x(t),y(t),z(t)$ son funciones diferenciables de $t$. Podríamos pensar que la velocidad de la partícula es igual a la distancia total recorrida entre el tiempo que le tomó realizar el recorrido, sin embargo esto no es más que la velocidad promedio ya que es posible que la partícula en algún momento haya ido más rápido y en otro momento más lento.

Entonces para tener una idea más precisa de cómo fue el movimiento podríamos dividir la trayectoria de la partícula en etapas y ver el tiempo que le tomó a la partícula recorrer esa etapa. Si denotamos con $\varDelta r$ al cambio de posición y con $\varDelta t$ el tiempo empleado para realizar este cambio tenemos lo siguiente:

$\varDelta r = \overrightarrow{r}(t + \varDelta t) - \overrightarrow{r}(t)$

Que en términos de sus componentes es igual a

$\varDelta r = \overrightarrow{r}(t + \varDelta t) - \overrightarrow{r}(t)$

$ = [x(t + \varDelta t )\overrightarrow{i} + y(t + \varDelta t )\overrightarrow{j} + z(t + \varDelta t ) \overrightarrow{k}] - [ x(t)\overrightarrow{i} + y(t)\overrightarrow{j} + z(t)\overrightarrow{k}]$

$= [x(t + \varDelta t) - x(t))]\overrightarrow{i} + [y(t + \varDelta t) - y(t))]\overrightarrow{j} + [z(t + \varDelta t) - z(t))]\overrightarrow{k}$

Claramente mientras más pequeño sea el intervalo de tiempo en el que dividimos la etapas mayor será la precisión, por lo tanto podemos decir que la velocidad instantánea es el límite cuando $t$ tiende a cero del cociente entre la trayectoria de $\varDelta r$ y el tiempo empleado, es decir

$\lim\limits_{\varDelta t \rightarrow 0} \frac{\varDelta r}{\varDelta t} = [\lim\limits_{\varDelta t\rightarrow 0} \frac{x(t + \varDelta t) - x(t)}{\varDelta t}] \overrightarrow{i} + [\lim\limits_{\varDelta t \rightarrow 0} \frac{y(t + \varDelta t) - y(t)}{\varDelta t}] \overrightarrow{j} + [\lim\limits_{\varDelta t \rightarrow 0} \frac{z(t + \varDelta t) - z(t)}{\varDelta t}] \overrightarrow{k}$

$= [\frac{dx}{dt} ]\overrightarrow{i} + [\frac{dy}{dt}]\overrightarrow{j}+ [\frac{dz}{dt}] \overrightarrow{k}$

Con lo que obtenemos la siguiente definición

La función vectorial $\overrightarrow{r}(t) = x(t)\overrightarrow{i} + y(t)\overrightarrow{j} + z(t)\overrightarrow{k}$ tiene una derivada en $t$ si $x, y, z$ tienen derivadas en $t$. Por lo tanto, la derivada es la función vectorial

$\overrightarrow{r}(t)' = \frac{d\overrightarrow{r}}{dt} = \lim\limits_{\varDelta t \rightarrow 0} \frac{\overrightarrow{r}(t + \varDelta t) - \overrightarrow{r}(t)}{\varDelta t} = \frac{dx}{dt}\overrightarrow{i} + \frac{dy}{dt} \overrightarrow{j} + \frac{dz}{dt} \overrightarrow{j}$

Observe en la que para valores pequeños de $\varDelta t$ el vector

$\frac{\overrightarrow{r}(t + \varDelta t) - \overrightarrow{r}(t)}{\varDelta t} \quad(\text{1})$

aproxima la dirección de la partícula que se mueve a lo largo de la curva $\overrightarrow{r}(t)$ (tiende a un vector tangente a la curva en $\overrightarrow{r}(t)$). Su magnitud mide el tamaño del vector $\varDelta r$, por lo tanto el vector (1) nos da la velocidad promedio durante el intervalo de tiempo de longitud $\varDelta t$, y su límite es el vector de velocidad $v(t)$ en el tiempo $t$, ya que para un $\varDelta t$ infinitamente pequeño podemos calcular la velocidad instantánea de la partícula. Por lo tanto

$\overrightarrow{v}(t) = \lim\limits_{\varDelta t \rightarrow 0} = \frac{\overrightarrow{r}(t + \varDelta t) - \overrightarrow{r}(t)}{\varDelta t}$

Que por la , es justamente la derivada de $\overrightarrow{r}(t)$.

Observa como el vector $\frac{\overrightarrow{r}(t + \varDelta t) - \overrightarrow{r}(t)}{\varDelta t} $ aproxima la dirección de la partícula mientras más pequeño sea el valor de la diferencia $\varDelta t$, formando asi un vector tangente a la curva en $\overrightarrow{r}(t)$.

Si $\overrightarrow{r}$ es el vector de posición de una partícula que se mueve a lo largo de una curva suave en el espacio, entonces

$\overrightarrow{v}(t) = \frac{d\overrightarrow{r}}{dt} = \overrightarrow{r}(t)'$

es el vector de velocidad de la partícula, tangente a la curva. En cualquier instante $t$, la dirección de $v$ es la dirección del movimiento, la magnitud de $v$ es la rapidez de la partícula y la derivada $a = \frac{d\overrightarrow{v}}{dt}$, cuando existe, es el vector de aceleración de la partícula. En resumen

La velocidad es la derivada de la posición:

$v = \frac{d\overrightarrow{r}}{dt}$

La rapidez es la magnitud de la velocidad:

Rapidez $= ||v||$

El vector unitario $\frac{v}{||v||}$ es la dirección del movimiento en el instante $t$

Ejemplo: Una persona en una motocicleta se mueve en una trayectoria con un vector de posición $\overrightarrow{r}(t) = 3t^2 \overrightarrow{i} + 2t + 3 \overrightarrow{j}$, para $0 \leq t \leq 3$. Determine

El vector de velocidad de la motocicleta

Tenemos que el vector de posición de la motocicleta es

$\overrightarrow{r}(t) = 3t^2 \overrightarrow{i} + 2t + 3 \overrightarrow{j}$

Para calcular el vector de velocidad, calculamos su derivada, es decir

$\overrightarrow{v}(t) = \overrightarrow{r}'(t) = \frac{d\overrightarrow{r}}{dt} = 6t \overrightarrow{i} + 2 \overrightarrow{j}$

La velocidad instantánea de la motocicleta en el instante $t = 3$

Para calcular la velocidad instantánea cuando $t = 3$ sustituimos el valor de $t$ en los componentes del vector de velocidad, es decir

$\overrightarrow{v}(3) = 6(3) \overrightarrow{i} + 2 \overrightarrow{j} = 18 \overrightarrow{i} + 2 \overrightarrow{j} \space m/s$

La rapidez instantánea de la motocicleta en el instante $t = 3$

Ahora calcularemos la rapidez que tiene la motocicleta en el instante $t = 3$, para eso calculamos la norma del vector de velocidad en el instante $t = 3$ (el inciso anterior), es decir

$||\overrightarrow{v}(3)|| = \sqrt{18^2 + 2^2} = \sqrt{328} \simeq 18.11 m/s$

En el ejemplo anterior hemos calculado la rapidez instantánea de la motocicleta cuando $t = 3$ utilizando el vector de velocidad, esto es posible gracias a que estamos calculando la derivada de $\overrightarrow{r}(t)$, es decir considerando un cambio de posición en un intervalo de tiempo infinitamente pequeño de tal forma que la rapidez en ese ínfimo intervalo de tiempo es constante.

Sin embargo es posible que solo queramos obtener la rapidez promedio de la motocicleta en el intervalo de tiempo que va de $t_{1}$ a $t_{2}$. En este caso no calculamos el vector de velocidad como la derivada de $\overrightarrow{r}(t)$, sino que lo calculamos como el promedio entre la trayectoria recorrida y el tiempo total utilizado para realizar el desplazamiento, es decir

Velocidad promedio = $\frac{\overrightarrow{r}(t_{2}) - \overrightarrow{r}(t_{1})}{t_{2}-t_{1}}$

Ahora calculemos la velocidad y rapidez promedio de la motocicleta del ejemplo anterior, cuando $t_{1} = 0$ y $t_{2} = 3$. Aplicando la fórmula de la velocidad promedio tenemos que

$\overrightarrow{v}_{prom} = \frac{\overrightarrow{r}(3) - \overrightarrow{r}(0)}{3-0} = \frac{3(3)^2 \overrightarrow{i} + 2(3) + 3 \overrightarrow{j} - 3(0)^{2} \overrightarrow{i} + 2(0) + 3 \overrightarrow{j}}{3}$

$= \frac{3(9) \overrightarrow{i} + 6 + 3 \overrightarrow{j} - 3(0) \overrightarrow{i} + 0 + 3 \overrightarrow{j}}{3} = \frac{27 \overrightarrow{i} + 6 \overrightarrow{j}}{3}$

$= 9 \overrightarrow{i} + 2 \overrightarrow{j} \space m/s$

Para calcular la rapidez promedio calculamos la norma del vector de velocidad promedio, es decir

$||\overrightarrow{v}_{prom}|| = \sqrt{9^{2} + 2^{2}} = \sqrt{81 + 4} = \sqrt{85} \simeq 9.2 m/s$

En la podemos observar la comparación entre la rapidez promedio y la rapidez instantánea del ejemplo anterior.

Observa la diferencia entre la rapidez instantánea y la rapidez promedio

Longitud de arco

En esta sección se usarán las integrales definidas para explicar cómo se calcula la longitud de arco de una curva tanto en coordenadas cartesianas como en coordenadas polares.

Longitud de arco en coordenadas cartesianas

La longitud de arco, también llamada rectificación de una curva, es la medida de la distancia recorrida a lo largo de una curva suave y rectificable.

Sea $C$ un arco de curva, determinada por una función $f(x)$ en el intervalo $[a,b]$. Si la primera derivada de $f(x)$ es continua en $(a,b)$ decimos que $C$ es una curva suave.

Sea $C$ un arco de curva, determinada por una función $f(x)$. Decimos que $C$ es rectificable si es continuamente derivable en el intervalo $[a,b]$ y su gráfica en el intervalo $[a,b]$ es una curva suave.

Supongamos que tenemos una curva $C$ rectificable cualquiera determinada por una función $f(x)$ que va del punto $a$ al punto $b$, y que queremos aproximar su longitud de arco. Pensando en esto podemos diseñar una aproximación a partir de una serie de triángulos rectángulos cuyas hipotenusas concatenadas cubran el arco de la curva. Para esto tomamos una partición regular $p = [x_{0},x_{1},...,x_{n}]$ en el intervalo $[a,b]$, tal que para $i = 1,2,...,n$ construimos un segmento de recta $s_{i}$ que va del punto $(x_{i-1},f(x_{i-1}))$ al punto $(x_{i},f(x_{i}))$.

Los segmento $s_{i}$ los podemos ver como la hipotenusa de los triángulos rectángulos donde el cateto opuesto es igual al segmento que va de $(x_{i},f(x_{i}))$ a $(x_{i},f(x_{i-1}))$ y el cateto adyacente es el segmento que va de $(x_{i-1},f(x_{i-1}))$ a $(x_{i},f(x_{i-1}))$ como podemos ver en la .

Observa los triángulos formados al tomar una partición regular de la curva $sen(x) + 2$

Entonces, si calculamos la longitud de cada $s_{i}$ (la hipotenusa de cada uno de los triángulos) y las sumamos, obtenemos una aproximación de la longitud del arco. Ahora, si denotamos a la longitud de cada $s_{i}$ como $\varDelta s_{i}$, a la longitud del cateto opuesto como $\varDelta y_{i}$ y a la longitud del cateto adyacente como $\varDelta x_{i}$ podemos utilizar el Teorema de Pitágoras para calcular la longitud de cada $s_{i}$ de la siguiente manera

$\varDelta s_{i}^{2} = \varDelta x_{i}^{2} + \varDelta y_{i}^{2}$

$\Rightarrow \varDelta s_{i} = \sqrt{\varDelta x_{i}^{2} + \varDelta_{i}^{2}} $

Por lo que la aproximación de la longitud del arco es

$L = \displaystyle\sum_{i=1}^n \sqrt{\varDelta x_{i}^{2} + \varDelta y_{i}^{2}}$

$= \displaystyle\sum_{i=1}^n \sqrt{\varDelta x_{i}^{2} + \left(\frac{\varDelta y_{i}}{\varDelta x_{i}}\right)^{2} \varDelta x_{i}^{2}} $

$= \displaystyle\sum_{i=1}^n \sqrt{1 + \left(\frac{\varDelta y_{i}}{\varDelta x_{i}}\right)^{2}} \cdot \varDelta x_{i}$

Esta aproximación mejora cuando el número de segmento $s_{i}$ generados por la partición regular $p = [x_{0},x_{1},...,x_{n}]$ tiende a infinito, ya que los segmentos $s_{i}$ son cada vez más pequeños haciendo que se apeguen mejor al arco de la curva. Entonces al aplicar el límite cuando el número de segmentos $s_{i}$ tiende a infinito obtenemos lo siguiente.

$L = \lim\limits_{n \rightarrow \infty} \displaystyle\sum_{i=1}^n \sqrt{1 + \left(\frac{\varDelta y_{i}}{\varDelta x_{i}}\right)^{2}} \varDelta x_{i}$

Como $f'(x)$ existe para todo $x$ en $(x_{i-1},x_{i})$, entonces por el teorema del valor medio () sabemos que existe un $x_{i}^{*}$ en $(x_{i-1},x_{i})$ tal que

$f'(x_{i}^{*}) = \frac{f(x_{i}) - f(x_{i-1})}{x_{i} - x_{i-1}} = \frac{\varDelta y_{i}}{\varDelta x_{i}}$

Por lo tanto

$L = \lim\limits_{n \rightarrow \infty} \displaystyle\sum_{i=1}^n \sqrt{1 + [f'(x_{i}^{*})]^{2} } \varDelta x_{i}$

Y que por la definición de la integral definida esto no es más que:

$\displaystyle\int_{a}^{b} \sqrt{1 + [f'(x)]^{2}} dx$

Integral definida: Dada $f(x)$ una función continua en el intervalo $[a,b]$, si dividimos el intervalo $[a,b]$ en $n$ subintervalos del mismo ancho $\varDelta x$, y para cada subintervalo seleccionamos un punto $x_{i}^{*}$. Entonces la integral definida de $f(x)$ que va de $a$ a $b$ es

$\displaystyle\int_{a}^{b} f(x) dx = \lim\limits_{n \rightarrow \infty} \displaystyle\sum_{i=1}^n f'(x_{i}^{*}) \varDelta x $

En la podemos ver como la aproximación mejora mientras más segmentos tomemos para aproximar la longitud de arco.

Observa cómo al utilizar más segmentos obtenemos una mejor aproximación de la longitud de arco de una función $f(x)$.

Sea la función dada por $y = f(x)$ que representa una curva suave en el intervalo $[a,b]$. La longitud de arco de $f(x)$ entre $a$ y $b$ es

$L = \displaystyle\int_{a}^{b} \sqrt{1 + [f'(x)]^{2}} dx$

Similarmente, para una curva suave dada por $x = f(y)$ que representa una curva suave en el intervalo $[a,b]$. La longitud de arco de $f(y)$ entre $c$ y $d$ es

$L = \displaystyle\int_{c}^{d} \sqrt{1 + [f'(y)]^{2}} dy$

Ejemplo: Determine la longitud de arco de la curva determinada por $f(x) = x^{\frac{3}{2}}$ en el intervalo $[1,3]$

La curva que representa la función $f(x)$ la podemos ver en la . Ahora, utilizando la definición de la longitud de arco resolvemos la siguiente integral

$ \displaystyle\int_{1}^{3} \sqrt{1 + [(x^{\frac{3}{2}})']^{2}} dx$

Donde $(x^{\frac{3}{2}})' = \frac{3}{2} x^{\frac{1}{2}}$, entonces

$ \displaystyle\int_{1}^{3} \sqrt{1 + [\frac{3}{2} x^{\frac{1}{2}}]^{2}} dx = \displaystyle\int_{1}^{3} \sqrt{1 + \frac{9}{4}x} dx$

Haciendo el cambio de variable $u = 1 + \frac{9}{4}x $ y $\frac{du}{dt} = \frac{9}{4} \rightarrow dx = \frac{4}{9} \space du$

$ = \displaystyle\int_{\frac{13}{4}}^{\frac{31}{4}} \frac{4}{9} \sqrt{u} \space du = \displaystyle\int_{\frac{13}{4}}^{\frac{31}{4}} \frac{4}{9} u^{\frac{1}{2}} \space du = \frac{4}{9} \left[\frac{u^{\frac{3}{2}}}{\frac{3}{2}} \right]_{\frac{13}{4}}^{\frac{31}{4}} $

$ = \frac{4}{9} \left[\frac{2u^{\frac{3}{2}}}{3} \right]_{\frac{13}{4}}^{\frac{31}{4}} \simeq \frac{4}{9} \cdot [(14.38 - 3.90)] \simeq \frac{4}{9} \cdot [10.48] \simeq 4.66$

Entonces la longitud de arco de la curva determinada por $f(x) = x^{\frac{3}{2}}$ en el intervalo $[1,3]$ es aproximadamente $4.66$.

Longitud de arco de una curva parametrizada

Ahora veremos como calcular la longitud de arco en curvas parametrizadas. Al igual que en coordenadas cartesianas primero haremos una aproximación utilizando segmentos de recta y después utilizaremos integrales para obtener la fórmula de la longitud de arco.

Sea $C$ una curva dada en forma paramétrica por medio de las ecuaciones

$x = f(t) \hspace5ex y = g(t), \hspace7ex a \leq t \leq b$

Si suponemos que $f(t)$ y $g(t)$ son funciones con derivadas continuas en el intervalo $[a,b]$, cuyo valor no es igual a cero simultáneamente, decimos que tales funciones son continuamente diferenciables y la curva $C$ definida por ellas se denomina curva suave.

Entonces para definir la fórmula de la longitud podemos imaginar que la curva $C$ es la trayectoria de una partícula que se mueve del punto $A = (f(a), g(a))$ en el instante $t = a$, al punto $B = (f(b), g(b))$ en el instante $t = b$. Ahora dividimos la curva en $n$ partes en los puntos $A = P_{0},P_{1},...,P_{n} = B$. Estos puntos corresponden a una partición regular $p = [t_{0},t_{1},...,t_{n}]$ en el intervalo $[a,b]$, donde $P_{i} = (f(t_{i}),g(t_{i}))$. Entonces para $i = 1,2,...,n$ construimos un segmento de recta $s_{i}$ que va del punto $P_{i-1}$ al punto $P_{i}$ como se ve en la .

Si pensamos en estos segmentos como la hipotenusa de un triángulo rectángulo podemos utilizar el Teorema de Pitágoras para calcular su longitud como sigue

$L_{i} = \sqrt{(\varDelta x_{i})^{2} + (\varDelta y_{i})^{2}}$

Observa los triángulos formados al tomar una partición regular de la curva parametrizada $x = t^2 , y = 3sen(t)$

Donde $\varDelta x_{i} = f(t_{i})- f(t_{i-1})$ y $\varDelta y_{i} = g(t_{i}) - g(t_{i-1}) $. Notemos que mientras más pequeña sea la longitud $L_{i}$ el segmento de recta se apega mejor a la curva.

De acuerdo con el teorema del valor intermedio () existen números $t_{i}^{*}, t_{i}^{**}$ en $[t_{i-1},t_{i}]$, tales que

$\varDelta x_{i} = f'(t_{i}^{*}) \varDelta t_{i}$

$\varDelta y_{i} = g'(t_{i}^{**}) \varDelta t_{i}$

Suponiendo que la trayectoria de $A$ a $B$ se recorre exactamente una vez cuando $t$ aumenta de $t = a$ a $t = b$, entonces la longitud de arco de la curva $C$ es igual a la suma de todos los segmentos, entonces

Longitud de arco $\simeq \displaystyle\sum_{i=1}^n \sqrt{(\varDelta x_{i})^{2} + (\varDelta y_{i})^{2}} = \displaystyle\sum_{i=1}^n \sqrt{([f'(t_{i}^{*}) ]^{2} + [g'(t_{i}^{**}) ]^{2}} \varDelta t_{i}$

Esta aproximación mejora mientras más particiones tengamos, es decir mientras más grande sea el valor de $n$. Entonces si a la suma de los segmentos $s_{i}$ le aplicamos el límite cuando $n \rightarrow \infty$ podemos definir la longitud de arco de la curva como la siguiente integral

Longitud de arco $ = \displaystyle\int_{a}^{b} \sqrt{([f'(t) ]^{2} + [g'(t) ]^{2}} \space dt $

Si una curva $C$, está definida en forma paramétrica por $x = f(t)$ y $y = g(t)$, $a \leq t \leq b$, donde $f'$ y $g'$ son continuas y no simultáneamente iguales a cero en $[a,b]$, y $C$ se recorre una sola vez cuando aumenta el valor de $t$, entonces la longitud de arco de $C$ es la integral definida

$L = \displaystyle\int_{a}^{b} \sqrt{([f'(t) ]^{2} + [g'(t) ]^{2}} \space dt$

En la podemos ver como la aproximación mejora mientras más segmentos nos tomemos para aproximar la longitud de arco de una curva parametrizada.

Observa cómo al utilizar más segmentos obtenemos una mejor aproximación de la longitud de arco de una curva parametrizada.

Una curva suave $C$ no pasa dos veces por el mismo lugar ni invierte dirección del movimiento en el intervalo $[a,b]$, ya que $(f')^{2} + (g')^{2} > 0$ en todo el intervalo. Entonces si $x = f(t)$ y $y = g(t)$ y utilizamos la notación de Leibniz obtenemos la siguiente fórmula equivalente

L $= \displaystyle\int_{a}^{b} \sqrt{ \left(\frac{dx}{dt}\right)^{2} + \left(\frac{dy}{dt}\right)^{2}} \space dt$

Ejemplo: Determine la longitud de arco de la curva parametrizada por $x = 1+3t^{2}$ y $y = 4+2t^{3}$, cuando $0 \leq t \leq 1$

La gráfica de la curva parametrizada la podemos generar en la . Entonces utilizando la resolvemos la siguiente integral

$L = \displaystyle\int_{0}^{1} \sqrt{([(1+3t^{2})']^{2} + [(4+2t^{3})']^{2}} \space dt$

Donde $(1+3t^{2})' = 6t$ y $(4+2t^{3})' = 6t^{2}$, entonces

$L = \displaystyle\int_{0}^{1} \sqrt{[6t]^{2} + [6t^{2}]^{2}} \space dt = \displaystyle\int_{0}^{1} \sqrt{ 36t^{2} + 36t^{4}} \space dt$

$ = \displaystyle\int_{0}^{1} \sqrt{ 36t^{2}(1 + t^{2})} \space dt = \displaystyle\int_{0}^{1} 6t \sqrt{ 1 + t^{2} } \space dt$

Haciendo el cambio de variable $u = 1+t^{2}$ y $\frac{du}{dt} = 2t \rightarrow dt = \frac{1}{2t}du$

$= \displaystyle\int_{1}^{2} \frac{6t}{2t} \sqrt{u } \space du = 3 \cdot \displaystyle\int_{1}^{2} \sqrt{u } \space du = 3 \cdot \displaystyle\int_{1}^{2} u^{\frac{1}{2}} \space du $

$ =[\frac{3u^{\frac{3}{2}}}{\frac{3}{2}}]_{1}^{2} = [2u^{\frac{3}{2}}]_{1}^{2} = 2[2.8 - 1] \simeq 3.6$

Por lo tanto la longitud de la curva parametrizada por $x = 1+3t^{2}$ y $y = 4+2t^{3}$, cuando $0 \leq t \leq 1$ es aproximadamente $3.6$

Longitud de arco de una curva polar

Ahora veremos como calcular la longitud de arco en curvas polares. Como ya vimos en la sección 2.3 podemos parametrizar las curvas polares, es por eso que podemos deducir la fórmula de la longitud de arco de una curva polar utilizando la definición de longitud de arco para curvas paramétricas como veremos a continuación.

En la podemos ver cómo aproximar las curvas polares por medio de segmentos de recta para después obtener la fórmula de la longitud de arco utilizando integrales como hemos venido haciendo a lo largo de esta sección.

Observa los segmentos formados por los puntos $(f(t_{i-1}),g(t_{i-1})), (f(t_{i}),g(t_{i}))$ de una curva polar parametrizada

Como vimos anteriormente podemos parametrizar las curvas polares $r = f(\theta)$, $a \leq \theta \leq b$ con

$x = rcos(\theta) = f(\theta) cos(\theta) \hspace5ex y = rsen(\theta) = f(\theta) sen(\theta)$

Entonces, si utilizamos la fórmula en notación de Leibniz para calcular la longitud de arco de una curva parametrizada obtenemos lo siguiente

L $= \displaystyle\int_{b}^{a} \sqrt{\left(\frac{dx}{d\theta}\right)^{2} + \left(\frac{dy}{d\theta}\right)^{2}} \space d\theta $

Donde

$\frac{dx}{d\theta} = r'cos(\theta) - rsen(\theta)$

$\frac{dy}{d\theta} = r' sen(\theta) + rcos(\theta)$

Por lo que

$(\frac{dx}{d\theta})^{2} = (r')^{2} cos^{2}(\theta) + r^{2}sen^{2}(\theta) - 2rr'sen(\theta)cos(\theta)$

$(\frac{dy}{d\theta})^{2} = (r')^{2} sen^{2}(\theta) + r^{2}cos^{2}(\theta) - 2rr'sen(\theta)cos(\theta)$

Sumando los cuadrados obtenemos

$(\frac{dx}{d\theta})^{2} + (\frac{dy}{d\theta})^{2} = r^{2} + (\frac{d\overrightarrow{r}}{d\theta})^{2}$

Finalmente la longitud de arco de una curva polar es

L $= \displaystyle\int_{b}^{a} \sqrt{r^{2} + \left(\frac{d\overrightarrow{r}}{d\theta}\right)^{2}} d\theta $

Si $r = f(\theta)$ tiene derivada continua para $a \leq \theta \leq b$ y si el punto $P(r,\theta)$ traza la curva $r = f(\theta)$ exactamente una sola vez al incrementar el valor de $\theta$, entonces la longitud de arco de la curva polar es

$\displaystyle\int_{b}^{a} \sqrt{r^{2} + \left(\frac{d\overrightarrow{r}}{d\theta}\right)^{2}} d\theta$

Ejemplo: Calcular la longitud de arco de la curva polar $r = 2cos(\theta)$, con $0 \leq \theta \leq \pi$.

La gráfica de $r = 2cos(\theta)$ la podemos generar en la , y como podemos ver es un círculo de radio $1$. Entonces si

$r = 2cos(\theta)\hspace5ex \frac{d\overrightarrow{r}}{d\theta} = -2sen(\theta)$

Tenemos que

$\displaystyle\int_{0}^{\pi} \sqrt{(2cos(\theta))^{2} + (-2sen(\theta))^{2}} \space d\theta$

$= \displaystyle\int_{0}^{\pi} \sqrt{4cos^{2}(\theta) + 4sen^{2}(\theta)} \space d\theta$

$= \displaystyle\int_{0}^{\pi} \sqrt{4(cos^{2}(\theta) + sen^{2}(\theta))} \space d\theta$

Que por la identidad trigonométrica $cos^{2}(\theta) + sen^{2}(\theta) = 1$

$= \displaystyle\int_{0}^{\pi} \sqrt{4(1)} \space d\theta = \displaystyle\int_{0}^{\pi} 2 \space d\theta$

$= [2\theta]_{0}^{\pi} = 2\pi - 0 = 2\pi$

Por lo tanto la longitud de arco de la curva polar $r = 2cos(\theta)$, con $0 \leq \theta \leq \pi$ es $2\pi$. Que justamente es el diámetro de un círculo de radio $1$.

Geometría de curvas en el espacio.

Longitud de arco a lo largo de una curva en el espacio

Las curvas en el espacio son una generalización de las curvas en el plano. Toda curva en $ℝ^{3}$ se puede considerar como la imagen de una función vectorial $\overrightarrow{r}(t): (a,b) \rightarrow ℝ^{3}$ (con $\overrightarrow{r}$ el vector de posición de la curva) y es de la forma

$\overrightarrow{r}(t) = x(t)\overrightarrow{i} + y(t)\overrightarrow{j} + z(t)\overrightarrow{k} =(x(t),y(t),z(t))$

que recibe el nombre de parametrización de la curva, donde $a \leq t \leq b$.

Observa como una curva en el espacio puede aproximarse por medio de segmentos

Al igual que las curvas planas la idea es primero calcular una aproximación dividiendo la curva en pequeños segmentos y sumando la longitud de cada uno de ellos. Cuantos más segmentos se escoja mejor será la aproximación, por lo tanto al aplicar el límite cuando el número de segmentos tiende a infinito obtenemos una integral definida. Es por eso que podemos definir la longitud de arco de una curva en el espacio de manera similar que en la , es decir.

Si una curva $C$, está definida en forma paramétrica por $\overrightarrow{r}(t) = (x(t),y(t),z(t)), a \leq t \leq b$, donde $x'$, $y'$ y $z'$ son continuas y no simultáneamente iguales a cero en $[a,b]$ y $C$ se recorre una sola vez cuando aumenta el valor de $t$, entonces la longitud de arco de $C$ es la integral definida

$L = \displaystyle\int_{a}^{b} \sqrt{([x'(t) ]^{2} + [y'(t) ]^{2} + [z'(t) ]^{2}} \space dt$

Si utilizamos la notación de Leibniz podemos reescribir la fórmula como

$L = \displaystyle\int_{a}^{b} \sqrt{ \left(\frac{dx}{dt}\right)^{2} + \left(\frac{dy}{dt}\right)^{2} + \left(\frac{dz}{dt}\right)^{2}} \space dt$

Como la derivada del vector de posición $\overrightarrow{r}(t)$ () es

$\overrightarrow{r}(t)' = \frac{dx}{dt}\overrightarrow{i} + \frac{dy}{dt} \overrightarrow{j} + \frac{dz}{dt} \overrightarrow{j}$

entonces la longitud de arco la podemos escribir como la norma de $\overrightarrow{r}(t)'$, que no es otra cosa que la norma del vector de velocidad (definición 3.2)

$L = \displaystyle\int_{a}^{b} ||\overrightarrow{r}(t)'|| \space dt = \displaystyle\int_{a}^{b} ||\overrightarrow{v}(t)|| \space dt$

Parámetro de arco

Hemos visto que las curvas en el espacio pueden expresarse por medio de funciones vectoriales. Para el movimiento a lo largo de una curva el parámetro adecuado es el tiempo $t$. Sin embargo cuando se quieren estudiar propiedades geométricas de una curva el parámetro adecuado por lo general es el parámetro de arco $s$.

Si elegimos un punto base $P(t_{0})$ sobre una curva $C$ parametrizada por $t$ en el intervalo $[a,b]$, cada valor de $t$ determina un punto $P(t) = (x(t),y(t),z(t))$ en $C$ y una distancia dirigida que llamaremos $s(t)$, donde

$s(t) = \displaystyle\int_{t_{0}}^{t} ||\overrightarrow{r}'(\tau)|| d \tau$

La cual es medida a lo largo de $C$ desde el punto inicial $P(t_{0})$ hasta el punto $P(t)$. Usamos $\tau$ como variable de integración ya que la letra $t$ se esta usando en el limite superior. Si $t > t_{0}$, entonces $s(t)$ es la distancia recorrida del punto $P(t_{0})$ al punto $P(t)$. Si $t < t_{0}$, entonces $s(t)$ es el negativo de tal distancia.

Sea $C$ una curva dada por $\overrightarrow{r}(t)$ definida en el intervalo $[a,b]$. Para $a \leq t \leq b$ el parámetro de arco $s$ se define como

$s(t) = \displaystyle\int_{t_{0}}^{t} \sqrt{([x'(\tau) ]^{2} + [y'(\tau) ]^{2} + [z'(\tau) ]^{2}} \space d\tau = \displaystyle\int_{t_{0}}^{t} ||\overrightarrow{r}'(\tau)|| \space d \tau$

Usando la definición de la longitud de arco y el teorema fundamental del cálculo se concluye que

$s'(t) = \frac{ds}{dt} ( \displaystyle\int_{0}^{t} ||\overrightarrow{r}'(\tau)|| \space d\tau ) = ||\overrightarrow{r}'(t)||$

Que en su forma diferencial se escribe como

$ds = ||\overrightarrow{r}'(t)|| dt$

Además, si una curva $\overrightarrow{r}(t)$ ya está dada en términos de cierto parámetro $t$, y $s(t)$ es la longitud de arco dada por la ecuación anterior, entonces podemos expresar $t$ como función de $s:t = t(s)$.

Es por eso que la curva puede ser parametrizada en términos de $s$, sustituyéndola por $t: r = \overrightarrow{r}(s)$.

Ejemplo: Si $t_{0} = 0$, reparametrice la hélice dada por $\overrightarrow{r}(t) = cos(t) \overrightarrow{i} + sen(t) \overrightarrow{j} + t\overrightarrow{k}$ con respecto a la longitud de arco.

$s = s(t) = \displaystyle\int_{t_{0}}^{t} \sqrt{([x'(\tau) ]^{2} + [y'(\tau) ]^{2} + [z'(\tau) ]^{2}} \space d\tau $

Donde $x'(\tau) = -sen(\tau), y'(\tau) = cos(\tau), z'(\tau) = 1$ , entonces

$= \displaystyle\int_{t_{0}}^{t} \sqrt{(-sen(\tau))^{2} + (cos(\tau))^{2} + 1^{2}} \space d\tau $

$= \displaystyle\int_{t_{0}}^{t} \sqrt{sen^{2}(\tau) + cos^{2}(\tau) + 1} \space d\tau $

Usando $sen^{2}(x) = \frac{1}{2} - \frac{1}{2}cos(2x)$ y $cos^{2}(x)= \frac{1}{2} + \frac{1}{2}cos(2x) $

$\displaystyle\int_{t_{0}}^{t} \sqrt{\frac{1}{2} - \frac{1}{2}cos(2x) + \frac{1}{2} + \frac{1}{2}cos(2x) + 1} \space d\tau $

$= \displaystyle\int_{t_{0}}^{t} \sqrt{2} \space d\tau = [\sqrt{2} \tau]_{0}^{t} = [\sqrt{2} t - 0] = \sqrt{2} t $

Despejando $t$ de la ecuación tenemos que $t = \frac{s}{\sqrt{2}}$. Por último sustituimos este valor en el vector de posición $\overrightarrow{r}(t)$ para obtener la reparametrización de la hélice:

$\overrightarrow{r}(s) = cos(\frac{s}{\sqrt{2}})\overrightarrow{i} + sen(\frac{s}{\sqrt{2}})\overrightarrow{j} + \frac{s}{\sqrt{2}}\overrightarrow{k}$

Una de las ventajas de escribir una función vectorial en términos del parámetro de curva es que $||\overrightarrow{r}'(s)|| = 1$, de este modo del ejemplo anterior tenemos que

$||\overrightarrow{r}'(s)|| = \sqrt{[-sen(\frac{s}{\sqrt{2}})\frac{1}{\sqrt{2}}]^{2} + [cos(\frac{s}{\sqrt{2}})\frac{1}{\sqrt{2}}]^{2} + [\frac{1}{\sqrt{2}}]^{2}} $

$ = \sqrt{[sen^{2}(\frac{s}{\sqrt{2}})\frac{1}{2}] + [cos^{2}(\frac{s}{\sqrt{2}})\frac{1}{2}] + \frac{1}{2}} $

$ = \sqrt{\frac{1}{2}[sen^{2}(\frac{s}{\sqrt{2}}) + cos^{2}(\frac{s}{\sqrt{2}})] + \frac{1}{2}} = \sqrt{1} = 1$

De esta manera, dada una curva suave $C$ representada por $\overrightarrow{r}(s)$, donde $s$ es el parámetro de arco, la longitud de arco entre $a$ y $b$ es

$L = \displaystyle\int_{a}^{b} ||\overrightarrow{r}'(s)|| \space ds = \displaystyle\int_{a}^{b} 1 \space ds = b-a$

Lo que quiere decir que $\overrightarrow{r}(s)$ es una parametrización tal que la longitud de la curva que describe es igual al tiempo que tarda en recorrerla. De esto último obtenemos el siguiente teorema

Si $C$ es una curva suave dada por $\overrightarrow{r}(s) = x(s)\overrightarrow{i} + y(s)\overrightarrow{j} + z(s)\overrightarrow{k}$. El parámetro $s$ es el parámetro de longitud de arco si y sólo si

$||\overrightarrow{r}'(s)|| = 1$

Lo que significa que $\overrightarrow{r}'(s)$ es un vector unitario tangente a la curva definida por $\overrightarrow{r}(t)$.

Vector unitario tangente

Un vector unitario es un vector cuya norma es igual a 1. Para un vector $\overrightarrow{v}$ distinto de $\overrightarrow{0}$, podemos utilizar la multiplicación escalar para encontrar el vector unitario $\overrightarrow{u}$ con la misma dirección que $v$ si multiplicamos el vector $\overrightarrow{v}$ por el recíproco de su magnitud, es decir

$\overrightarrow{u} = \frac{1}{||\overrightarrow{v}|} \cdot \overrightarrow{v}$

Si recordamos que la norma de un vector $\overrightarrow{v}$ multiplicado por un escalar $k$ es $||k\overrightarrow{v}|| = |k| ||\overrightarrow{v}||$ (), entonces para $\overrightarrow{u}$ tenemos que

$||\overrightarrow{u}|| = \frac{1}{||\overrightarrow{v}||} \cdot ||\overrightarrow{v}|| = 1$.

Y como vemos se cumple que la norma de $\overrightarrow{u}$ es igual a 1. Este proceso de utilizar la multiplicación escalar para encontrar el vector unitario con una dirección dada se llama normalización.

Ejemplo: Sea $\overrightarrow{v} = (2,4,4)$ un vector en $ℝ^{3}$, encuentra el vector unitario $\overrightarrow{u}$ con la misma dirección de $\overrightarrow{v}$.

Primero calculamos la norma de $\overrightarrow{v}$.

$||\overrightarrow{v}|| = \sqrt{2^{2} + 4^{2} + 4^{2}} = \sqrt{4 + 16 + 16} = \sqrt{36} = 6$

Ahora dividimos a $\overrightarrow{v}$ por su norma para obtener su vector unitario

$\overrightarrow{u} = \frac{1}{6} \cdot (2,4,4) = (\frac{2}{6},\frac{4}{6},\frac{4}{6})$

Por último comprobamos que la norma de $\overrightarrow{u}$ es igual a 1

$||\overrightarrow{u}|| = \sqrt{ \left(\frac{2}{6} \right)^{2} + \left(\frac{4}{6} \right)^{2} + \left(\frac{4}{6} \right)^{2} }= \sqrt{\frac{4}{36} + \frac{16}{36} + \frac{16}{36}} = \sqrt{\frac{36}{36}} = 1 $

Por lo tanto $\overrightarrow{u} = (\frac{2}{6},\frac{4}{6},\frac{4}{6})$ es el vector unitario con la misma dirección de $\overrightarrow{v}$.

Decimos que un vector unitario tangente es el resultado de obtener el vector unitario de un determinado vector tangente. Como se dijo en la subsección anterior, el vector $\overrightarrow{r}'(s)$ es un tangente unitario de una curva dada por $\overrightarrow{r}(t)$ y se define como sigue

Sea $C$ una curva suave dada por $\overrightarrow{r}(t)$ y $s$ el parámetro de arco. El vector unitario tangente $\overrightarrow{T}(s)$ de $\overrightarrow{r}(t)$ es

$\overrightarrow{T}(s) = \overrightarrow{r}'(s)$

Ahora veamos porque $\overrightarrow{r}'(s)$ es el vector tangente unitario a la curva. Como ya vimos $\frac{ds}{dt} = s'(t) = ||\overrightarrow{r}'(t)||$, entonces podemos escribir la siguiente igualdad

$\frac{d\overrightarrow{r}}{dt} = \frac{d\overrightarrow{r}}{ds} \cdot \frac{ds}{dt}$

O bien

$\overrightarrow{r}'(t) = \overrightarrow{r}'(s) \cdot ||\overrightarrow{r}'(t)||$

Donde resolviendo para $\overrightarrow{r}'(s)$ tenemos

$\overrightarrow{r}'(s) = \frac{\overrightarrow{r}'(t)}{||\overrightarrow{r}'(t)||}$

Y como vimos en la sección 3.1, dada una curva $\overrightarrow{r}(t)$, su vector de velocidad $\frac{d\overrightarrow{r}}{dt} = \overrightarrow{v}(t) = \overrightarrow{r}'(t)$ es tangente a la curva, además por el sabemos que $||\overrightarrow{r}'(s)|| = 1$ por lo tanto concluimos que $\overrightarrow{r}'(s)$ es el vector tangente unitario a la curva $\overrightarrow{r}(t)$.

De esto último podemos reescribir la fórmula para calcular el vector tangente en términos del parámetro $t$ como sigue

$\overrightarrow{T}(t) = \frac{\overrightarrow{r}'(t)}{||\overrightarrow{r}'(t)||}$

Vector tangente de la curva $\overrightarrow{r}(t)$. Observa como la magnitud de $\overrightarrow{T}(t)$ siempre es igual a $1$.

Ejemplo: Hallar el vector tangente unitario a la curva $\overrightarrow{r}(t) = t\overrightarrow{i} +t^{2}\overrightarrow{j} +t^{3} \overrightarrow{k}$ cuando $t = 1$. La curva de $\overrightarrow{r}(t) $ la podemos ver en la .

Primero calculamos $\overrightarrow{r}'(t)$

$\overrightarrow{r}'(t) = 1\overrightarrow{i} + 2t\overrightarrow{j} + 3t^{2}\overrightarrow{k} $

Ahora calculamos su norma

$||\overrightarrow{r}'(t)|| = \sqrt{1^{2} + (2t)^{2} + (3t^{2})^{2}} = \sqrt{1 + 4t^{2} + 9t^{4}}$

Evaluamos ambos resultados cuando $t = 1$

$\overrightarrow{r}'(1) = 1\overrightarrow{i} + 2\overrightarrow{j} + 3\overrightarrow{k} $

$ ||\overrightarrow{r}'(1)|| = \sqrt{14} $

Por lo tanto el vector tangente unitario cuando $t=1$ es

$\overrightarrow{T}(1) = \frac{1\overrightarrow{i} + 2\overrightarrow{j} + 3\overrightarrow{k}}{\sqrt{14}} \simeq .267 \overrightarrow{i} + .534 \overrightarrow{j} + .801\overrightarrow{k}$

En la podemos ver el vector tangente de la curva cuando $t=1$. Por último comprobamos que $\overrightarrow{T}(1) = 1$.

$||\overrightarrow{T}(1)|| = \sqrt{\frac{1^{2}}{\sqrt{14}^{2}} + \frac{2^{2}}{\sqrt{14}^{2}} + \frac{3^{2}}{\sqrt{14}^{2}}} $

$\sqrt{\frac{1}{14} + \frac{4}{14} + \frac{9}{14}} = \sqrt{\frac{14}{14} + \frac{4}{14} } = 1$

Curvatura

Un uso importante del parámetro de curva es hallar la curvatura, que es la medida de cuán agudamente se dobla una curva. Para describir esto es útil usar un número, el cual se conoce como curvatura de la curva y es denotado por el símbolo $\kappa$.

Cuando una partícula se mueve a lo largo de una curva en el plano o en el espacio, $\overrightarrow{T}(t) = \frac{d\overrightarrow{r}}{ds}$ gira al doblarse la curva como podemos ver en la .

Como $\overrightarrow{T}(t)$ es un vector unitario su norma permanece constante y solo cambia su dirección cuando la partícula se mueve a lo largo de la curva. Entonces, la curvatura es la razón con la que $\overrightarrow{T}(t)$ gira por unidad a lo largo de la curva ($\frac{dT}{ds} = \overrightarrow{T}'(s)$) y se define como sigue.

Sea $C$ una curva suave dada por $\overrightarrow{r}(t)$. Si $\overrightarrow{T}(s)$ es su vector unitario tangente en $s$, y $s$ es el parámetro de arco. La curvatura $\kappa$ en $s$ está dada por

$\kappa = ||\frac{d\overrightarrow{T}}{ds}|| = ||\overrightarrow{T}'(s)||$

Un buen ejemplo para entender mejor la curvatura es el círculo, ya que tiene la misma curvatura en todos sus puntos. La curvatura y el radio están relacionados inversamente, es decir mientras el radio del círculo sea más grande su curvatura es más pequeña, entonces la curvatura de un círculo con radio $r$ es $\kappa = \frac{1}{r}$, como veremos a continuación.

Ejemplo: Sea un circulo centrado en el origen definido por $\overrightarrow{r}(t) = rcos(t) \overrightarrow{i} + rsen(t) \overrightarrow{j}$. Encuentre la curvatura del circulo.

Reescribimos a $\overrightarrow{r}(t)$ en términos de su parámetro de arco

$\overrightarrow{r}(s) = rcos(\frac{s}{r}) \overrightarrow{i} + rsen(\frac{s}{r})\overrightarrow{j}$

Donde $\overrightarrow{r}'(s) = -sen(\frac{s}{r})\overrightarrow{i} + cos(\frac{s}{r})\overrightarrow{j}$, por lo que

$\overrightarrow{T}(s) = \frac{\overrightarrow{r}'(s)}{||\overrightarrow{r}'(s)||} = -sen(\frac{s}{r})\overrightarrow{i} + cos(\frac{s}{r})\overrightarrow{j}$

y la curvatura es

$||\overrightarrow{T}'(s)|| = ||-\frac{1}{r}cos(\frac{s}{r})\overrightarrow{i} - \frac{1}{r} sen(\frac{s}{r})\overrightarrow{j}|| $

$= \sqrt{(-\frac{1}{r}cos(\frac{s}{r}))^{2} + (-\frac{1}{r} sen(\frac{s}{r}))^{2}} = \sqrt{\frac{1}{r^2}cos^{2}(\frac{s}{r}) + \frac{1}{r^{2}} sen^{2}(\frac{s}{r})} $

$ = \sqrt{\frac{1}{r^2} \cdot (cos^{2}(\frac{s}{r}) + sen^{2}(\frac{s}{r}))}$

Que por la identidad $sen^{2}(x) + cos^{2}(x) = 1$

$= \sqrt{\frac{1}{r^2} \cdot (1)} = \frac{1}{r}$

En el ejemplo anterior ya vimos como calcular la curvatura aplicando directamente la definición. Como vimos primero tenemos que expresar la curva en términos de su parámetro de arco $s$, sin embargo también podemos encontrar la curvatura de una curva expresada en términos de algún parámetro $t$ arbitrario utilizando las fórmulas del siguiente teorema

Si $C$ es una curva suave dada por $\overrightarrow{r}(t)$, entonces la curvatura de $C$ en $t$ esta dada por

$\kappa = \frac{||\overrightarrow{T}'(t)||}{||\overrightarrow{r}'(t)||} = \frac{||\overrightarrow{r}'(t) \times \overrightarrow{r}''(t)||}{||\overrightarrow{r}'(t)||^{3}}$

Como sabemos $||\overrightarrow{r}'(t)|| = \frac{ds}{dt}$, por lo que la primera fórmula implica que la curvatura es el cociente de la tasa de cambio del vector $\overrightarrow{T}(t)$ entre la tasa de cambio de la longitud de arco. Para entender esto consideremos un número pequeño $\varDelta t$, entonces

$\frac{\overrightarrow{T}'(t)}{\frac{ds}{dt}} \simeq \frac{\frac{\overrightarrow{T}'(t+\varDelta t) - \overrightarrow{T}(t)}{\varDelta t}}{\frac{s(t + \varDelta t) - s(t)}{\varDelta t}} = \frac{\overrightarrow{T}'(t+\varDelta t) - \overrightarrow{T}(t)}{s(t + \varDelta t) - s(t)} = \frac{\varDelta \overrightarrow{T}}{\varDelta s} = \frac{d\overrightarrow{T}}{ds}$

Observa como para algún $\varDelta s$ dado, el vector $\overrightarrow{T}(t)$ gira mas agudamente mientras mas grande sea el valor de $\varDelta \overrightarrow{T}$.

Es decir, para algún $\varDelta s$ dado, cuanto mayor sea la longitud de $\varDelta \overrightarrow{T}$, la curva se dobla mas en $t$. En la podemos ver esto en curvas en el plano (ya que es más fácil de ver que en $ℝ^{3}$).

Ejemplo: Hallar la curvatura de la curva definida por $\overrightarrow{r}(t) = 2t\overrightarrow{i} + t^{2}\overrightarrow{j} - \frac{1}{3}t^{3}\overrightarrow{k}$.

Calculamos $||\overrightarrow{r}'(t)||$

$\overrightarrow{r}'(t) = 2\overrightarrow{i}+ 2t\overrightarrow{j} - t^{2}\overrightarrow{k}$

$||\overrightarrow{r}'(t)|| = \sqrt{2^{2} + (2t)^{2} + (-t^{2})^{2}} = \sqrt{4 + 4t^{2} + t^{4}} $

$= \sqrt{(t^2+2)^{2}} = t^{2} + 2$

Ahora calculamos $||\overrightarrow{T}'(t)||$

$ \overrightarrow{T}(t) = \frac{\overrightarrow{r}'(t)}{||\overrightarrow{r}'(t)||} = \frac{2\overrightarrow{i}+ 2t\overrightarrow{j} - t^{2}\overrightarrow{k}}{t^{2}+2}$

Donde la derivada de una división es $Q'(x) = \frac{g(x)\cdot f'(x) - g'(x)\cdot f(x)}{[g(x)]^{2}}$

$\overrightarrow{T}'(t) = \frac{(t^{2}+2)(2\overrightarrow{j} - 2t\overrightarrow{k}) - 2t (2\overrightarrow{i} + 2t\overrightarrow{j} - t^{2}\overrightarrow{k})}{(t^{2}+2)^{2}} $

$= \frac{2t^{2}\overrightarrow{j} - 2t^{3}\overrightarrow{k} + 4\overrightarrow{j} - 4t\overrightarrow{k} - 4t\overrightarrow{i} - 4t^{2}\overrightarrow{j} + 2t^{3}\overrightarrow{k} }{(t^{2}+2)^{2}} = \frac{-4t\overrightarrow{i} + (4 - 2t^{2})\overrightarrow{j} - 4t\overrightarrow{k}}{(t^{2}+2)^{2}} $

$||\overrightarrow{T}'(t)|| = \frac{\sqrt{ (-4t)^{2} + (4 - 2t^{2})^{2} + (-4t)^{2}}}{(t^{2}+2)^{2}} = \frac{\sqrt{16t^{2} + 16 - 16t^{2} + 4t^{4} + 16t^{2}}}{(t^{2}+2)^{2}} $

$= \frac{\sqrt{4(4t^{2}+4+t^{4})}}{(t^{2}+2)^{2}} = \frac{\sqrt{4 \cdot (t^{2}+2)^{2}}}{(t^{2}+2)^{2}} $

$ = \frac{2(t^{2}+2)}{(t^{2}+2)^{2}} = \frac{2}{t^{2}+2}$

Por último utilizando la formula $\kappa = \frac{||\overrightarrow{T}'(t)||}{||\overrightarrow{r}'(t)||}$ obtenemos la curvatura

$\kappa = \frac{\frac{2}{t^{2}+2}}{t^{2}+2} = \frac{2}{(t^{2}+2)^{2}}$

Vector normal unitario

Un vector normal es un vector de un espacio con producto escalar que tiene la propiedad de ser ortogonal a todos los vectores tangentes a alguna entidad geométrica. Este es un concepto muy útil en el posicionamiento de una partícula móvil en el espacio como veremos más adelante.

Decimos que dos vectores $\overrightarrow{u} , \overrightarrow{v} \in ℝ^{n}$ distintos de $\overrightarrow{0}$ son ortogonales (o perpendiculares) si $\overrightarrow{u} \cdot \overrightarrow{v} = 0$.

Entre los vectores ortogonales al vector unitario tangente $\overrightarrow{T}$ de una curva hay uno de particular importancia ya que apunta en la dirección en la que gira la curva, este vector es conocido como vector normal unitario y se denota como $\overrightarrow{N}$.

Consideremos el vector tangente en términos del parámetro de arco $\overrightarrow{T}(s)$, como tiene longitud constante (igual a $1$), entonces por el la derivada $\frac{d \overrightarrow{T}}{ds}$ es ortogonal a $\overrightarrow{T}(s)$.

Ahora, si dividimos $\frac{d \overrightarrow{T}}{ds}$ entre su curvatura $\kappa$ obtenemos un vector unitario que denotaremos como $\overrightarrow{N}(s)$ y que es ortogonal a $\overrightarrow{T}(s)$, como podemos ver en la .

Sea $\overrightarrow{f}$ una función vectorial diferenciable y con longitud constante. Decimos que $\overrightarrow{f}$ y $\overrightarrow{f}'$ son ortogonales, ya que con longitud constante, el cambio en la función es solo un cambio de dirección, y estos cambios de dirección ocurren en ángulos rectos.

Observa como el vector normal de la curva de la hélice $\overrightarrow{r}(t) = cos(t)\overrightarrow{i} + sen(t)\overrightarrow{j} + 0.2t \overrightarrow{k}$ es ortogonal al vector tangente.

Entonces, la definición del vector normal unitario estaría dada como sigue.

Sea $C$ una curva suave dada por $\overrightarrow{r}(t)$. Si $\overrightarrow{T}(s)$ es su vector unitario tangente en $s$, y $s$ es el parámetro de arco, entonces, en un punto donde $\kappa$ es distinto de $0$, el vector normal unitario de $C$ es

$\overrightarrow{N}(s) = \frac{1}{\kappa}\frac{d\overrightarrow{T}}{ds} = \frac{\overrightarrow{T}'(s)}{||\overrightarrow{T}'(s)||}$

Si calculamos el vector normal unitario de una curva definida por $\overrightarrow{r}(t)$ (con $t$ un parámetro arbitrario distinto al parámetro de arco) utilizando directamente la , primero tenemos que expresar la curva en términos de su parámetro de arco, sin embargo es posible calcularlo en términos del parámetro $t$ directamente utilizando la fórmula del .

Si $C$ es una curva suave dada por $\overrightarrow{r}(t)$, entonces el vector normal unitario de la curva es

$\overrightarrow{N}(t) = \frac{\frac{d\overrightarrow{T}}{dt}}{||\frac{d\overrightarrow{T}}{dt}||} = \frac{\overrightarrow{T}'(t)}{||\overrightarrow{T}'(t)||}$

Esta fórmula es obtenida al utilizar la y la regla de la cadena como veremos a continuación

Vector normal unitario $= \frac{\overrightarrow{T}'(s)}{||\overrightarrow{T}'(s)||} = \frac{\frac{d\overrightarrow{T}}{ds}}{||\frac{d\overrightarrow{T}}{ds}||}$

$= \frac{(\frac{d\overrightarrow{T}}{dt})(\frac{dt}{ds})}{||\frac{d\overrightarrow{T}}{dt}|| \cdot ||\frac{dt}{ds}||} = \frac{\frac{d\overrightarrow{T}}{dt}}{||\frac{d\overrightarrow{T}}{dt}||} = \frac{\overrightarrow{T}'(t)}{||\overrightarrow{T}'(t)||}$

Ejemplo: Determine el vector normal unitario de la hélice definida por $\overrightarrow{r}(t) = arccos(t)\overrightarrow{i} + arcsen(t)\overrightarrow{j} + bt\overrightarrow{k}$

Primero calculamos $\overrightarrow{T}(t)$

$\overrightarrow{r}'(t) = -arcsen(t)\overrightarrow{i} + arccos(t)\overrightarrow{j} + b\overrightarrow{k}$

$||\overrightarrow{r}'(t)|| = \sqrt{(-arcsen(t))^{2} + (arccos(t))^{2} + b^{2}} $

$= \sqrt{a^{2}sen^{2}(t) + a^{2}cos^{2}(t) + b^{2} } = \sqrt{a^{2}(sen^{2}(t) + cos^{2}(t)) + b^{2} }$

$ = \sqrt{a^{2}(1) + b^{2} }= \sqrt{a^{2} + b^{2}}$

$\overrightarrow{T}(t) = \frac{\overrightarrow{r}(t)}{||\overrightarrow{r}(t)||} = \frac{-arcsen(t)\overrightarrow{i} + arccos(t)\overrightarrow{j} + b\overrightarrow{k}}{\sqrt{a^{2} + b^{2}}}$

Ahora calculamos $\overrightarrow{N}(t)$

$\overrightarrow{T}'(t) = \frac{-arccos(t)}{\sqrt{a^{2}+b^{2}}}\overrightarrow{i}+ \frac{-arcsen(t)}{\sqrt{a^{2}+b^{2}}} \overrightarrow{j}$

$||\overrightarrow{T}'(t)|| = \sqrt{(\frac{-arccos(t)}{\sqrt{a^{2} + b^{2}}})^{2} + (\frac{-arcsen(t)}{\sqrt{a^{2} + b^{2}}})^{2}} = \sqrt{\frac{a^{2}cos^{2}(t)}{a^{2} + b^{2}} + \frac{a^{2}sen^{2}(t)}{a^{2} + b^{2}}} $

$=\sqrt{\frac{1}{a^{2} + b^{2}}(a^{2}(cos^{2}(t) + sen^{2}(t))} = \sqrt{\frac{a^{2}}{a^{2}+b^{2}}} = \frac{a}{\sqrt{a^{2}+b^{2}}}$

$\overrightarrow{N}(t) = \frac{\overrightarrow{T}'(t)}{||\overrightarrow{T}'(t)||} = \frac{\frac{-arccos(t)}{\sqrt{a^{2}+b^{2}}}\overrightarrow{i}}{\frac{a}{\sqrt{a^{2}+ b^{2}}}} + \frac{\frac{-arcsen(t)}{\sqrt{a^{2}+b^{2}}} \overrightarrow{j}}{\frac{a}{\sqrt{a^{2}+b^{2}}}}$

$= -cos(t)\overrightarrow{i} - sen(t)\overrightarrow{j}$

Por ultimo comprobemos que $\overrightarrow{T}(t) \cdot \overrightarrow{N}(t) = 0$

$(\frac{-arcsen(t)}{\sqrt{a^{2}+b^{2}}}\overrightarrow{i}, \frac{arccos(t)}{\sqrt{a^{2}+b^{2}}}\overrightarrow{j}, \frac{b}{\sqrt{a^{2}+b^{2}}}\overrightarrow{k}) \cdot (-cos(t)\overrightarrow{i}, -sen(t)\overrightarrow{j},0\overrightarrow{k})$

$= \frac{-arcsen(t)\cdot-cos(t)}{\sqrt{a^{2}+b^{2}}} + \frac{arccos(t)\cdot-sen(t)}{\sqrt{a^{2}+b^{2}}} + 0 $

$ = \frac{arcsen(t)\cdot cos(t) - arccos(t) \cdot sen(t) }{\sqrt{a^{2}+b^{2}}} $

$= \frac{a\cdot (sen(t)\cdot cos(t) - cos(t)\cdot sen(t))}{\sqrt{a^{2}+ b^{2}}} = \frac{a\cdot0}{\sqrt{a^{2}+b^{2}}} = \frac{0}{\sqrt{a^{2}+b^{2}}} = 0$

Que por la se cumple que $\overrightarrow{N}(t)$ y $\overrightarrow{T}(t)$ son ortogonales.

Torsión y el vector binormal unitario

El vector binormal de una curva en el espacio es $\overrightarrow{B}(s) = \overrightarrow{T}(s)$ x $\overrightarrow{N}(s)$, y es un vector que es ortogonal tanto a $\overrightarrow{T}(s)$ como a $\overrightarrow{N}(s)$. En la podemos ver como el vector binormal de una hélice es ortogonal a los vectores normal y tangente.

Observa como el vector binormal de la curva de la hélice $\overrightarrow{r}(t) = cos(t)\overrightarrow{i} + sen(t)\overrightarrow{j} + 0.2t \overrightarrow{k}$ es ortogonal al vector normal y tangente.

Los vectores $\overrightarrow{T}(s), \overrightarrow{N}(s), \overrightarrow{B}(s)$ juegan un papel significativo en el cálculo de las trayectorias de partículas que se mueven en el espacio y se le llama marco de Frenet o marco TBN.

Sea $C$ una curva suave dada por $\overrightarrow{r}(t)$. Si $\overrightarrow{T}(s)$ es su vector tangente unitario en $s$ y $\overrightarrow{N}(s)$ es el vector normal unitario en $s$, entonces el vector binormal $\overrightarrow{B}(s)$ se define como sigue

$\overrightarrow{B}(s) = \overrightarrow{T}(s)$ x $\overrightarrow{N}(s)$

Al igual que en el caso del vector normal, podemos calcular el vector binormal de una curva con algún parámetro $t$ arbitrario sin necesidad de aplicar directamente la definición si utilizamos la regla de la cadena, es decir

Si $C$ es una curva suave dada por $\overrightarrow{r}(t)$, entonces el vector binormal unitario de la curva es

$\overrightarrow{B}(t) = \overrightarrow{T}(t) $ x $\overrightarrow{N}(t)$

Ejemplo: Determine el vector binormal unitario de la hélice definida por $\overrightarrow{r}(t) = arccos(t)\overrightarrow{i} + arcsen(t)\overrightarrow{j} + bt\overrightarrow{k}$

En el ejemplo anterior ya hicimos los cálculos para obtener los vectores $\overrightarrow{T}(t)$ y $\overrightarrow{N}(t)$ , donde

$\overrightarrow{T}(t) = \frac{-arcsen(t)\overrightarrow{i}}{\sqrt{a^{2}+b^{2}}} + \frac{arccos(t)\overrightarrow{j}}{\sqrt{a^{2}+b^{2}}} + \frac{b\overrightarrow{k}}{\sqrt{a^{2}+b^{2}}} $

$\overrightarrow{N}(t) = -cos(t)\overrightarrow{i} -sen(t)\overrightarrow{j}$

Utilizamos la fórmula del para obtener el vector $\overrightarrow{B}(t)$

$\overrightarrow{T}(t)$ x $\overrightarrow{N}(t) = \begin{bmatrix}{i}&{j}&{k}\\{\frac{-arcsen(t)\overrightarrow{i}}{\sqrt{a^{2}+b^{2}}}}&{\frac{arccos(t)\overrightarrow{j}}{\sqrt{a^{2}+b^{2}}}}&{\frac{b \overrightarrow{k}}{\sqrt{a^{2}+b^{2}}}}\\{-cos(t)\overrightarrow{i}}&{-sen(t)\overrightarrow{j} }&{0\overrightarrow{k} }\end{bmatrix}$

Que por la fórmula para calcular los determinantes en matrices $3$ x $3$ tenemos que:

$\left(\begin{vmatrix}{\frac{arccos(t)}{\sqrt{a^{2}+b^{2}}}}&{\frac{b}{\sqrt{a^{2}+b^{2}}}}\\{-sen(t)}&{0}\end{vmatrix}, - \begin{vmatrix}{\frac{-arcsen(t)}{\sqrt{a^{2}+b^{2}}}}&{\frac{b}{\sqrt{a^{2}+b^{2}}} }\\{-cos(t)}&{0}\end{vmatrix}, \begin{vmatrix}{\frac{-arcsen(t)}{\sqrt{a^{2}+b^{2}}}}&{\frac{arccos(t)}{\sqrt{a^{2}+b^{2}}}}\\{-cos(t)}&{-sen(t)}\end{vmatrix}\right)$

$(\frac{bsen(t)}{\sqrt{a^{2}+b^{2}}}, -\frac{bcos(t)}{\sqrt{a^{2}+b^{2}}},\frac{a}{\sqrt{a^{2}+b^{2}}} )$

Regresando a la definición del vector binormal, como $\overrightarrow{B}(s)$ es ortogonal al $\overrightarrow{N}(s)$ y $\overrightarrow{T}(s)$, por definición del producto cruz (ver sección 1.3.1) también es un vector unitario, es decir

$||\overrightarrow{B}(s)|| = ||\overrightarrow{T}(s)$ x $\overrightarrow{N}(s)|| = ||\overrightarrow{T}(s)|| \space ||\overrightarrow{N}(s)|| sen(\theta)$

Donde $\theta$ es el ángulo que hay entre $\overrightarrow{N}(s)$ y $\overrightarrow{T}(s)$. Al ser $\overrightarrow{N}(s)$ y $\overrightarrow{T}(s)$ ortogonales, el ángulo entre ellos es $90°$, o bien $\theta = \frac{\pi}{2}$, por lo tanto concluimos que

$||\overrightarrow{B}(s)|| = (1) (1) sen(\frac{\pi}{2}) = 1$

Ahora definiremos el concepto de torsión de una curva, la cual mide el cambio de dirección del vector binormal. Cuanto más rápido cambia, más rápido gira el vector binormal alrededor del vector tangente y más retorcida aparece la curva.

Entonces, veamos como se comporta $\frac{d\overrightarrow{b}}{ds}$ con respecto a $\overrightarrow{T}(s), \overrightarrow{N}(s)$ y $\overrightarrow{B}(s)$.

Sean $\overrightarrow{a}(t)$ y $\overrightarrow{b}(t)$ dos funciones vectoriales diferenciables, decimos que la derivada de $\overrightarrow{a}(t)$ x $\overrightarrow{b}(t)$ es

$\overrightarrow{a}(t) $ x $\frac{d\overrightarrow{b}}{dt} + \frac{d\overrightarrow{a}}{dt}$ x $\overrightarrow{b}(t)$

De la regla para derivar el producto cruz () tenemos que

$\frac{d\overrightarrow{B}}{ds} = \overrightarrow{N}(s)$ x $\frac{d\overrightarrow{T}}{ds} + \frac{d\overrightarrow{N}}{ds}$ x $\overrightarrow{T}(s)$

Como $\overrightarrow{N}(s)$ es la dirección de $\frac{d\overrightarrow{T}}{ds}$, entonces $\frac{d\overrightarrow{T}}{ds}$ x $\overrightarrow{N}(s) = 0$ y

$\frac{d\overrightarrow{B}}{ds} = 0 + \frac{d\overrightarrow{N}}{ds}$ x $\overrightarrow{T}(s)$

De aquí vemos que $\frac{d\overrightarrow{B}}{ds}$ es ortogonal a $\overrightarrow{T}(s)$, ya que el producto cruz es ortogonal a sus factores. Como $\frac{d\overrightarrow{B}}{ds}$ es también ortogonal a $\overrightarrow{B}(s)$, asumimos que $\frac{d\overrightarrow{B}}{ds}$ es ortogonal al plano de $\overrightarrow{B}(s)$ y $\overrightarrow{T}(s)$. Es decir, $\frac{d\overrightarrow{B}}{ds}$ es paralelo al vector $\overrightarrow{N}(s)$, de modo que $\frac{d\overrightarrow{B}}{ds}$ es múltiplo de $\overrightarrow{N}(s)$. En símbolos

$\frac{d\overrightarrow{B}}{ds} = -\tau \overrightarrow{N}(s)$

Donde el escalar $\tau$ es la torsión a lo largo de la curva. Observe que

$\frac{d\overrightarrow{B}}{ds} \cdot \overrightarrow{N}(s) = -\tau \overrightarrow{N}(s) \cdot \overrightarrow{N}(s) = -\tau(1) = -\tau$

De modo que

$\tau = -\frac{d\overrightarrow{B}}{ds} \cdot \overrightarrow{N}(s)$

Sea $C$ una curva suave dada por $\overrightarrow{r}(t)$ y $\overrightarrow{B}(s) = \overrightarrow{T}(s)$ x $\overrightarrow{N}(s)$. Si $s$ es el parámetro de arco de $\overrightarrow{r}(t)$ la función de torsión de $C$ es

$\tau = -\frac{d\overrightarrow{B}}{ds} \cdot \overrightarrow{N}(s) = -\overrightarrow{B}'(s) \cdot \overrightarrow{N}(s)$

Entonces si consideramos la curva como la trayectoria de una partícula en movimiento, el valor de $\tau$ nos dice que tanto la trayectoria de un cuerpo da vueltas o sale del plano formado por $\overrightarrow{T}(s)$ y $\overrightarrow{N}(s)$.

Si queremos calcular la torsión de una curva con algún parámetro $t$ arbitrario sin calcular el parámetro de arco lo podemos hacer con la fórmula del .

Si $C$ es una curva suave dada por $\overrightarrow{r}(t)$, entonces la torsión de la curva es

$\tau = -\overrightarrow{B}'(t) \cdot \overrightarrow{N}(t) = \frac{\overrightarrow{r}(t) \cdot (\overrightarrow{r}'''(t) \times \overrightarrow{r}''(t))}{||\overrightarrow{r}'(t) \times \overrightarrow{r}''(t)||^{2}} $

$= \frac{\begin{vmatrix}{x'(t)}&{y'(t)}&{z'(t)}\\{x''(t)}&{y''(t)}&{z''(t)}\\{x'''(t)}&{y'''(t)}&{z'''(t)}\end{vmatrix}}{||\overrightarrow{r}'(t) \times \overrightarrow{r}''(t)||^{2}}$

Ejemplo: Determine la torsión de la hélice definida por $\overrightarrow{r}(t) = arccos(t)\overrightarrow{i} + arcsen(t)\overrightarrow{j} + bt\overrightarrow{k}$

Primero calculamos $\overrightarrow{r}'(t)$, $\overrightarrow{r}''(t)$ y $\overrightarrow{r}'''(t)$, donde

$\overrightarrow{r}'(t) = -arcsen(t)\overrightarrow{i} + arccos(t)\overrightarrow{j}+ b\overrightarrow{k}$

$\overrightarrow{r}''(t) = -arccos(t)\overrightarrow{i} -arcsen(t)\overrightarrow{j}+ 0{k}$

$\overrightarrow{r}'''(t) = arcsen(t)\overrightarrow{i} - arccos(t)\overrightarrow{j}+ 0{k}$

Calculamos $\overrightarrow{r}(t) \cdot (\overrightarrow{r}'''(t) \times \overrightarrow{r}''(t))$

$\begin{vmatrix}{x'(t)}&{y'(t)}&{z'(t)}\\{x''(t)}&{y''(t)}&{z''(t)}\\{x'''(t)}&{y'''(t)}&{z'''(t)}\end{vmatrix} $

$= b(a^{2}cos^{2}(t) + a^{2}sen^{2}(t)) = a^{2}b$

Ahora calculamos $||\overrightarrow{r}'(t) \times \overrightarrow{r}''(t)||^{2}$

$||(-arcsen(t),arccos(t),b) \times (-arccos(t), -arcsen(t),0)||^{2} $

$= (a\sqrt{a^{2} + b^{2}})^{2} = a^{2}(a^{2} + b^{2})$

Por lo tanto la torsión de $\overrightarrow{r}(t)$ es

$\tau = \frac{a^{2}b}{a^{2}(a^{2} + b^{2})} = \frac{b}{a^{2} + b^{2}}$

Capítulo IV

Campos escalares

Funciones reales de varias variables. Representación gráfica de funciones reales (gráficas y conjuntos de nivel).

Como sabemos una función es la relación entre dos conjuntos donde a cada elemento del primer conjunto le corresponde un solo elemento del segundo. Por ejemplo la función $y = f(x)$ genera resultados dependiendo del valor que tome la variable $x$.

Al estudiar el mundo real, estas funciones describen fenómenos que dependen de una sola variable, por ejemplo, la posición de un objeto que se define por funciones que varían respecto del tiempo $t$. Sin embargo existen fenómenos cuyo comportamiento no depende de una única variable y son descritos por funciones reales de varias variables.

Las funciones reales de varias variables son funciones como cualquier otra, solo que están regidas por más de una variable independiente. La definición de estas funciones pueden deducirse fácilmente del caso de una variable como vemos en la .

Suponga que $D$ es un conjunto en $ℝ^{n}$ de n-adas de número reales $(x_{1}, x_{2},...,x_{n})$. Una función real $f$ de $n$ variables independientes es una regla que asigna un único número real

$w = f(x_{1}, x_{2},...,x_{n})$

a cada elemento en $D$. El conjunto $D$ es el dominio de la función, mientras que el conjunto de valores $w$ es el rango de la función $f$. El símbolo $w$ es la variable dependiente de $f$ y se dice que $f$ es una función de las $n$ variables independientes $x_{1},x_{2},...,x_{n}$.

Para evaluar funciones definidas mediante formulas sustituimos los valores de las variables independientes en la formula y calculamos el valor de la variable dependiente. Por ejemplo al calcular el valor de $f(x,y) = x^{2} + y^{2}$ cuando $x = 3$ y $y = 2$ obtenemos lo siguiente:

$f(3,2) = 3^{2} + 2^{2} = 9 + 4 = 13$

Dominio y rango

Las funciones de varias variables también tienen un rango y un dominio. Usualmente para definir funciones de varias variables excluimos las entradas que conducen a números complejos o a una división entre cero. Por ejemplo, si tenemos que $f(x,y) = \sqrt{x-y}$, el valor de $x$ no puede ser mayor a $y$, o si $f(x,y) = \frac{x}{y}$, el valor de y no puede ser igual a $0$.

Entonces, decimos que el dominio de una función de varias variables es el conjunto más grande con el que al evaluar la función nos genera números reales (a menos que se especifique lo contrario).

Por otro lado, decimos que el rango de una función de varias variables es el conjunto de todos valores de salida que se pueden obtener al sustituir las variables independientes de la función en la fórmula.

Ejemplos

$$ \begin{array}{ccc} Función & Dominio & Rango \\ \hline ~w = \sqrt{9-x^{2}-y^{2}}~ & \{(x,y) \in ℝ^{2} | x^{2}+y^{2} \leq 9 \} & 0 \leq w \leq 3 \\ ~w = 1 + (x^{2} + y^{2})~ & \forall (x,y) \in ℝ^{2} & [1,\infty) \\ ~w = sen(xy)~ & \forall (x,y) \in ℝ^{2} & [-1, 1 ]\\ ~w = \sqrt{x^{2} + y^{2} + z^{2}}~ & \forall (x,y,z) \in ℝ^{3} & [0, \infty ) \\ \end {array} $$

Denotaremos al dominio como $Dom[f]$ y al rango como $Ran[f]$

Cuando se estudian funciones casi por impulso se tiende a graficarlas para observar su comportamiento y entenderlo con mayor claridad. Las funciones de varia variables no están exentas de esto, sin embargo no todas las funciones de varias variables se pueden graficar, y en realidad el número máximo de variables que podemos graficar son $3$. Esto se explica fácilmente ya que no podemos observar gráficamente más de $3$ dimensiones, es por ello que en esta sección se estudiarán más a fondo los casos particulares de funciones con $2$ y $3$ variables.

Curvas de nivel, gráficas y contornos de funciones con 2 variables

Hay dos formas comunes de graficar funciones con dos variables. La primera consiste en trazar las curvas de nivel en el dominio, donde $f$ asume un valor constante y la segunda consiste en trazar la superficie $z = f(x,y)$ en el espacio.

Dada una función $f(x,y)$ y un número $c$ en el rango de $f$, una curva de nivel de una función de dos variables para el valor $c$ es el conjunto de todos los puntos que satisfacen la ecuación $f(x,y) = c$.

Observa las curvas de nivel de una función de dos variables $f(x,y)$. Nota: Los valores $c_{i}$ deben de estar en el rango de $f(x,y)$.

Por ejemplo, determinemos las curvas de nivel de la función $f(x,y) = 1 + (x^{2} + y^{2})$. Sea $c$ una constante en el rango de $f(x,y)$, entonces

$1 + (x^{2} + y^{2}) = c \Rightarrow x^{2} + y^{2} = c - 1$

Esta ecuación describe un círculo con centro en el origen cuyo radio es igual a $\sqrt{c-1}$.

Como el valor mínimo que podemos obtener de esta función es $1$ (cuando $x = y = 0$) y el valor máximo es $\infty$, entonces el rango de la función es $[1, \infty)$. Por lo tanto el valor de $c$ se encuentra en el rango $[1,\infty)$ y las curvas de nivel son las descritas por $x^{2} + y^{2} = c - 1$.

En la podemos observar las curvas de nivel cuando $c = 2,4,6$. Note que cuando $c = 1$ la curva de nivel es un círculo de radio $0$.

Como sabemos las gráficas de funciones con una sola variable son una curva $C$ con ecuación $y = f(x)$. En el caso de una función $f$ de dos variables es una superficie $S$ cuya ecuación es $z = f(x,y)$ y se define como sigue.

Dada una función $f(x,y)$ con dominio $D$, decimos que la gráfica de $f$ es el conjunto de todos los puntos $(x,y,f(x,y))$ en $ℝ^{3}$ tal que $z = f(x,y)$ y $(x,y)$ está en $D$. A la gráfica también se le llama superficie $z=f(x,y)$.

En la podemos ver que la gráfica de una función de dos variables es una superficie $S$ que está compuesta por todos los puntos $(x,y,z)$ en el espacio, cuando $z = f(x,y)$ y $(x,y)$ está en $D$.

La curva en el espacio donde el plano $z = c$ corta con la superficie $z = f(x,y)$ está formada por los puntos que representan el valor de la función $f(x,y) = c$.

Observa como la gráfica de una función de dos variables es una superficie formada por todos los puntos $(x,y,z)$, tal que $z = f(x,y)$ y $(x,y)$ está en $D$.

A esta curva se le llama curva de contorno y se define como $f(x,y) = c$.

Si bien las curvas de contorno están definidas de la misma manera que las curvas de nivel, lo que las distingue es que las curvas de contorno tiene una elevación o altura con respecto a las curvas de nivel.

En la podemos ver como las curvas de contorno se forman al cortar el plano $z=c$ con la superficie $z = f(x,y)$. También observe como el contorno de nivel $f(x,y) = c$ tiene una elevación.

Curvas de contorno

Como podemos ver en la las curvas de nivel son justamente las trazas de la gráfica de $f$ en el plano horizontal $z=c$ proyectadas en el plano $xy$.

Es decir, si dibujamos las curvas de nivel de una función con dos variables y las representamos como elevaciones de la superficie a la altura indicada, entonces podemos formar la gráfica de $f$. Un ejemplo común de las curvas de nivel son los mapas topográficos de regiones montañosas, donde las curvas de nivel son curvas de elevación constante por arriba del nivel del mar.

Superficies de nivel de funciones con 3 variables

Una función de tres variables $f(x,y,z)$, es una regla que asigna a cada terna ordenada $(x,y,z)$ en un dominio $D \in ℝ^{3}$ un único valor real $w$. Como ya vimos, en el plano los puntos donde una función de dos variables tienen un valor constante $f(x,y) = c$ forman una curva (curva de nivel) en el dominio de la función. En el espacio los puntos donde una función de tres variables tienen un valor constante $f(x,y,z) = c$ forman una superficie en el dominio de la función. A estas superficies se les conoce como superficies de nivel y se definen de la siguiente manera.

El conjunto de puntos $(x,y,z)$ en el espacio donde una función de tres variables independientes tienen un valor constante $f(x,y,z) = c$, es una superficie de nivel de $f$.

.

Por ejemplo, determinemos las superficies de nivel de la función $f(x,y,z) = x^2+y^2+z^2$.

Las superficies de nivel son $x^2+y^2+z^2 = c$, donde $c \geq 0$. Esto forma una serie de esferas concéntricas con radio $\sqrt{c}$, cuyo centro se encuentra en el origen, como vemos en la figura.

Estas superficies sirven para ver cómo se comportan las funciones con tres variables, sin embargo a diferencia de las funciones con dos variables no hay forma en la que podamos trazar su gráfica, ya que esta consta del conjunto de puntos $(x,y,z,f(x,y,z))$ que se encuentran en un espacio de cuatro dimensiones, por lo que no podemos trazar en nuestro marco de referencia tridimensional.

Superficies de nivel de la función $f(x,y,z) = x^2+y^2+z^2$.

Límite y derivada.

Ya hemos definido las funciones de más de una variable y como graficarlas. En esta sección veremos cómo tomar el límite de una función de varias variables y lo que las diferencia de las funciones de una sola variable.

Límite de una función de una variable

El concepto del limite es de gran importancia para entender el cálculo ya que es utilizado tanto en la teoría como en las aplicaciones. De manera intuitiva decimos que si los valores de una función $f(x)$ pueden hacerse arbitrariamente cercanos a un número único $L$, cuando $x$ se acerca a un número $a$ por ambos lados entonces el límite de $f(x)$ es $L$.

Para entender de mejor manera esto, consideremos la función $f(x) = x^{2}$ y un valor $a = 2$. Ahora tabulamos los valores de $f(x)$ cuando $x$ se aproxima a $2$ tanto por la izquierda como por la derecha.

$$ \begin{array}{cccc} x & f(x) & x & f(x) \\ \hline ~1.85~ &3.42 & 2.14& 4.57 \\ ~1.92~ & 3.68 & 2.07& 4.28 \\ ~1.97~ & 3.88 & 2.03& 4.12\\ ~1.99~ & 3.96 & 2.01& 4.04 \\ \end {array} $$

Como vemos, conforme $x$ se acerca al número $a=2$ por la izquierda $(x < a)$ y por la derecha $(x> a)$, los valores de la función se acercan al número $4$.

Matemáticamente decimos que el límite de $f(x) = x^{2}$ cuando $x$ tiende a $a = 2$ es $L = 4$ y simbólicamente lo expresamos como

$\lim\limits_{x \rightarrow 2} f(x) = 4 $

Ahora que hemos entendido intuitivamente los que es el límite de una función podemos expresarlo con más cuidado, de tal forma que obtenemos la siguiente definición

Sea $f(x)$ una función definida en todos los valores de un intervalo abierto que contiene al número $a$ (con la posible excepción de que $f(a)$ no esté definido), y sea $L$ un número real. Si todos los valores de la función $f(x)$ aproximan al número real $L$ cuando los valores de $x$ (con $x \neq a$) aproximan al número $a$, entonces decimos que el límite de $f(x)$ cuando $x$ tiende a $a$ es $L$ y se denota como

$\lim\limits_{x \rightarrow a} f(x) = L $

Como vimos en el ejemplo anterior podemos aproximar límites utilizando tablas, además si queremos apreciar de manera más visual los límites podemos dibujar la gráfica de la función como vemos en la .

Leyes de los límites

Ya que tenemos la definición formal del límite enunciamos algunos de los teoremas más importantes de los límites que sirven de ayuda al calcular los límites a mano.

Aproximación del límite de una función cuando $x$ se aproxima a un valor $a$.

Límite de una constante.

Sea $f(x) = c$ una función constante, entonces

$\lim\limits_{x \rightarrow a} f(x) = \lim\limits_{x \rightarrow a} c = c$

Límite identidad.

Sea $f(x) = x$ una función, entonces

$\lim\limits_{x \rightarrow a} f(x) = \lim\limits_{x \rightarrow a} x = a$

Límite del producto entre una constante y una función.

Sea $f(x)$ una función, $c$ un número constante y $L$ el límite de $f(x)$, entonces

$\lim\limits_{x \rightarrow a} c \cdot f(x) = c \cdot L$

Límite de una suma, diferencia, producto y cociente.

Sean $f(x)$ y $g(x)$ dos funciones, suponga que

$\lim\limits_{x \rightarrow a} f(x) = L_{1}$ y $\lim\limits_{x \rightarrow a} g(x) = L_{2}$

Entonces

$\lim\limits_{x \rightarrow a} f(x) + g(x) = L_{1} + L_{2}$
$\lim\limits_{x \rightarrow a} f(x) - g(x) = L_{1} - L_{2}$
$\lim\limits_{x \rightarrow a} f(x) \cdot g(x) = L_{1} \cdot L_{2}$
$\lim\limits_{x \rightarrow a} f(x) / g(x) = L_{1} / L_{2}$ para $L_{2} \neq 0$

Límite de una potencia

Sea $f(x)$ una función $n$, un número positivo y $L$ el límite de $f(x)$, entonces

$\lim\limits_{x \rightarrow a} f(x)^{n} = L^{n} $

Límite de una raíz

Sea $f(x)$ una función, $n$ un número positivo y $L$ el límite de $f(x)$, entonces

$\lim\limits_{x \rightarrow a} \sqrt[n]{f(x)} = \sqrt[n]{L}$

Ahora veamos algunos ejemplos de cómo calcular límites utilizando los teoremas anteriores.

Ejemplo 1: Calcule $\lim\limits_{x \rightarrow 1} \frac{x^{2}-1}{x + 1}$

Usando la ley de la suma

$\lim\limits_{x \rightarrow 1} x^{2} - 1 = 1^{2}-1=0$

$\lim\limits_{x \rightarrow 1} x + 1 = 1 + 1 = 2$

Usando la ley de la división

$\lim\limits_{x \rightarrow 1} \frac{x^{2}-1}{x + 1} = \frac{0}{2} = 0$

Ejemplo 2: Calcule $\lim\limits_{x \rightarrow 1} 5x \cdot (1+x)$

Usando la ley del producto

$\lim\limits_{x \rightarrow 1} 5x \cdot (1+x) = 5(1) \cdot (1+1) = 5 * 2 = 10$

Ejemplo 3: Calcule $\lim\limits_{x \rightarrow 5} \sqrt{x^{2}} \cdot (x-1)$

Usamos las leyes de la raíz y la multiplicación

$\lim\limits_{x \rightarrow 5} \sqrt{x^{2}} \cdot (x-1) = \sqrt{5^{2}} \cdot (5 - 1) = 5 \cdot 5 = 20 $

Límites que no existen

En la animación del primer ejemplo de la podemos ver que cuando $x$ se acerca a un número $a$ por ambos lados se aproxima a un número $L$. Sin embargo, una función puede no tener límite para todos los valores de $x$, es decir cuando no existe $\lim\limits_{x \rightarrow a} f(x) = L $ para todos los valores de $a$. En estos casos decimos que $\lim\limits_{x \rightarrow a} f(x)$ no existe.

Hay tres formas en las que podemos determinar que un límite no existe, las cuales se enuncian en el siguiente teorema:

Sea $f(x)$ una función y $a$ un número en los reales, decimos que el límite de $f(x)$ cuando tiende a $a$ no existe si ocurre alguno de los siguientes escenarios:

Si la función $f(x)$ puede aproximar diferentes valores para un mismo valor $a$.
Si la función crece sin un límite superior o inferior cuando x se acerca algún valor $a$.
Si la función oscila cuando $x$ se acerca a algún valor $a$.

En la se ilustran algunos ejemplos del teorema anterior.

Ejemplos de límites que no existen.

Continuidad en un punto

Intuitivamente una función es continua si se puede dibujar su gráfica en un solo trazo. En particular, una función $f(x)$ es continua en un punto $x = a$ si se cumplen las tres condiciones de la siguiente definición.

Sean $f(x)$ un función, decimos que $f$ es continua en un punto $x = a$ si se cumple las siguientes condiciones:

$f(a)$ existe.
Existe el límite de $f(x)$ en el punto $x = a$.
La imagen de $a$ y el límite de la función en $a$ son iguales.

En el caso de que el punto $x = a$ no cumpla con alguna de estas condiciones decimos que la función es discontinua en $a$.

Ejemplo: Estudiemos la continuidad de la función definida en secciones $f(x)$ en los punto $x = 1$ y $x = -2$

$f(x)= \left\{ \begin{array}{lcc} \frac{x^{2}-4}{x+2} & si & x \neq -2 \\ \\ -2 & si & x = -2 \\ \end{array} \right.$

Primero veamos si $f(x)$ cumple las condiciones de continuidad en $x = 1$

La función existe en $x = 1$ y su imagen es

$f(1) = \frac{-3}{3} = -1$

Existe el límite de $f(x)$ en el punto $x = 1$

$\lim\limits_{x \rightarrow 1} \frac{x^{2}-4}{x+2} = \frac{\lim\limits_{x \rightarrow 1} x^2 - 4}{\lim\limits_{x \rightarrow 1} x + 2} = \frac{-3}{3} = -1$

La imagen de $a$ y el límite de la función en $a$ coinciden

$f(1) = 1 = \lim\limits_{x \rightarrow 1} f(x)$

Como se cumplen las tres condiciones entonces la función es continua en $x = 1$. Ahora veamos qué pasa cuando $x = -2$.

La función existe en $x = -2$ y su imagen es

$f(-2) = -2$

Existe el límite de $f(x)$ en el punto $x = 1$. Como el denominador tiende a $0$ cuando $x = -2$, no podemos aplicar directamente la regla de la división, por eso factorizamos para obtener una fracción a la que le podamos calcular el límite

$\lim\limits_{x \rightarrow -2} \frac{x^{2}-4}{x+2} = \lim\limits_{x \rightarrow -2} \frac{(x-2)(x+2)}{x+2} = \lim\limits_{x \rightarrow -2} x-2 = -4$

La imagen de $a$ y el límite de la función en $a$ no coinciden

$f(-2) = -2 \neq -4 = \lim\limits_{x \rightarrow -2} f(x)$

Como una de las reglas no se cumple decimos que la función es discontinua en $x = -2$.

Límites en funciones con varias variables

Como ya vimos el límite de una función de una variable es

$\lim\limits_{x \rightarrow a} f(x) = L $

para toda $x \neq a$ en un intervalo abierto que contiene a $a$ y donde $L$ es un número real.

Ahora consideremos una función de dos variables $f(x,y)$, si los valores de $f(x,y)$ son arbitrariamente cercanos a un número real $L$ para todos los puntos $(x,y)$ suficientemente cercanos a un punto $(x_{0},y_{0})$, decimos que $f(x,y)$ tiende al límite $L$ cuando $(x,y)$ tiende a $(x_{0},y_{0})$.

Como vemos, esto es bastante similar a la definición intuitiva del límite en funciones con una variable que se explicó en la subsección anterior. Sin embargo, si el punto $(x_{0},y_{0})$ está en el interior del dominio de $f(x,y)$, el punto $(x,y)$ puede acercarse a $(x_{0},y_{0})$ desde cualquier dirección. Para entender mejor esto considere la siguiente definición

Dado un punto $(x_{0},y_{0}) \in ℝ^{2}$. Un disco abierto $\delta$ con centro en el punto $(x_{0},y_{0})$ y radio $\delta$ es el conjunto de puntos $(x,y)$ tal que

$\sqrt{(x-x_{0})^{2} + (y - y_{0})^{2}} < \delta$

Como se muestra en la . .

Mueve el punto $(x_{0},y_{0})$ y observa el disco de radio $\delta$.

La idea del disco $\delta$ aparece en la definición del límite en funciones con dos variables, donde si el radio es pequeño entonces todos los puntos $(x,y)$ en el disco $\delta$ están cercanos al punto $(x_{0},y_{0})$. Es por eso que decimos que la idea del límite en funciones con dos variables es similar a la idea del límite en funciones con una variable, con la diferencia de que en las funciones con dos variables nos podemos aproximar a un punto $(x_{0},y_{0})$ desde infinitas direcciones (nos podemos aproximar por todos los puntos que se encuentran en el disco $\delta$). De lo anterior obtenemos la siguiente definición.

Sea $f(x,y)$ una función de dos variables. El límite de $f(x,y)$ cuando $(x,y)$ se aproxima a un punto $(x_{0},y_{0})$ que se encuentra en el dominio de $f(x,y)$ es $L$, y lo escribimos como

$\lim\limits_{(x,y) \rightarrow (x_{0},y_{0})} f(x,y) = L $

si para cada número $\epsilon > 0$, existe un número $\delta > 0$ tal que, para todo $(x,y)$ en el dominio de $f(x,y)$ se cumple que

$|f(x,y) - L| < \epsilon$ cuando $0 < \sqrt{(x-x_{0})^{2}+(y-y_{0})^{2}} < \delta$

Esta definición dice que la distancia entre $f(x,y)$ y $L$ es arbitrariamente pequeña, siempre que la distancia de $(x,y)$ a $(x_{0},y_{0})$ se haga suficientemente pequeña pero no cero. Al igual que en las funciones de una variable podemos aproximar el valor del límite creando una tabla con puntos que se aproxime a $(x_{0},y_{0})$.

Por ejemplo si queremos calcular el límite en el punto $(1,1)$ para la función $4-x^2-y^2$ tendríamos la siguiente tabla:

$$ \begin{array}{cc} (x,y) & f(x,y,z) \\ \hline ~(1,0.93)~ & 1.46 \\ ~(1,0.95)~ & 1.44 \\ ~(1,0.97)~ & 1.43 \\ ~(1,0.99)~ & 1.41 \\ ~(0.99,1)~ & 1.41 \\ ~(1.01,1)~ & 1.40 \\ \end {array} $$

la cual nos da una aproximación de $1.41$. Esto significa que la diferencia entre $f(x,y)$ y $1.41$ será más pequeña cuando los $(x,y)$ estén más cerca de $(1,1)$. Esta tabla muestra evidencia de que el límite existe, pero no muestra que se cumple la definición. Para probarlo tenemos que considerar un valor $\epsilon$ y un valor $\delta$ tal que se cumple que

$|f(x,y)-L| < \epsilon$

Cuando

$0 < \sqrt{(x-x_{0})^{2}+(y-y_{0})^{2}} < \delta$

En la podemos ver gráficamente que el límite cuando $(x,y)$ se aproxima a $(x_{0},y_{0})$ es $L$, si para todo $\epsilon > 0$ existe un $\delta > 0$ tal que, si para todo $(x,y)$ que está en el dominio de $f(x,y)$ y se encuentra dentro del disco con centro en $(x_{0},y_{0})$ y radio $\delta$, entonces la imagen de $f(x,y)$ se encuentra entre los planos $(L+\epsilon,L-\epsilon)$.

Note que cuando el valor de $\delta$ se incrementa o disminuye, el valor de $\epsilon$ también lo hace si no se cumple que la imagen de todos los puntos dentro del disco de radio $\delta$ están dentro de los planos $(L+\epsilon,L-\epsilon)$, es decir cuando no se cumple $|f(x,y)-L| < \epsilon$.

Mueve los puntos $(x_{0},y_{0})$, $(x,y)$ y observa que si el punto $(x,y)$ no se encuentra dentro del disco $\delta$ su imagen está fuera de los planos $(L+\epsilon,L-\epsilon)$

Leyes de límites en funciones con dos variables

Como vemos, calcular límites utilizando la definición, tablas y gráficas puede ser un poco laborioso, es por eso que usualmente se utilizan los teoremas que nos permiten calcular límites analíticamente. Estos teoremas son análogos a los teoremas de los límites de funciones con una variables y se enuncian a continuación.

Límite de una constante

Sea $f(x,y) = c$ una función de dos variables constante, entonces

$\lim\limits_{(x,y) \rightarrow (x_{0},y_{0})} f(x,y) = \lim\limits_{(x,y) \rightarrow (x_{0},y_{0})} c = c $

Leyes de identidad

Sea $f(x,y)$ una función de dos variables, entonces

$\lim\limits_{(x,y) \rightarrow (x_{0},y_{0})} x = x_{0}$

$\lim\limits_{(x,y) \rightarrow (x_{0},y_{0})} y = y_{0}$

Límite del producto entre una constante y una función de dos variables.

Sea $f(x,y)$ una función de dos variables y $c$ una constante, entonces

$\lim\limits_{(x,y) \rightarrow (x_{0},y_{0})} c \cdot f(x,y) = c \cdot L $

Límite de una potencia

Sea $f(x,y)$ una función de dos variables y $n$ un número positivo, entonces

$\lim\limits_{(x,y) \rightarrow (x_{0},y_{0})} f(x,y)^{n} = L^{n} $

Límite de una suma, diferencia, producto y cociente

Sean $f(x,y)$ y $g(x,y)$ dos funciones de dos variables, suponga que

$\lim\limits_{(x,y) \rightarrow (x_{0},y_{0})} f(x,y) = L_{1}$ y $\lim\limits_{(x,y) \rightarrow (x_{0},y_{0})} g(x,y) = L_{2} $

Entonces

$\lim\limits_{(x,y) \rightarrow (x_{0},y_{0})} f(x,y) + g(x,y) = L_{1} + L_{2} $
$\lim\limits_{(x,y) \rightarrow (x_{0},y_{0})} f(x,y) - g(x,y) = L_{1} - L_{2} $
$\lim\limits_{(x,y) \rightarrow (x_{0},y_{0})} f(x,y) \cdot g(x,y) = L_{1} \cdot L_{2}$
$\lim\limits_{(x,y) \rightarrow (x_{0},y_{0})} f(x,y) / g(x,y) = L_{1} / L_{2}$, para $L_{2} \neq 0$

Límite de una raíz

Sea $f(x,y)$ una función de dos variables y $n$ un número positivo, entonces

$\lim\limits_{(x,y) \rightarrow (x_{0},y_{0})} \sqrt[n]{f(x,y)} = \sqrt[n]{L}$

Hasta ahora solo se ha visto la definición del límite en funciones con dos variables, sin embargo, la definición del límite para funciones de más de dos variables se puede extender de la definición en funciones con dos variables, como vemos a continuación.

Sea $f(x_{1},x_{2},...,x_{n})$ una función de $n$ variables definida en una bola (conjunto de puntos que distan de otro igual o menos que una distancia dada) con centro en un punto $p$. Decimos que el límite de $f(x_{1},x_{2},...,x_{n})$, cuando $(x_{1},x_{2},...,x_{n})$ se aproxima al punto $p$ que se encuentra en el dominio de $f(x_{1},x_{2},...,x_{n})$ es

$\lim\limits_{(x_{1},x_{2},...,x_{n}) \rightarrow p} f(x_{1},x_{2},...,x_{n}) = L $

si para cada número $\epsilon > 0$, existe un número $\delta > 0$ tal que, para todo $(x_{1},x_{2},...,x_{n})$ en el dominio de $f(x_{1},x_{2},...,x_{n})$ se cumple que

$|f(x_{1},x_{2},...,x_{n}) - L| < \epsilon$ cuando $0 < ||(x_{1},x_{2},...,x_{n}) - p|| < \delta$

De la misma manera las leyes de los límites en funciones con más de dos variables son análogas a las leyes de funciones con una variable.

Como se dijo anteriormente calcular límites mediante tablas y graficando es poco eficiente, es por eso que la forma más adecuada de calcular los límites es utilizando las leyes de los límites, como vemos en los siguientes ejemplos.

Ejemplo 1: Calcule $\lim\limits_{(x,y) \rightarrow (1,2)} \frac{5x^{2}y}{x^{2}+y^{2}}$

Usando las leyes de suma y producto.

$\lim\limits_{(x,y) \rightarrow (1,2)} 5x^{2}y = 5\cdot(1)^{2}\cdot2 = 10$

$\lim\limits_{(x,y) \rightarrow (1,2)} x^{2} + y^{2} = 1^{2} + 2^{2} = 5$

Usando la ley de la división

$\lim\limits_{(x,y) \rightarrow (1,2)} \frac{5x^{2}y}{x^{2}+y^{2}} = \frac{10}{5} = 2$

Ejemplo 2: Calcule $\lim\limits_{(x,y,z) \rightarrow (2,1,-1)} 3x^{2}z+yx \cdot cos(\pi x - \pi z)$

Usando las leyes de suma y producto

$\lim\limits_{(x,y,z) \rightarrow (2,1,-1)} 3x^{2}z+yx \cdot cos(\pi x - \pi z) $

$= 3(2)^{2}(-1) + (1)(2) \cdot cos(2 \pi + \pi) = -12 + 2(-1) = -14$

Ejemplo 3: Calcule $\lim\limits_{(x,y) \rightarrow (1,1)} \frac{2x^{2} - xy -y^{2}}{x^{2} - y^{2}} $

Como el denominador tiende a $0$ cuando $(x,y) \rightarrow (1,1)$ no podemos utilizar la ley de la división. Es por eso que factorizamos tanto al numerador como al denominador, ya que de esa manera obtenemos una fracción a la cual le podemos calcular el límite.

$\lim\limits_{(x,y) \rightarrow (1,1)} \frac{2x^{2} - xy -y^{2}}{x^{2} - y^{2}} = \lim\limits_{(x,y) \rightarrow (1,1)} \frac{(2x+y)(x-y)}{(x-y)(x+y)} = \lim\limits_{(x,y) \rightarrow (1,1)} \frac{(2x+y)}{(x+y)} $

Ahora si podemos usar la ley de la división

$\lim\limits_{(x,y) \rightarrow (1,1)} 2x+y = 2(1) + 1 = 3$

$\lim\limits_{(x,y) \rightarrow (1,1)} x+y = 1+1 = 2$

$\Rightarrow \lim\limits_{(x,y) \rightarrow (1,1)} \frac{(2x+y)}{(x+y)} = \frac{3}{2}$

Límites que no existen

Al igual que en funciones con una variable hay ocasiones en las que el límite no existe, para explicarlo en funciones con varias variables de nueva cuenta se considerarán las funciones de dos variables.

Cuando nos aproximamos a un punto $(x_{0},y_{0})$ lo podemos hacer en todas la direcciones del plano. A veces, al calcular un límite cuando nos aproximamos a un punto $(x_{0},y_{0})$ por diferentes direcciones el resultado varía, cuando esto ocurre decimos que el límite no existe ya que el límite debe ser siempre el mismo, independientemente de la dirección en la que nos estemos aproximando.

Por ejemplo, consideremos el límite $\lim\limits_{(x,y) \rightarrow (0,0)} \frac{2xy}{3x^{2} + y^{2}} $. El dominio de la función $f(x,y) = \frac{2xy}{3x^{2} + y^{2}} $ son todos los puntos $(x,y)$ que se encuentran en el plano (excepto el punto $(0,0)$). Si nos aproximamos a $(0,0)$ por la dirección donde $y = 0$ obtenemos los siguiente

$f(x,0) = \frac{2x(0)}{3(x)^{2} + 0^{2}} = \frac{0}{3x^{2}} = 0$

Ahora, si nos aproximamos a $(0,0)$ por la dirección donde $y=x$ obtenemos lo siguiente

$f(x,x) = \frac{2x^{2}}{3(x)^{2} + x^{2}} = \frac{2x^{2}}{4x^{2}} = \frac{1}{2}$

Observa que obtenemos valores diferentes cuando $y=0$ y $y=x$.

Como vemos obtenemos dos valores distintos cuando nos aproximamos por direcciones distintas. Por lo tanto decimos que el límite no existe.

En la podemos ver que para la función $f(x,y) = \frac{2xy}{3x^{2}+y^{2}}$, si nos aproximamos al punto $(0,0)$ por la dirección donde $y = 0$ obtenemos un resultado diferente al que obtenemos cuando nos aproximamos por la dirección donde $y= x$.

Continuidad en funciones con varias variables

Ya se ha definido la continuidad en un punto para funciones de una sola variable, la cual se basa en el límite de la función en dicho punto y debe cumplir tres condiciones (). Estas condiciones también son necesarias en funciones con varias variables y se generalizan como sigue.

Sea $f(x_{1},x_{2},...,x_{n})$ una función de $n$ variables, decimos que $f$ es continua en un punto $(a_{1},a_{2},...,a_{n})$ si se cumplen las siguientes condiciones:

$f(a_{1},a_{2},...,a_{n})$ existe.
Existe el límite de $f(x_{1},x_{2},...,x_{n})$ en $(a_{1},a_{2},...,a_{n})$.
La imagen de $(a_{1},a_{2},...,a_{n})$ y el límite de la función en $(a_{1},a_{2},...,a_{n})$ son iguales.

Si el punto $(a_{1},a_{2},...,a_{n})$ no cumple con alguna de estas condiciones decimos que la función es discontinua en ese punto.

Ejemplo: Estudiemos la continuidad de la función $\frac{2xy}{3x^2+y^2}$ en los punto $(2,1)$ y $(0,0)$.

Primero vemos si $f(x,y)$ cumple las condiciones de continuidad en $(2,1)$.

La función $f(x,y)$ existe en $(2,1)$

$f(2,1) = \frac{4}{13}$

Existe el límite de $f(x,y)$ en $(2,1)$

$\lim\limits_{(x,y) \rightarrow (2,1)} \frac{2xy}{3x^{2} + y^{2}} = \frac{\lim\limits_{(x,y) \rightarrow (2,1)} 2xy}{\lim\limits_{(x,y) \rightarrow (2,1)} 3x^{2} + y^{2}} = \frac{4}{13}$

La imagen de $(2,1)$ y el límite de la función en $(2,1)$ coinciden

$f(2,1) = \frac{4}{13} = \lim\limits_{(x,y) \rightarrow (2,1)} \frac{2xy}{3x^{2} + y^{2}}$

Como se cumplen las tres condiciones entonces la función es continua en el punto $(2,1)$. Ahora veamos que pasa en el punto $(0,0)$.

La función no existe en $(0,0)$

$f(0,0) = \frac{0}{0} = $ indefinido

Como no cumple con una condición decimos que la función es discontinua en el punto $(0,0)$.

En esta sección se explicará cómo definir las derivadas parciales de funciones de varias variables e interpretarlas geométricamente. Además se explicará cómo calcular aplicando las reglas para derivar funciones de una sola variable.

Derivadas en funciones con una variable

Para entender el concepto de derivada primero tenemos que comprender la idea intuitiva de la misma. Para eso podemos interpretar gráficamente la derivada de una función como la pendiente de una curva.

Línea tangente

Comenzamos el estudio de la derivada revisando la noción de líneas secante y líneas tangentes. La pendiente de una recta secante a una función $y = f(x)$ en un punto $(a,f(x))$ se usa para estimar la tasa de cambio en relación con otra variable. Esta se puede obtener eligiendo un valor $x$ cerca de $a$ y trazando una línea a través de los puntos $(a,f(a))$ y $(x,f(x))$ como vemos en la . La cual viene dada por la ecuación:

$m_{sec} = \frac{f(x) - f(a)}{x-a}$

En el caso de la línea tangente no es tan directo. Supongamos que queremos hallar la tangente a una curva $y = f(x)$ en el punto $(a,f(a))$, lo que podemos hacer es aproximar la tangente por rectas secantes, en particular consideramos la recta secante que une el punto $(a,f(a))$ y $(a,f(x))$.

En la podemos ver que mientras más cerca estén los punto $(a,f(a))$,$(x,f(x))$ la secante va siendo una mejor aproximación de la tangente.

Mueve los puntos $(a,f(a))$, $(x,f(x))$ y observa que mientras más cercanos están, la línea secante se aproxima más a una línea tangente en el punto $(a,f(a))$.

Lo que nos lleva a definir la tangente como la recta que pasa por el punto $(a,f(a))$ y cuya pendiente es el límite

$\lim\limits_{x \rightarrow a} \frac{f(x) - f(a)}{x-a}$

Sea $f(x)$ una función definida en un intervalo abierto que contiene a $a$. La línea tangente a $f(x)$ en $a$ es la línea que pasa a través del punto $(a,f(a))$ teniendo como pendiente

$m_{tan} = \lim\limits_{x \rightarrow a} \frac{f(x) - f(a)}{x-a}$

supuesto que dicho límite exista.

De manera equivalente se suele definir la línea tangente a $f(x)$ en $a$, como la línea que pasa a través del punto $(a,f(a))$ teniendo como pendiente

$m_{tan} = \lim\limits_{h \rightarrow 0} \frac{f(a+h) - f(a)}{h}$

Donde $h = x-a$.

Razón de cambio y Derivada en un punto

La razón de cambio de una variable con respecto de otra es la magnitud de cambio de una variable por unidad de cambio de otra. En el caso de las funciones de una variable $f(x)$ o como se suele escribir $y = f(x)$ son funciones que relacionan una variable dependiente $y$ con otra variable independiente $x$. Si la variable independiente cambia de un valor inicial $a$ a otro $x$, la variable dependiente lo hace de $f(a)$ a $f(x)$.

En la vida diaria se determinan razones de cambio de diversas situaciones donde se estudia la variación de una cantidad que depende de otra.

Por ejemplo, si queremos obtener la velocidad promedio de un automóvil podemos definir una razón de cambio promedio de una función $y=f(x)$ con respecto a $x$ en el intervalo $[a,x]$ como:

Razón de cambio promedio = $\frac{distancia}{tiempo} = \frac{\varDelta y}{\varDelta x} = \frac{f(x) - f(a)}{x-a}$

Donde $a$ es menor a $x$ y $f(x) - f(a)$ es la distancia recorrida entre los instantes de tiempo $t = a , t = b$.

Como podemos apreciar, la razón de cambio promedio es igual a la definición de la recta secante del punto $(a,f(a))$ al punto $(x,f(x))$. Nota: Por convención para denotar cambios en variables se utiliza la letra griega $\varDelta$ es por eso que escribimos la razón de cambio promedio como $\frac{\varDelta y}{\varDelta x}$.

En algunos casos nos interesa considerar razones de cambio en intervalos más pequeños, es decir hacer $\varDelta x \rightarrow 0$, lo que es conocido como la razón de cambio instantánea de $y$ con respecto de $x$. Por ejemplo, si queremos calcular la velocidad de un automóvil en un instante de tiempo en concreto entonces calculamos la razón de cambio en un intervalo lo suficientemente pequeño como para decir que en ese intervalo la velocidad es constante, es decir calculamos el límite :

Razón de cambio instantánea = $\lim\limits_{x \rightarrow a} \frac{\varDelta y}{\varDelta x} = \lim\limits_{x \rightarrow a} \frac{f(x) - f(a)}{x-a}$

Como vemos, la razón de cambio instantánea es igual a la definición de la línea tangente a un punto. Este límite ocurre con tanta frecuencia que se le ha dado el nombre de derivada y se define como sigue.

Sea $f(x)$ una función definida en un intervalo abierto que contiene a $a$. La derivada de $f(x)$ en $a$ es denotada como $f'(x)$ y se define como:

$\lim\limits_{\varDelta x \rightarrow 0} \frac{\varDelta y}{\varDelta x} = \lim\limits_{x \rightarrow a} \frac{f(x) - f(a)}{x-a}$

o de manera equivalente

$\lim\limits_{\varDelta x \rightarrow 0} \frac{\varDelta y}{\varDelta x} = \lim\limits_{h \rightarrow 0} \frac{f(a+h) - f(a)}{h}$

Ejemplo: Para $f(x) = 3x^{2} - 4x$, calcule el valor de $f'(2)$.

Sustituimos los valores en la definición

$\lim\limits_{x \rightarrow 2} \frac{f(x) - f(2)}{x - 2} = \lim\limits_{x \rightarrow 2} \frac{(3x^{2} - 4x) - 4}{x - 2}$

$ = \lim\limits_{x \rightarrow 2} \frac{(x-2)(3x+2)}{x - 2}$

$ = \lim\limits_{x \rightarrow 2} (3x+2) = 3(2) + 2 = 8$

Cálculo de la derivada en funciones

Utilizando la definición también podemos calcular la derivada de funciones definidas para todo valor de $x$ perteneciente a los reales. Por ejemplo, calculemos el límite de la función $f(x) = 3x^{2} - 4x$ que se vio en el ejemplo anterior, pero esta vez para todos los valores de $x$. Utilizamos la definición alternativa y tenemos que:

$f'(x) = \lim\limits_{h \rightarrow 0} \frac{f(x+h) - f(x)}{h} $

$= \lim\limits_{h \rightarrow 0} \frac{(3(x+h)^{2} - 4(x+h)) - (3x^{2} - 4x)}{h} $

$ = \lim\limits_{h \rightarrow 0} \frac{(3(x^{2} + 2xh + h^{2}) - 4x - 4h) - (3x^{2} - 4x)}{h}$

$=\lim\limits_{h \rightarrow 0} \frac{(3x^{2} + 6xh + 3h^{2} - 4x - 4h) - (3x^{2} - 4x)}{h}$

$= \lim\limits_{h \rightarrow 0} \frac{3x^{2} + 6xh + 3h^{2} - 4x - 4h - 3x^{2} + 4x}{h} $

$= \lim\limits_{h \rightarrow 0} \frac{3x^{2} + 6xh + 3h^{2} - 4x - 4h - 3x^{2} + 4x}{h} = \lim\limits_{h \rightarrow 0} \frac{6xh + 3h^{2} - 4h}{h}$

$= \lim\limits_{h \rightarrow 0} \frac{h(6x + 3h - 4)}{h} = \lim\limits_{h \rightarrow 0} 6x + 3h - 4 = 6x - 4$

Entonces $f'(x) = 6x - 4$. En el ejemplo anterior obtenemos que $f'(2) = 8$. Si sustituimos el $2$ en $f'(x) = 6(2) - 4 = 8$ obtenemos el mismo resultado.

Reglas de derivación

Aunque podemos calcular todas las derivadas utilizando la definición como un límite, el proceso puede ser bastante tedioso como vimos en el ejemplo anterior, es por eso que existen reglas establecidas que sirven para el cálculo de las derivadas, las cuales nos permiten calcular la derivada de muchas funciones sin tener que calcular el límite. Esta reglas son conocidas como reglas de derivación y se enuncian en los siguientes teoremas.

Derivada de una constante

Sea $f(x)$ una función y $c$ una constante. Si $f(x) = c$, entonces

$f'(x) = \frac{dy}{dx}(c) =0 $

Donde $\frac{dy}{dx} = \lim\limits_{\varDelta x \rightarrow 0} \frac{\varDelta y}{\varDelta x}$ y es llamada notación de Leibniz.

Derivada de una función de grado $n$

Sea $f(x)$ una función y $n$ un entero positivo. Si $f(x) = x^{n}$, entonces

$f'(x) = \frac{dy}{dx} (x^{n}) = nx^{n-1}$

Derivada de una constante por una función

Sea $f(x)$ una función y $c$ una constante, entonces

$f'(x) =\frac{dy}{dx} (c\cdot f(x)) = c \cdot \frac{dy}{dx} (f(x))$

Derivadas de la suma y la diferencia de funciones

Sean $f(x)$ y $g(x)$ dos funciones y $k$ una constante, entonces

$f'(x) = \frac{dy}{dx} [f(x) + g(x)] = \frac{dy}{dx} (f(x)) + \frac{dy}{dx} (g(x))$
$f'(x) = \frac{dy}{dx} [f(x) - g(x)] = \frac{dy}{dx} (f(x)) - \frac{dy}{dx} (g(x))$

Derivada del producto de funciones

Sean $f(x)$ y $g(x)$ funciones , entonces

$f'(x) =\frac{dy}{dx} (f(x) \cdot g(x)) = \frac{dy}{dx} (f(x)) \cdot g(x) + \frac{dy}{dx} (g(x)) \cdot f(x)$

Derivada de la división de funciones

Sean $f(x)$ y $g(x)$ funciones , entonces

$f'(x) =\frac{dy}{dx} \left(\frac{f(x)}{g(x)}\right) = \frac{\frac{dy}{dx} (f(x)) \cdot g(x) - \frac{dy}{dx} (g(x)) \cdot f(x)}{(g(x))^{2}}$

Derivadas en funciones de varias variables

Ya hemos visto como calcular derivadas en funciones con una variable, ahora veremos cómo calcularlas en funciones con varias variables, para eso primero explicaremos el caso particular de funciones con dos variables para después generalizar a $n$ variables.

Cuando se estudian las derivadas en funciones con una variable, hacemos la interpretación como la razón de cambio instantánea de $y$ con respecto de $x$, es decir $\frac{dy}{dx}$, lo que implica que $y$ es la variable dependiente y $x$ la independiente. En funciones con dos variables $z = f(x,y)$, $y$ y $x$ son las variables independientes y $z$ es la variable dependiente. Entonces para hacer la interpretación de la derivada en este tipo de funciones supongamos que solo hacemos variar a una de las variables independientes, digamos $x$, mientras mantenemos fija a $y$, digamos $y = b$, donde $b$ es una constante.

Lo que hacemos es considerar en realidad a una función de una variable $x$, a saber $g(x) = f(x,b)$. Ahora, si consideramos un valor $a$ y $g(x)$ tiene derivada $a$, entonces la denominamos derivada parcial de $f(x,b)$ con respecto de $x$ en el punto $(a,b)$ y la denotamos como $f_{x}(a,b)$ o bien $\frac{\partial f}{\partial x}$. Por consiguiente

$f_{x} (a,b) = g'(a)$ donde $g(x) = f(x,b)$

De acuerdo con la definición de la derivada tenemos

$g'(a)= \lim\limits_{h \rightarrow 0} \frac{g(a+h) - g(a)}{h} $

Por lo que $f_{x} (a,b) = g'(a)$ se transforma en

$\frac{\partial f}{\partial x} = f_{x} (a,b) = \lim\limits_{h \rightarrow 0} \frac{f(a+h,b) - f(a,b)}{h} $

De la misma manera, la derivada parcial de $f(x,y)$ con respecto a $y$ en el punto $(a,b)$, denotada como $f_{y}(a,b)$ o bien $\frac{\partial f}{\partial y}$, es

$\frac{\partial f}{\partial y} = f_{y} (a,b) = \lim\limits_{h \rightarrow 0} \frac{f(a,b + h) - f(a,b)}{h} $

Con estas ecuaciones podemos calcular las derivadas en un punto específico, pero si dejamos que $(a,b)$ varíen, entonces obtenemos la siguiente definición.

Sea $f(x,y)$ una función de dos variables. Entonces la derivada parcial de $f(x,y)$ con respecto de $x$ es

$\frac{\partial f}{\partial x} = f_{x} (x,y) = \lim\limits_{h \rightarrow 0} \frac{f(x+h,y) - f(x,y)}{h} $

Y la derivada parcial de $f(x,y)$ con respecto de $y$ es

$\frac{\partial f}{\partial y} = f_{y} (x,y) = \lim\limits_{h \rightarrow 0} \frac{f(x,y + h) - f(x,y)}{h} $

Ejemplo: Si $f(x,y) = x^{2} + y^{2} + 2y$, determine $f_{x}$ y $f_{y}$

Para calcular $f_{x}$ primero calculamos $f(x+h,y)$

$f(x+h,y) = (x+h)^{2} + y^{2} + 2y $

$= x^{2} + 2xh + h^{2} + y^{2} + 2y$

Aplicamos la definición

$f_{x} (x,y) = \lim\limits_{h \rightarrow 0} \frac{(x^{2} + 2xh + h^{2} + y^{2} + 2y)- (x^{2} + y^{2} + 2y)}{h}$

$\lim\limits_{h \rightarrow 0} \frac{x^{2} + 2xh + h^{2} + y^{2} + 2y- x^{2} - y^{2} - 2y}{h} = \lim\limits_{h \rightarrow 0} \frac{2xh + h^{2}}{h}$

$\lim\limits_{h \rightarrow 0} \frac{h(2x + h)}{h} = \lim\limits_{h \rightarrow 0} (2x + h) = 2x$

Para calcular $f_{y}$ primero calculamos $f(x,y+h)$

$f(x,y+h) = x^{2} + (y+h)^{2} + 2(y+h)$

$= x^{2} + y^{2} + 2yh + h^{2} + 2y + 2h$

Aplicamos la definición

$f_{y} (x,y) = \lim\limits_{h \rightarrow 0} \frac{(x^{2} + y^{2} + 2yh + h^{2} + 2y + 2h) - ( x^{2} + y^{2} + 2y)}{h} $

$= \lim\limits_{h \rightarrow 0} \frac{x^{2} + y^{2} + 2yh + h^{2} + 2y + 2h - x^{2} - y^{2} - 2y}{h}$

$= \lim\limits_{h \rightarrow 0} \frac{2yh + h^{2} + 2h}{h} = \lim\limits_{h \rightarrow 0} \frac{h(2y + h + 2)}{h}$

$= \lim\limits_{h \rightarrow 0} 2y + h + 2 = 2y + 2$

Interpretación geométrica

Para dar la interpretación geométrica de las derivadas parciales, recordemos que para la función $z = f(x,y)$ su gráfica es una superficie $S$. Si $f(x,y) = c$, entonces el punto $(x,y,c)$ está situado sobre la superficie $S$.

Si hacemos $y = b$, estamos enfocando nuestra atención en una curva que llamaremos curva $C_{1}$, en la cual el plano vertical $y = b$ interseca a $S$ (es decir $C_{1}$ es la traza de $S$ en el plano $y = b$). De la misma manera, el plano vertical $x = a$ interseca a $S$ en una curva $C_{2}$ como se observa en la

La curva $C_{1}$ es la gráfica de la curva $f(x,b)$ y la pendiente de su tangente $T_{1}$ es $f_{x}$. De igual manera para la curva $C_{2}$, la pendiente de su tangente es $f_{y}$. Por lo tanto, las derivadas parciales $f_{x}$ y $f_{y}$, se pueden interpretar de manera geométrica como las pendientes de las tangentes en el punto $(a,b,c)$ a las trazas de $C_{1}$ y $C_{2}$ de $S$ en los planos verticales $y = b$ y $x = a$.

Observa la líneas tangentes de las curvas formadas por $f(x,b)$ y $f(a,y)$.

Derivadas en funciones con más de dos variables

Las definiciones de las derivadas en funciones con más de dos variables son análogas a las definiciones de las derivada en funciones con dos variables, en general:

Si $f(x_{1},x_{2},...,x_{n})$ es una función de $n$ variables, su derivada parcial con respecto a la $i-esima$ variable $x_{i}$ es

$\frac{\partial f}{\partial x_{i}} = f_{x_{i}} (x_{1},x_{2},...,x_{n}) $

$ = \lim\limits_{h \rightarrow 0} \frac{f(x_{1},x_{2},...,x_{i-1},x_{i}+h,x_{i+1},...,x_{n}) - f(x_{1},...,x_{i},...,x_{n})}{h}$

Calcular derivadas parciales con reglas de derivación

Ya vimos como calcular derivadas parciales de una función con más de una variable utilizando la definición, ahora veremos cómo calcularlas utilizando las reglas de derivación en funciones con una variable. Como ya vimos, en las derivadas parciales lo que hacemos es mantener a todas la variables como constantes a excepción de una, por lo tanto estamos derivando con respecto de una sola variable, es por eso que podemos utilizar sin ningún problema las reglas de derivación de las funciones de una variable para calcular las derivadas de funciones de varias variables como vemos en los siguientes ejemplos

Ejemplo 1: Si $f(x,y) = x^{2} + y^{2} + 2y$, determine $f_{x}$ y $f_{y}$

$f_{x} (x,y) = \frac{d}{dx} (x^{2}) + \frac{d}{dx} (y^{2}) + \frac{d}{dx} (2y) $

$= 2x + 0 + 0 = 2x$

$f_{y} (x,y) = \frac{d}{dy} (x^{2}) + \frac{d}{dy} (y^{2}) + \frac{d}{dy} (2y) $

$= 0 + 2y + 2 =2y + 2$

Ese ejemplo es el mismo que hicimos aplicando la definición. Como vemos obtuvimos los mismo resultados y el procedimiento fue más sencillo.

Ejemplo 2: Si $f(x,y,z) = x^{2} + sen(y) + z^{3}$, determine $f_{x}$, $f_{y}$ y $f_{z}$

$f_{x} (x,y,z) = \frac{d}{dx} (x^{2}) + \frac{d}{dx} (sen(y)) + \frac{d}{dx} (z^{3}) $

$= 2x + 0+ 0 = 2x$

$f_{y} (x,y,z) = \frac{d}{dy} (x^{2}) + \frac{d}{dy} (sen(y)) + \frac{d}{dy} (z^{3}) $

$= 0 +cos(y) + 0 = cos(y)$

$f_{z} (x,y,z) = \frac{d}{dz} (x^{2}) + \frac{d}{dz} (sen(y)) + \frac{d}{dz} (z^{3}) $

$= 0 + 0 +3z^{2} = 3z^{2}$

Propiedades de la derivada.

Derivadas parciales de orden superior

En funciones con varias variables las derivadas de orden superior se producen al derivar $n$ veces una función. Por ejemplo, si derivamos una función $f(x,y)$ dos veces producimos derivadas de segundo orden. En principio hay cuatro ($2^{2}$) derivadas y se denotan como:

$\frac{\partial^{2}f}{\partial x^{2}} = \frac{\partial}{\partial x} \left(\frac{\partial f}{\partial x}\right)$ o bien $f_{xx}$

$\frac{\partial^{2}f}{\partial y^{2}} = \frac{\partial}{\partial y} \left(\frac{\partial f}{\partial y}\right)$ o bien $f_{yy}$

$\frac{\partial^{2}f}{\partial x \partial y} = \frac{\partial}{\partial x} \left(\frac{\partial f}{\partial y}\right)$ o bien $f_{yx}$

$\frac{\partial^{2}f}{\partial y \partial x} = \frac{\partial}{\partial y} \left(\frac{\partial f}{\partial x}\right)$ o bien $f_{xy}$

Por lo tanto, la notación $f_{xy}$ significa que primero se deriva con respecto de $x$ y después con respecto de $y$.

Ejemplo: Determine las derivadas de segundo orden de $f(x,y) = x^{3}y^{2} - 2y^{3}$.

Primero calculamos $\frac{\partial f}{\partial x}$ y $\frac{\partial f}{\partial y}$

$\frac{\partial f}{\partial x} = \frac{d}{dx} (x^{3}y^{2}) - \frac{d}{dx} (2y^{3}) = 3x^{2}y^{2} - 0 = 3x^{2}y^{2}$

$\frac{\partial f}{\partial y} = \frac{d}{dy} (x^{3}y^{2}) - \frac{d}{dy} (2y^{3}) = 2x^{3}y - 6y^{2}$

Ahora calculamos las derivadas de segundo orden

$f_{xx} = \frac{\partial}{\partial x} (3x^{2}y^{2}) = 6xy^{2}$

$f_{yx} = \frac{\partial}{\partial x} (2x^{3}y - 6y^{2}) = 6x^{2}y - 0 = 6x^{2}y$

$f_{xy} = \frac{\partial}{\partial y} (3x^{2}y^{2}) = 6x^{2}y$

$f_{yy} = \frac{\partial}{\partial y} (2x^{3}y - 6y^{2}) = 2x^{3} - 12y$

Las derivadas de tercer orden y de órdenes superiores se definen de manera análoga, por ejemplo:

$\frac{\partial^{3} f}{\partial x^{3}} = \frac{\partial}{\partial x} \left(\frac{\partial^{2} f}{\partial x^{2}}\right) = f_{xxx}$

$\frac{\partial^{3} f}{\partial x \partial y \partial x} = \frac{\partial}{\partial x} \left(\frac{\partial^{2} f}{\partial y \partial x}\right) = f_{xyx}$

Observemos del ejemplo anterior que $f_{xy} = f_{yx}$. Esto no es una coincidencia, se debe a que las derivadas combinadas $f_{xy}$ y $f_{yx}$ son iguales para la mayoría de las funciones que se utilizan en la práctica.

El siguiente teorema fue descubierto por el matemático Alexis Clairaut y dice que $f_{xy} = f_{yx}$ siempre que se cumplan ciertas condiciones.

Suponga que una función $f(x,y)$ está definida sobre un disco $D$ (un conjunto de puntos $(x,y)$ dentro de un disco de radio $r$ en el plano) que contiene el punto $(a,b)$. Si tanto la función $f_{xy}$ como $f_{yx}$ son continuas sobre $D$, entonces

$f_{xy} (a,b) = f_{yx} (a,b)$

Este teorema no se limita a derivadas de segundo orden, por ejemplo, mediante el teorema de Clairaut se puede demostrar que las derivadas de tercer orden $f_{xyy} = f_{xyx} = f_{yyx}$ si estas funciones son continuas.

Ecuaciones diferenciales parciales

Una ecuación diferencial parcial es una ecuación que involucra derivadas parciales de una función desconocida con dos o más variables independientes.

Las ecuaciones diferenciales parciales se emplean en la formulación matemática de procesos de la física y otras ciencias, por ejemplo en las ecuaciones que expresan ciertas leyes de la física aparecen derivadas parciales. Como la ecuación diferencial parcial:

$\frac{\partial^{2} u}{\partial x^{2}} + \frac{\partial^{2} u }{\partial y^{2}} = 0$ o bien $u_{xx} + u_{yy} = 0$

llamada ecuación de Laplace, donde las soluciones de esta ecuación recibe el nombre de funciones armónicas, y desempeñan un papel importante en problemas como la conducción de calor, flujo de fluidos y potencial eléctrico. Como vemos, en esta ecuación la función desconocida $u$ tiene dos variables independientes $x$ e $y$.

Ejemplo: Compruebe que la función $u(x,t) = cos(x + at) + sen(x - at)$ satisface la ecuación de la onda dada por $u_{tt} = a^{2} \cdot u_{xx}$.

Primero calculamos $u_{x}$ y $u_{t}$

$u_{x} = -sen(x + at) + cos(x-at)$

$u_{t} = -sen(x + at) \cdot a + cos(x - at) \cdot a$

$ = -a \cdot sen(x+at) - a \cdot cos(x - at)$

Ahora $u_{xx}$ y $u_{tt}$

$u_{xx} = -cos(x+at) - sen(x-at)$

$u_{tt} = -a \cdot cos(x + at) \cdot a + a \cdot sen(x -at) \cdot -a$

$ = -a^{2} \cdot cos(x+at) - a^{2} \cdot sen(x -at)$

Comprobamos que $u_{tt} = a^{2} \cdot u_{xx}$

$a^{2} \cdot u_{xx} = a^{2} \cdot (-cos(x+at) - sen(x-at)) $

$= -a^{2} \cdot cos(x+at) - a^{2} \cdot sen(x-at) = u_{tt}$

De este modo $u$ satisface la ecuación de la onda.

Planos tangentes

En derivadas con una sola variable vimos que en el plano, una sola recta puede ser tangente a una curva en un punto. En el caso de funciones de dos variables $f(x,y)$, en lugar de una recta tangente podemos construir un plano tangente. Como sabemos, la gráfica de una función de dos variables es una superficie $S$, por lo cual está situada en un espacio de tres dimensiones. Entonces un punto que se encuentre sobre la superficie $S$ puede tener muchas rectas tangentes en diferentes direcciones. Si estas rectas se encuentran en el mismo plano, entonces determinan el plano tangente en ese punto.

Intuitivamente un plano tangente es una superficie lisa en un punto. Ahora que tenemos la idea de lo que es un plano tangente, veremos cómo podemos aproximarlo mediante una función lineal de dos variables.

Supongamos que tenemos una función de dos variables $z = f(x,y)$, donde las primeras derivadas de $f$ son continuas, y sea $P_{0} = (x_{0},y_{0},z_{0})$ un punto en la superficie $S$ que representa su gráfica. Si tomamos dos curvas $C_{1}$ y $C_{2}$ que intersecan a los planos verticales $y = y_{0}$ y $x = x_{0}$ en la superficie $S$.

Entonces, el punto $P_{0}$ se encuentra tanto en $C_{1}$ y $C_{2}$. Sean $T_{1}$ y $T_{2}$ las rectas tangentes a las curvas $C_{1}$ y $C_{2}$ en el punto $P_{0}$. Entonces el plano tangente a la superficie $S$ en el punto $P_{0}$ se define como el plano que contiene las rectas tangentes $T_{1}$ y $T_{2}$ como vemos en la .

Plano tangente que contiene las rectas tangentes $T_{1}$ y $T_{2}$.

Este es un caso particular pero si tomamos a cualquier curva $C$ que se encuentre en $S$ y pase por el punto $P$, entonces su tangente en $P$ también está en el plano tangente. Por lo tanto podemos pensar que el plano tangente a $S$ en $P$ consiste en todas las tangentes posibles a $P$ en curvas que intersecan a $S$ y pasen por $P$. Donde cualquier plano que pase por un punto $P(x_{0},y_{0},z_{0})$ tiene una ecuación de la forma

$A(x-x_{0}) + B(y - y_{0}) + C(z - z_{0}) = 0$

Esto quiere decir que a medida que ajustamos los valores de $A$ y $B$ (combinaciones lineales), esta ecuación nos dará varios planos que pasan por la gráfica de $f$ en el punto $(x_{0},y_{0})$, pero solo uno de ellos va a ser el plano tangente.

Si dividimos esa ecuación entre $C$ y hacemos $a = \frac{-A}{C}, b= \frac{-B}{C}$ la podemos reescribir como:

$\frac{A}{C}(x-x_{0}) + \frac{B}{C}(y - y_{0}) + (z - z_{0}) = 0$

$\Rightarrow \frac{A}{C}(x-x_{0}) + \frac{B}{C}(y - y_{0}) = -(z - z_{0})$

$\Rightarrow \frac{-A}{C}(x-x_{0}) + \frac{-B}{C}(y - y_{0}) = (z - z_{0})$

$\Rightarrow a(x-x_{0}) + b(y - y_{0}) = z - z_{0}$

Si esta ecuación representa al plano tangente en $P$, entonces su intersección en el plano $y=y_{0}$ debe ser la recta tangente $T_{1}$. Al hacer $y = y_{0}$ de la ecuación anterior obtenemos

$z-z_{0} = a(x-x_{0})$ donde $y = y_{0}$

e identificamos esta expresión como la ecuación de una recta con pendiente $a$. En particular la pendiente de la recta tangente $T_{1} $ es $f_{x}(x_{0},y_{0})$, por lo tanto $a = f_{x}(x_{0},y_{0})$. De manera similar la pendiente de la recta tangente $T_{2}$ es $f_{y}(x_{0},y_{0})$, entonces $b = f_{y}(x_{0},y_{0})$. De lo anterior podemos definir la ecuación para calcular un plano tangente.

Sea $S$ una superficie definida por una función diferenciable $z = f(x,y)$, y sea $P = (x_{0},y_{0})$ un punto en el dominio de $f$. Entonces, la ecuación del plano tangente a $S$ en $P_{0}$ está dada por

$z = f(x_{0},y_{0}) + f_{x} (x_{0},y_{0})(x - x_{0}) + f_{y}(x_{0},y_{0})(y-y_{0})$

Esta definición nos dice que para que exista un plano tangente en un punto $P$, es suficiente que la función que define la superficie sea diferenciable en $P$. Intuitivamente que una función sea diferenciable quiere decir que es posible derivar la función al menos una vez y veremos su definición a profundidad más adelante.

Ejemplo: Calcule el plano tangente de la gráfica definida por $z = \sqrt{4-x^{2}-y^{2}}$, en el punto $(1,1,\sqrt{2})$.

Tenemos que $f(x,y) = \sqrt{4-x^{2}-y^{2}}$, entonces sus derivadas parciales son:

$f_{x} (x,y) = \frac{-x}{\sqrt{4-x^{2}-y^{2}}}$, entonces $f_{x}(1,1) = \frac{-1}{\sqrt{2}}$

$f_{y} (x,y) = \frac{-y}{\sqrt{4-x^{2}-y^{2}}}$, entonces $f_{y}(1,1) = \frac{-1}{\sqrt{2}}$

Ya calculamos $f_{x} (1,1) \simeq -0.71$ y $f_{y} (1,1) \simeq -0.71$. En la podemos comprobar que obtenemos un plano tangente al utilizar los valores de estas derivadas parciales en la función lineal de la .

Y de la ecuación del plano tangente tenemos que

$z = \frac{-1}{\sqrt{2}}(x-1) + \frac{-1}{\sqrt{2}}(y-1) + \sqrt{2}$

$\Rightarrow z = -\frac{x}{\sqrt{2}} + \frac{1}{\sqrt{2}} - \frac{y}{\sqrt{2}} + \frac{1}{\sqrt{2}} + \sqrt{2} $

$\Rightarrow z = -\frac{x}{\sqrt{2}} - \frac{y}{\sqrt{2}} + \frac{4}{\sqrt{2}}$.

Observa cómo se obtiene el plano tangente de $f(x,y)$ en $(x_{0},y_{0})$ al utilizar las derivadas parciales $f_{x}$ y $f_{y}$ en la ecuación de la .

Aproximaciones lineales

En el ejemplo ya vimos que la ecuación del plano tangente de la función $f(x,y) = \sqrt{4-x^{2}-y^{2}}$, en el punto $(1,1,\sqrt{2})$ es $z = -\frac{x}{\sqrt{2}} - \frac{y}{\sqrt{2}} + \frac{4}{\sqrt{2}}$. Decimos que la función lineal de dos variables

$L(x,y) = -\frac{x}{\sqrt{2}} - \frac{y}{\sqrt{2}} + \frac{4}{\sqrt{2}}$

es una buena aproximación a $f(x,y)$ cuando $(x,y)$ está cerca de $(1,1)$. A la función $L$ se le conoce como linealización de $f(x,y)$ en $(1,1)$ y la aproximación $f(x,y) \simeq -\frac{x}{\sqrt{2}} - \frac{y}{\sqrt{2}} + \frac{4}{\sqrt{2}}$ recibe el nombre de aproximación lineal.

Por ejemplo, en el punto $(1.1,0.9)$ la aproximación lineal nos da

$f(1.1,0.9) \simeq -\frac{1.1}{\sqrt{2}} - \frac{0.9}{\sqrt{2}} + \frac{4}{\sqrt{2}} = 1.414$

que es muy cercano al valor de $f(1.1,0.9) = \sqrt{4-x^{2}-y^{2}} = 1.407$.

Mientras tomemos puntos más alejados de $(1,1)$ tendremos una peor aproximación. Por ejemplo si tomamos el punto $(1.5,0.5)$ tenemos que $L(1.5,0.5) = 1.41$ y $f(1.5,0.5) = 1.22$. La idea detrás del uso de aproximaciones lineales es que si hay un punto $(x_{0},y_{0})$ en el que se conoce el valor exacto de $f(x,y)$, entonces para puntos $(x,y)$ razonablemente cercanos a $(x_{0},y_{0})$, la aproximación lineal (es decir la ecuación del plano tangente) nos da un valor que también está a razonablemente cerca al valor de $f(x,y)$.

Diferenciabilidad

Cuando se trabaja con funciones de una sola variable $y = f(x)$, decimos que son diferenciables en el punto $x = a$ si $f'(a)$ existe. Además, si la función es diferenciable en un punto, decimos que su gráfica es suave en ese punto y una línea tangente está bien definida en ese punto.

En el caso de funciones con dos variables no es posible hacer una generalización directa a este razonamiento. La diferenciabilidad está relacionada con la idea de suavidad en un punto, donde se considera que la gráfica de una función $f(x,y)$ (que es una superficie) es suave en un punto $(x_{0},y_{0})$ si existe un plano tangente a la superficie en ese punto.

Para que exista un plano tangente en el punto $(x_{0},y_{0})$, las derivadas parciales de $f(x,y)$ deben existir en ese punto. Sin embargo esta no es una condición suficiente para la suavidad ya que pueden existir derivadas parciales en ese punto y, sin embargo, no hacerlo en alguna de las derivadas direccionales, es decir no ser continua.

Por ejemplo, si consideramos la función

$f(x,y)= \left\{ \begin{array}{lcc} \frac{3xy}{2x^2+y^2} & si & x \neq 0 \\ \\ 0 & si & x = 0 \\ \end{array} \right.$

podemos comprobar que existen sus derivadas parciales en el punto $(0,0)$ si aplicamos la definición.

$f_{x} (0,0) = \lim\limits_{h \rightarrow 0} \frac{f(0+h,y)- f(0,0)}{h} = \lim\limits_{h \rightarrow 0} \frac{\frac{3h\cdot 0}{2h^2 + 0^2}}{h}$

$= \lim\limits_{h \rightarrow 0} \frac{\frac{0}{2h^2}}{h} = \lim\limits_{h \rightarrow 0} \frac{0}{h} = \lim\limits_{h \rightarrow 0} 0 = 0$

Y de la misma manera $f_{y} (0,0) = 0$.

Entonces $f_{x}$ y $f_{y}$ existen en $(0,0)$, pero para comprobar que son continuas en ese punto debe cumplir las tres condiciones de la . En este caso podemos ver que no cumple con la condición 2, puesto que el límite

$\lim\limits_{(x,y) \rightarrow (0,0)} \frac{2xy}{3x^2+y^2}$

no existe. Recordemos que en funciones con dos variables un límite existe solo si es único, es decir, que sin importar por qué dirección nos aproximamos, el límite siempre debe ser el mismo. En este caso el límite no existe ya que si nos aproximamos a $(0,0)$ por la dirección donde $y = 0$ el resultado es $0$, mientras que si nos aproximamos por la dirección donde $y = x$ el resultado es $\frac{1}{2}$ como vimos en la .

De esta manera, una función de dos variables se puede comportar de manera errónea aún cuando las derivadas parciales existan. Para evitar este comportamiento, se plantea la idea de función diferenciable de dos variables.

En funciones con una variable $y = f(x)$ cuando $x$ pasa de $a$ a $a + \varDelta x$,el incremento en $y$ se define como

$\varDelta y = f(a+\varDelta x) - f(a)$

En este caso, si $f(x)$ es derivable en $a$, entonces

$\varDelta y = f'(a) \varDelta x + \epsilon \varDelta x$, donde $\epsilon \rightarrow 0$ cuando $\varDelta x \rightarrow 0$

Ahora, si consideramos una función de dos variables $f(x,y)$ y suponemos que $x$ pasa de $x_{0}$ a $x_{0} + \varDelta x$ y que $y$ pasa de $y_{0}$ a $y_{0} + \varDelta y$. Entonces el incremento en $z$ es

$\varDelta z = f(x_{0} + \varDelta x, y_{0} + \varDelta y) - f(x_{0},y_{0})$

que representa el cambio de valor de $f$ cuando $(x,y)$ pasa de $(x_{0},y_{0})$ a $(x_{0} + \varDelta x, y_{0} + \varDelta y)$. Entonces de manera análoga definimos la diferenciabilidad en funciones con dos variables como sigue

Sea $f(x,y)$ una función de dos variables, decimos que $f$ es diferenciable en $(x_{0},y_{0})$ si $\varDelta z$ se puede expresar de la forma

$\varDelta z = f_{x}(x_{0},y_{0}) \varDelta x + f_{y}(x_{0},y_{0}) \varDelta y + \epsilon_{1} \varDelta x + \epsilon_{2} \varDelta y$

Donde $\epsilon_{1}$ y $\epsilon_{2} \rightarrow 0$ cuando $(\varDelta x,\varDelta y) \rightarrow (0,0)$

La suma $\epsilon_{1} \varDelta x + \epsilon_{2} \varDelta y$ representa que tan cerca está el plano tangente a la superficie en una pequeña vecindad del punto $(x_{0},y_{0})$, es decir, cuando la linealización de $f$ en $(x_{0},y_{0})$ es una buena aproximación cuando $(x,y)$ se aproxima a $(x_{0},y_{0})$.

En algunas ocasiones es complicado aplicar directamente la definición para demostrar la diferenciabilidad de una función, pero el siguiente teorema proporciona una condición suficiente para determinar la diferenciabilidad.

Sea $f(x,y)$ una función de dos variables. Si $f_{x}$ y $f_{y}$ existen cerca de $(x_{0},y_{0})$ y son continuas en $(x_{0},x_{0})$, entonces $f$ es diferenciable en $(x_{0},y_{0})$

Esto nos dice que una función de dos variables es continua en cada punto donde es diferenciable, por lo tanto, la diferenciabilidad implica continuidad.

Sea $f(x,y)$ una función de dos variables diferenciable en $x_{0},y_{0}$, entonces $f$ es continua en $(x_{0},y_{0})$.

Regla de la cadena

La regla de la cadena en funciones con una variable nos dice que si $y = f(x)$ es una función derivable de $x$ y $x = g(t)$ es una función derivable de $t$, entonces $y$ es indirectamente una función derivable de $t$ y

$\frac{\partial y}{\partial t} = \frac{\partial y}{\partial x} \frac{\partial x}{\partial t}$

En el caso de funciones con varias variables, la regla de la cadena tiene varias formas. A continuación veremos los casos en funciones con dos variables para después generalizar a $n$ variables.

El primer caso se da cuando una función $z = f(x,y)$ y cada variable $x$ y $y$ es una función de la variable $t$ (es decir, $x=g(t)$ y $y=h(t)$ ), lo que significa que $z$ es indirectamente una función de $t$, $z = f(g(t),h(t)) $ y la regla de la cadena da una fórmula para derivar a $z$ como una función de $t$, como vemos en el siguiente teorema.

Sea $z = f(x,y)$ una función de dos variables derivable en $x$ y $y$, donde $x = g(t)$ y $y = h(t)$ son funciones derivables de $t$. Entonces $z$ es una función derivable de $t$ y

$\frac{\partial z}{\partial t} = \frac{\partial z}{\partial x} \frac{\partial x}{\partial t} + \frac{\partial z}{\partial y} \frac{\partial y}{\partial t}$

Ejemplo: Si $z=x-xy$, $x=t^{2}$ y $y=t^{2}-4t$, determine $\frac{dz}{dt}$.

La regla de la cadena nos da

$\frac{\partial z}{\partial t} = \frac{\partial z}{\partial x} \frac{\partial x}{\partial t} + \frac{\partial z}{\partial y} \frac{\partial y}{\partial t} = (1-y)(2t) + (-x)(2t-4)$

Sustituimos los valores de $x$ y $y$

$\frac{\partial z}{\partial t} = (1-(t^{2}-4t))(2t) + (-(t^{2}))(2t-4) $

$= 2t-2t^{3}+8t^{2} -2t^{3} + 4t^{2} = 2t+12t^{2}-4t^{3}$

Podemos comprobar que la fórmula de la regla de la cadena es correcta si calculamos directamente $\frac{\partial z}{\partial t}$ poniendo la función $z$ en términos de la variable $t$, es decir sustituyendo las funciones de $x$ y $y$ en $z$ como vemos a continuación.

$z=(t^{2}) - (t^{2} \cdot (t^{2}-4t)) = t^{2} + 4t^{3} - t^{4} $

Ahora calculamos la derivada de $z$ con respecto de $t$

$\frac{\partial z}{\partial t} = 2t + 12t^{2} - 4t^{3}$

y como vemos, obtenemos el mismo resultado que al aplicar la regla de la cadena.

El segundo caso se da cuando una función $z = f(x,y)$, y las variables $x$ y $y$ son funciones de dos variables $s$ y $t$ (es decir $x = g(s,t)$ y $y = h(s,t)$), lo que significa que $z$ es indirectamente una función de $s$ y $t$ y deseamos calcular $\frac{\partial z}{\partial s}$ y $\frac{\partial z}{\partial t}$.

Para calcular $\frac{\partial z}{\partial t}$ mantenemos fija a $s$ y calculamos la derivada de $z$ con respecto de $t$. Por lo tanto podemos aplicar el y obtener

$\frac{\partial z}{\partial s} = \frac{\partial z}{\partial x} \frac{\partial x}{\partial s} + \frac{\partial z}{\partial y} \frac{\partial y}{\partial s}$

De la misma manera para $\frac{\partial z}{\partial t}$ tenemos que

$\frac{\partial z}{\partial t} = \frac{\partial z}{\partial x} \frac{\partial x}{\partial t} + \frac{\partial z}{\partial y} \frac{\partial y}{\partial t}$

De lo anterior se sigue el siguiente teorema

Sea $z = f(x,y)$ una función de dos variables derivables en $x$ y $y$, donde $x = g(s,t)$ y $y = h(s,t)$ son funciones derivable en $s$ y $t$, entonces

$\frac{\partial z}{\partial s} = \frac{\partial z}{\partial x} \frac{\partial x}{\partial s} + \frac{\partial z}{\partial y} \frac{\partial y}{\partial s}$ y $\frac{\partial z}{\partial t} = \frac{\partial z}{\partial x} \frac{\partial x}{\partial t} + \frac{\partial z}{\partial y} \frac{\partial y}{\partial t}$

Ejemplo: Si $z=3x^{2} -2xy$, $x=3s+2t$ y $y=2st$, determine $\frac{dz}{ds}$ y $\frac{dz}{dt}$.

Aplicando la regla de la cadena obtenemos

$\frac{\partial z}{\partial s} = \frac{\partial z}{\partial x} \frac{\partial x}{\partial s} + \frac{\partial z}{\partial y} \frac{\partial y}{\partial s} = (6x-2y)(3)+ (-2x)(2t)$

$ = 18x-6y-4xt$

$\frac{\partial z}{\partial t} = \frac{\partial z}{\partial x} \frac{\partial x}{\partial t} + \frac{\partial z}{\partial y} \frac{\partial y}{\partial t} = (6x-2y)(2)+ (-2x)(2s)$

$ = 12x-4y-4xs$

Sustituimos los valores de $x$ y $y$

$18(3s+2t) - 6(2st) - 4(3s+2t)(t) = 54s+36t-12st-12st-8t^{2} $

$= 54s+36t-24st-8t^{2}$

$\frac{dz}{dt} = 12(3s+2t)-4(2st)-4(3s+2t)(s) = 36s+24t-8st-12s^{2}-8ts$

$ =36s+24t-16st-12s^{2}$

Al igual que en el ejemplo anterior podemos comprobar que la fórmula de la cadena es correcta si calculamos directamente $\frac{\partial z}{\partial s}$ y $\frac{\partial z}{\partial t}$ poniendo a $z$ en términos de las variables $s$ y $t$, esto sustituyendo las funciones de $x$ y $y$ en $z$ como sigue.

$z = 3(3s+2t)^{2} - (2(3s+2t)(2st)) $

$= 3(9s^{2}+12st+4t^{2}) - ((6s + 4t)(2st)) $

$= 27s^{2} +36st+12t^{2} - 12s^{2}t-8st^{2}$

Por último simplemente calculamos $\frac{dz}{ds}$ y $\frac{dz}{dt}$

$\frac{\partial z}{\partial s} = 54s + 36t - 24st -8t^{2} $

$\frac{\partial z}{\partial t} = -12s^{2} + 36s -16st +24t $

Como vemos obtenemos los mismos resultados. En este caso tenemos tres tipos de variables, $s$ y $t$ son variables independientes, $x$ y $y$ son variables intermedias y $z$ es la variable dependiente.

Observe como el tiene un término por cada variable intermedia y cada uno de estos términos es similar a la regla de la cadena en funciones con una sola variable.

Si consideramos el caso general donde una variable dependiente $u$ es función derivable de $n$ variables intermedias $x_{1},x_{2},...,x_{n}$, y cada una de estas es una función de $m$ variables independientes $t_{1},t_{2},...,t_{n}$, entonces $u$ es una función de $t_{1},t_{2},...,t_{n}$, es decir.

Sea $u(x_{1},x_{2},...,x_{n})$ una función de $n$ variables, donde cada $x_{j}$ es una función derivable de $m$ variables $(t_{1},t_{2},...,t_{m})$. Entonces $u$ es una función de $t_{1},t_{2},...,t_{m}$ y

$\frac{\partial u}{\partial t_{i}} = \frac{\partial u}{\partial x_{1}} \frac{\partial x_{1}}{\partial t_{i}} + \frac{\partial u}{\partial x_{2}} \frac{\partial x_{2}}{\partial t_{i}} + \cdots + \frac{\partial u}{\partial x_{n}} \frac{\partial x_{n}}{\partial t_{i}}$

Para recordar la regla de la cadena puede ser útil dibujar un diagrama de árbol como el que se ve en la .

En términos generales, la variable $u$ que está hasta arriba es la variable dependiente, las que se encuentran un nivel abajo $(x_{1},x_{2},...,x_{n})$ son las variables intermedias y las hojas $(t_{1},t_{2},...,t_{n})$ son las variables independientes. Si queremos determinar la expresión de la regla de la cadena para la variable dependiente $u$ a las variables independientes $t_{i}$ (es decir $\frac{\partial u}{\partial t_{i}}$), dibujamos ramas desde la variable dependiente $u$ a las variables intermedias $x_{i}$ para indicar que $u$ es función de $x_{1},x_{2},...,x_{n}$.

Luego dibujamos ramas de las variables intermedias $x_{i}$ a las variables independientes $t_{i}$.

Cada rama que va de $x_{i}$ a $t_{i}$ representa la derivada parcial $\frac{\partial x_{i}}{\partial t_{i}}$. Entonces para determinar $\frac{\partial u}{\partial t_{i}}$ calculamos el producto de las derivadas parciales de las trayectorias que van de $u$ a $t_{i}$ y luego sumamos los productos.

Ejemplo: Exprese la regla de la cadena en el caso donde $u = f(x_{1},x_{2},x_{3})$ y $x_{1} = x_{1}(t_{1},t_{2}), x_{2} = x_{2}(t_{1},t_{2})$ y $x_{1} = x_{3}(t_{1},t_{2})$.

Como podemos ver tenemos tres variables intermedias y dos variables independientes, por lo que nos interesa conocer las expresiones de $\frac{\partial u}{\partial t_{1}} $ y $\frac{\partial u}{\partial t_{2}}$.

Para $\frac{\partial u}{\partial t_{1}}$ trazamos todas las trayectoria de $u$ a $t_{1}$, en este caso tenemos tres, que son: $u \rightarrow x_{1} \rightarrow t_{1} $, $u \rightarrow x_{2} \rightarrow t_{1} $ y $u \rightarrow x_{3} \rightarrow t_{1} $. Ahora multiplicamos las derivadas de las trayectorias, es decir $\frac{\partial u}{\partial x_{1}} \frac{\partial x_{1}}{t_{1}}$, $\frac{\partial u}{\partial x_{2}} \frac{\partial x_{2}}{t_{1}}$ y $\frac{\partial u}{\partial x_{3}} \frac{\partial x_{3}}{t_{1}}$. Por último sumamos los productos y obtenemos

$\frac{\partial u}{\partial t_{1}} = \frac{\partial u}{\partial x_{1}} \frac{\partial x_{1}}{t_{1}} + \frac{\partial u}{\partial x_{2}} \frac{\partial x_{2}}{t_{1}} + \frac{\partial u}{\partial x_{3}} \frac{\partial x_{3}}{t_{1}}$

Hacemos lo mismo para $\frac{\partial u}{\partial t_{2}}$ y obtenemos

$\frac{\partial u}{\partial t_{2}} = \frac{\partial u}{\partial x_{1}} \frac{\partial x_{1}}{t_{2}} + \frac{\partial u}{\partial x_{2}} \frac{\partial x_{2}}{t_{2}} + \frac{\partial u}{\partial x_{3}} \frac{\partial x_{3}}{t_{2}}$

En la podemos ver el diagrama de este caso.

Introduce la variable independiente sobre la que quieres obtener la expresión de la regla de la cadena.

Gradiente y derivada direccional.

Derivada direccional

Ya se han definido las derivadas parciales en funciones con varias variables. Por ejemplo, si tomamos una función $z = f(x,y)$, sabemos que tiene dos derivadas parciales $f_{x}$ y $f_{y}$. Estas derivadas corresponden a cada una de las variables independientes de la función (en este caso $x$ y $y$), y pueden interpretarse como pendientes de una recta tangente paralela al eje $x$ o $y$.

Equivalentemente, $f_{x}$ es la razón de cambio de la función en la dirección del vector unitario $\overrightarrow{i}$ y $f_{y}$ es la razón de cambio en la dirección del vector unitario $\overrightarrow{j}$, es decir $f_{x}$ es la pendiente de una recta tangente paralela al eje $x$ que pasa en un punto de la gráfica de $f(x,y)$ y $f_{y}$ es la pendiente de una recta tangente paralela al eje $y$.

Ahora, si consideramos el caso donde una recta tangente no es paralela a ningún eje, es necesario definir un nuevo tipo de derivada que nos permita calcular la razón de cambio de $z = f(x,y)$ en una dirección arbitraria, lo que viene siendo la derivada direccional.

Recordemos que para una función de dos variables $z = f(x,y)$ sus derivadas parciales se definen como

$\frac{\partial f}{\partial x} = f_{x} (x_{0},y_{0}) = \lim\limits_{h \rightarrow 0} \frac{f(x_{0}+h,y_{0}) - f(x_{0},y_{0})}{h} $

$\frac{\partial f}{\partial y} = f_{y} (x_{0},y_{0}) = \lim\limits_{h \rightarrow 0} \frac{f(x_{0},y_{0}+h) - f(x_{0},y_{0})}{h} $

y representan las razones de cambio de $z$ en las direcciones $x$ y $y$, o bien, la razón de cambio en las direcciones de los vectores unitarios $\overrightarrow{i}$ y $\overrightarrow{j}$.

Supongamos que queremos encontrar la razón de cambio de $z$ en $(x_{0},y_{0})$ en la dirección de un vector unitario $\overrightarrow{u} = a \overrightarrow{i} + b \overrightarrow{j}$. Para eso consideremos la superficie $S$ que representa la gráfica de $f$ y un punto $P(x_{0},y_{0},z_{0})$ que se encuentre sobre la superficie $S$. El plano vertical que pasa por $P$ en la dirección de $\overrightarrow{u}$ interseca a $S$ en una curva $C$ y la pendiente de la recta tangente $T$ a $C$ en el punto $P$ es la razón de cambio de $f$ en la dirección de $\overrightarrow{u}$. En la podemos ver la representación gráfica de la razón de cambio en la dirección de $u$.

Mueve el punto $(x_{0},y_{0})$ y observa la línea tangente que representa la razón de cambio de $f$ en $(x_{0},y_{0})$ al girar el vector unitario $\overrightarrow{u}$

Al variar $u$, se obtienen las razones con las que cambia $f$ con respecto a la distancia, al pasar por $P$ en distintas direcciones. Definamos esa idea con mayor precisión. Si $Q(x,y,z)$ es otro punto sobre la curva que se interseca en el plano vertical que pasa por $P$ en la dirección de $u$, y $P'$, $Q'$ son las proyecciones de $P'$ y $Q'$ sobre el plano $xy$, entonces

$\overrightarrow{P'Q'} = h\overrightarrow{u} = h a\overrightarrow{i} + h b\overrightarrow{j}$

Para algún $h$. Por lo tanto, $x-x_{0} = h a$, $y-y_{0} = h b$, por lo que $x = x_{0} + h a$, $y = y_{0} + h b$ y

$\frac{\varDelta z}{h} = \frac{f(x_{0} + h a, y_{0} + h b) - f(x_{0},y_{0})}{h}$

Si tomamos el límite cuando $h$ tiende a $0$, obtenemos la razón de cambio de $z$ con respecto a la distancia en la dirección de $\overrightarrow{u}$, que es llamada derivada direccional de $f$ en la dirección de $\overrightarrow{u}$.

Suponga que $f(x,y)$ una función de dos variables con un dominio $D$. Sea $(x_{0},y_{0}) \in D$ y $\overrightarrow{u} = a \overrightarrow{i} + b \overrightarrow{j}$. Entonces la derivada direccional de $f$ en $(x_{0},y_{0})$ en la dirección del vector $\overrightarrow{u}$ es

$D_{u} f(x_{0},y_{0}) = \lim\limits_{h \rightarrow 0} \frac{f(x_{0} + h a, y_{0} + h b) - f(x_{0},y_{0})}{h}$

Además, si el vector unitario $\overrightarrow{u}$ forma un ángulo $\theta$ con el eje positivo $x$ entonces podemos escribir $\overrightarrow{u} = cos(\theta) \overrightarrow{i} + sen(\theta) \overrightarrow{j}$ y la fórmula de la se transforma en

$D_{u} f(x_{0},y_{0}) = \lim\limits_{h \rightarrow 0} \frac{f(x_{0} + h cos(\theta), y_{0} + h sen(\theta)) - f(x_{0},y_{0})}{h}$

Ejemplo: Sea $\theta = arccos \left(\frac{4}{5}\right)$, calcule la derivada direccional $D_{u} f(x,y)$ de $f(x,y) = x^{2}+2y^{2}$ en la dirección del vector unitario $\overrightarrow{u} = cos(\theta) \overrightarrow{i} + sen(\theta) \overrightarrow{j}$. ¿Cuál es el resultado de $D_{u}(2,2)?$

Primero calculamos $cos(\theta)$ y $sen(\theta)$ (en radianes), en este caso

$cos \left(arccos(\frac{4}{5})\right) = \frac{4}{5}$ y $sen \left(arccos(\frac{4}{5}) \right) = \frac{3}{5}$

Usando $f(x,y) $, calculamos $f(x_{0} + h cos(\theta), y_{0} + h sen(\theta)):$

$f(x_{0} + h cos(\theta), y_{0} + h sen(\theta)) = (x_{0} + h cos(\theta))^{2} + 2(y_{0} + h sen(\theta))^{2}$

$= x^{2}+2xh cos(\theta) + h^{2} cos^{2}(\theta) + 2y^{2} + 4yh sen(\theta) + 2h^{2} sen^{2}(\theta)$

$= x^{2}+2xh \left(\frac{4}{5}\right) + h^{2} \left(\frac{16}{25}\right) + 2y^{2} + 4yh \left(\frac{3}{5}\right) + 2h^{2} \left(\frac{9}{25}\right) $

$= x^{2}+ \left(\frac{8xh}{5}\right) + \left(\frac{16h^{2}}{25}\right) + 2y^{2} + \left(\frac{12yh}{5}\right) + \left(\frac{18h^{2}}{25}\right) $

$= x^{2}+ \left(\frac{8xh}{5}\right) + \left(\frac{34h^{2}}{25}\right) + 2y^{2} + \left(\frac{12yh}{5}\right) $

Sustituimos esta expresión en la fórmula de la

$D_{u} f(x_{0},y_{0}) = \lim\limits_{h \rightarrow 0} \frac{f(x_{0} + h cos(\theta), y_{0} + h sen(\theta)) - f(x_{0},y_{0})}{h}$

$ = \lim\limits_{h \rightarrow 0} \frac{(x^{2}+ \left(\frac{8xh}{5}\right) + \left(\frac{34h^{2}}{25}\right) + 2y^{2} + \left(\frac{12yh}{5}\right)) - (x^{2} + 2y^{2})}{h}$

$= \lim\limits_{h \rightarrow 0} \frac{x^{2}+ \left(\frac{8xh}{5}\right) + \left(\frac{34h^{2}}{25}\right) + 2y^{2} + \left(\frac{12yh}{5}\right) - x^{2} - 2y^{2}}{h}$

$= \lim\limits_{h \rightarrow 0} \frac{\left(\frac{8xh}{5}\right) + \left(\frac{34h^{2}}{25}\right) + \left(\frac{12yh}{5}\right) }{h}$

$= \lim\limits_{h \rightarrow 0} \left(\frac{8x}{5}\right) + \left(\frac{34h}{25}\right) + \left(\frac{12y}{5}\right)$

$= \frac{8x + 12y}{5}$

Por último calculamos $D_{u} f(2,2)$ sustituyendo los valores de $x$ y $y$

$D_{u} f(1,1) = \frac{8(2) + 12(2)}{5} = \frac{40}{5} = 8 $

Otra manera de calcular las derivadas direccionales es utilizando derivadas parciales como se describe en el siguiente teorema.

Sea $z = f(x,y)$ una función de dos variables, si asumimos que $f_{x}$ y $f_{y}$ existen. Entonces la derivada direccional de $f$ en la dirección del vector unitario $\overrightarrow{u} = a \overrightarrow{i} + b \overrightarrow{j}$ es

$D_{u} f(x,y) = f_{x}(x,y) a + f_{y}(x,y) b$

De igual manera, si el vector unitario $\overrightarrow{u}$ forma un ángulo $\theta$ con el eje positivo $x$ entonces podemos escribir la fórmula del como sigue

$D_{u} f(x,y) = f_{x}(x,y) cos(\theta) + f_{y}(x,y) sen(\theta)$

Ejemplo: Sea $\theta = arccos \left(\frac{4}{5}\right)$, calcule la derivada direccional $D_{u} f(x,y)$ de $f(x,y) = x^{2}+2y^{2}$ en la dirección del vector unitario $\overrightarrow{u} = cos(\theta) \overrightarrow{i} + sen(\theta) \overrightarrow{j}$. ¿Cuál es el resultado de $D_{u}(2,2)?$.

Primero calculamos $cos(\theta)$ y $sen(\theta)$ (en radianes), en este caso

$cos \left(arccos(\frac{4}{5})\right) = \frac{4}{5}$ y $sen \left(arccos(\frac{4}{5}) \right) = \frac{3}{5}$

Calculamos las derivadas parciales $f_{x}$, $f_{y}$

$f_{x} = 2x$ y $f_{y} = 4y$

Utilizamos la ecuación del .

$D_{u} f(x,y) = 2x \left(\frac{4}{5} \right) + 4y \left(\frac{3}{5} \right) = \left(\frac{8x}{5} \right) + \left(\frac{12y}{5} \right)$

Por último calculamos $D_{u} f(2,2)$ sustituyendo los valores de $x$ y $y$

$ \left(\frac{8(2)}{5} \right) + \left(\frac{12(2)}{5} \right) = \left(\frac{16}{5} \right) + \left(\frac{24}{5} \right) = 8$

Este fue el mismo ejemplo que se calculó utilizando la , como vemos obtuvimos el mismo resultado realizando menos pasos.

Caso general

En general, la derivada direccional de una función de $n$ variables $f(x_{1},x_{2},...,x_{n})$ en la dirección del vector $\overrightarrow{u} = (u_{1},u_{2},...,u_{n})$ es la función definida por el límite

$D_{u} f(x_{1},x_{2},...,x_{n}) = \lim\limits_{h \rightarrow 0} \frac{f(x_{1}+h) - f(\overrightarrow{x})}{h}$

y podemos calcularla utilizando derivadas parciales con la fórmula

$D_{u} f(x_{1},x_{2},...,x_{n}) = f_{x_{1}}(x_{1},x_{2},...,x_{n}) u_{1} + f_{x_{2}}(x_{1},x_{2},...,x_{n}) u_{2} + \cdots + f_{x_{n}}(x_{1},x_{2},...,x_{n}) u_{n}$

Gradiente

Ahora supongamos que se tiene una función de varias variables $f$. Si consideramos todas las derivadas direccionales posibles de $f$ en un punto, estamos obteniendo las razones de cambio que hay en todas las direcciones posibles en ese punto. Lo que nos hace preguntarnos, ¿en qué dirección $f$ cambia más rápido? y ¿cuál es la razón de cambio máxima y mínima? Estas preguntas se pueden responder con un vector llamado vector gradiente, ya que tiene propiedades muy importantes que nos permiten calcular el sentido de crecimiento o decremento de una función en un punto como veremos a continuación.

La fórmula del puede escribirse como el producto interno de dos vectores. Si definimos el primer vector como $\nabla f(x,y) = f_{x}(x,y)\overrightarrow{i} + f_{y}(x,y)\overrightarrow{j}$ y el segundo vector como $\overrightarrow{u} = cos(\theta)\overrightarrow{i} + sen(\theta)\overrightarrow{j}$ tenemos que

$D_{u} f(x,y) = f_{x}(x,y) cos(\theta) + f_{y}(x,y) sen(\theta)$

$= (f_{x}(x,y) ,f_{y}(x,y)) \cdot (cos(\theta),sen(\theta)) = \nabla f(x,y) \cdot \overrightarrow{u}$

El primer vector $\nabla f(x,y)$ es conocido como el vector gradiente de la función $f$ y nos indica el sentido de crecimiento más rápido de una función en un punto dado. En funciones con dos variables se define como sigue:

Si $f(x,y)$ es una función de dos variables, entonces el gradiente de $f$ es la función vectorial $\nabla f$, definida por

$\nabla f(x,y) = (f_{x}(x,y),f_{y}(x,y)) = \frac{\partial f}{\partial x} \overrightarrow{i} + \frac{\partial f}{\partial y} \overrightarrow{j}$

En el siguiente ejemplo se ve cómo podemos calcular la derivada direccional utilizando el vector gradiente.

Ejemplo: Calcule la derivada direccional $D_{u} f(x,y)$ de la función $f(x,y) = 2x^{2} + y^{3}$ en la dirección del vector $\overrightarrow{v} = 2\overrightarrow{i} + 2\overrightarrow{j}$ en el punto $(2,1)$ utilizando el vector gradiente.

Primero calculamos el vector gradiente en el punto $(2,1)$

$\nabla f(x,y) = \frac{\partial f}{\partial x} \overrightarrow{i} + \frac{\partial f}{\partial y} \overrightarrow{j} = 4x \overrightarrow{i} + 3y^{2} \overrightarrow{j} $

$\nabla f(2,1) = 4(2) \overrightarrow{i} + 3(2)^{2} \overrightarrow{j} = 8 \overrightarrow{i} + 3 \overrightarrow{j} $

Notemos que $\overrightarrow{v}$ no es un vector unitario, así que utilizamos su norma para calcular un vector unitario $\overrightarrow{u}$ con su misma dirección

$||\overrightarrow{v}|| = \sqrt{2^{2} + 2^{2}} = \sqrt{8}$

$\Rightarrow \overrightarrow{u} = \frac{2}{\sqrt{8}} \overrightarrow{i} + \frac{2}{\sqrt{8}} \overrightarrow{j}$

Por último calculamos la derivada direccional de $f$ en la dirección de $\overrightarrow{u}$ utilizando el vector gradiente

$D_{u} f(2,1) = \nabla f(2,2) \cdot \overrightarrow{u} = (4\overrightarrow{i} + 3\overrightarrow{j}) \cdot (\frac{2}{\sqrt{8}} \overrightarrow{i} + \frac{2}{\sqrt{8}} \overrightarrow{j})$

$= \frac{4\cdot 2 + 3\cdot 2}{\sqrt{8}} = \frac{14}{\sqrt{8}}$

Como se dijo anteriormente, el vector gradiente nos indica la dirección en la que la función crece más rápidamente en un punto. Por lo tanto la derivada direccional tiene su valor máximo en la dirección del vector gradiente y tiene la particularidad de que coincide con su módulo. A esta propiedad se le conoce como derivada direccional máxima y se explica de la siguiente manera.

Si tomamos la fórmula de la derivada direccional en funciones con dos variables $D_{u} f(x,y) = \nabla f(x,y) \cdot \overrightarrow{u}$ y la definición del producto interno de dos vectores () $\overrightarrow{a} \cdot \overrightarrow{b} = ||\overrightarrow{a}|| \space ||\overrightarrow{b}|| \space cos(\alpha)$, donde $\alpha$ es el ángulo entre los dos vectores, tenemos lo siguiente

$D_{u} f(x,y) = \nabla f(x,y) \cdot \overrightarrow{u} = ||\nabla f(x,y)|| \space || \overrightarrow{u}|| \space cos(\alpha) $

$= ||\nabla f(x,y)|| \space cos(\alpha)$

Donde ||$\overrightarrow{u}$|| lo podemos omitir de la expresión ya que por definición la norma de un vector unitario siempre es $1$. Por lo tanto la derivada direccional máxima de un punto evaluado en un punto es igual a la magnitud del gradiente multiplicado por $cos(\alpha)$.

Recordemos que $cos(\theta)$ varía de $-1$ a $1$. En particular, si $\theta = 0$, entonces $cos(\theta) = 1$ y tanto $\nabla f(x,y)$ como $\overrightarrow{u}$ apuntan hacia la misma dirección. Si $\theta = \pi$, entonces $cos(\theta) = -1$ y $\nabla f(x,y)$ apunta en dirección opuesta a $\overrightarrow{u}$. Si $\nabla f(x,y) = 0$, entonces $D_{u} f(x,y) = \nabla f(x,y) \cdot \overrightarrow{u} = 0$ para algún vector unitario $\overrightarrow{u}$.

Estos tres casos describen la derivada direccional máxima, mínima y nula como vemos en el siguiente teorema.

Sea $f(x,y)$ una función de $2$ variables diferenciable en un punto $(x_{0},y_{0})$, entonces

Si $\nabla f(x_{0},y_{0}) = 0$, entonces $D_{u} f(x_{0},y_{0}) = 0$ para algún vector unitario $u$.
Si $\nabla f(x_{0},y_{0}) \neq 0$, entonces $D_{u} f(x_{0},y_{0})$ crece más rápidamente cuando algún vector unitario $\overrightarrow{u} $ apunta en la misma dirección que $\nabla f(x_{0},y_{0})$. Es decir el máximo valor de $D_{u} f(x_{0},y_{0})$ es $||\nabla f(x_{0},y_{0})||$.
Si $\nabla f(x_{0},y_{0}) \neq 0$, entonces $D_{u} f(x_{0},y_{0})$ decrece más rápidamente cuando algún vector unitario $\overrightarrow{u} $ apunta en la dirección opuesta a $\nabla f(x_{0},y_{0})$. Es decir el mínimo valor de $D_{u} f(x_{0},y_{0})$ es $-||\nabla f(x_{0},y_{0})||$.

Estas propiedades sirven para cualquier función con más de dos variables y la generalización es análoga.

Ejemplo: Calcule la máxima y mínima derivada direccional de la función $f(x,y) = 4x^{2} + y^{2}$ en el punto $(2,2)$.

Primero calculamos el vector gradiente de $f$ en el punto $(2,2)$.

$\nabla f(2,2) = 8(2)\overrightarrow{i}+ 2(2)\overrightarrow{j}= 16\overrightarrow{i}+ 4\overrightarrow{j}$

Ahora calculamos la norma del vector obtenido

$||\nabla f(2,2)|| = \sqrt{16^{2} + 4^{2}} = \sqrt{256 + 16} = \sqrt{272}$

Entonces $\sqrt{272}$ es la derivada direccional máxima y por la propiedad 3 del la derivada direccional mínima es $-\sqrt{272}$

Gradiente y curvas de nivel

Como ya vimos, el gradiente de una función de varias variables $f$ denotada como $\nabla f$, es el conjunto de todas las derivadas parciales de $f$ en forma de un vector. Esto significa que $\nabla f$ es una función vectorial, lo que quiere decir que lo podemos visualizar como un campo vectorial (expresión que asocia un vector a cada punto) el cual es comúnmente llamado campo gradiente de $f$.

Supongamos que tenemos la función de dos variables $f(x,y) = x^2-y^2$. El gradiente es igual a

$\nabla f(x,y) = 2x \overrightarrow{i} + 2y \overrightarrow{j}$

lo que convierte a cada punto de entrada $(x_{0},y_{0})$ en un vector como vemos en la .

Ahora, si recordamos las curvas de nivel, estas también se dibujan en el espacio de entrada de una función $f$, lo que nos hace preguntarnos, ¿qué pasa si el campo gradiente de una función $f$ se coloca sobre el mapa de curvas de nivel que le corresponden a $f$?

Observa el campo gradiente de una función $f(x,y)$. Nota: Los vectores de color verde están normalizados para visualizarlos de mejor manera. Puedes mover el punto $(x_{0},x_{0})$ para el vector del campo de ese punto específico.

Si nuevamente tomamos como ejemplo la función $f(x,y) = x^2-y^2$ y dibujamos sus curvas de nivel podemos notar que cada vector es ortogonal a la curva de nivel que toca. Esta propiedad se explica con el siguiente análisis.

Si una función diferenciable $f(x,y)$ tienen un valor constante $c$ a lo largo de una curva parametrizada $\overrightarrow{r} = g(t) \overrightarrow{i} + h(t) \overrightarrow{j}$, para alguna variable $t$, haciendo que la curva sea una curva de nivel, entonces $f(g(t),h(t)) = c$. Al derivar ambos lados de esta ecuación con respecto de $t$ tenemos lo siguiente:

$\frac{d}{dt} (g(t),h(t)) = \frac{d}{dt} c$

Aplicando la regla de la cadena

$\frac{\partial f}{\partial x} \frac{dg}{dt} + \frac{\partial f}{\partial y} \frac{dh}{dt}= 0$

$ \Rightarrow \left(\frac{\partial f}{\partial x} \overrightarrow{i} + \frac{\partial f}{\partial y} \overrightarrow{j} \right) \cdot \left(\frac{d g}{d t} \overrightarrow{i} + \frac{d h}{d t} \overrightarrow{j} \right) = 0$

$\Rightarrow \nabla f(x,y) \cdot (g'(t),h'(t)) = 0$

Como el producto interno de estos vectores es igual a cero, significa que son ortogonales (), además, el segundo vector es tangente a la curva de nivel (ya que es la derivada de la curva de nivel dada por $\overrightarrow{r}$ ), lo que implica que el vector gradiente es ortogonal a la curva de nivel.

Sea $f(x,y)$ una función con derivadas parciales de primer orden (continua) y $(x_{0},y_{0})$ un punto en su dominio, el gradiente de $f$ es ortogonal a la curva de nivel que pasa por el punto $(x_{0},y_{0})$.

En la podemos ver que dado un punto, el gradiente es ortogonal a la curva de nivel donde se encuentra.

Ahora veamos un ejemplo donde se calcula el vector tangente.

Ejemplo: Calcule el vector tangente a la curva de nivel en el punto $(1,1)$ de la función $f(x,y) = xy+x^{2} $.

Primero calculamos el gradiente

$f_{x} = y + 2x $ y $f_{y} = x$

$\nabla f(x,y) = (y + 2x) \overrightarrow{i} + x \overrightarrow{j}$

Mueve el punto $(x_{0},y_{0})$ y observa como el vector gradiente es ortogonal a la curva de nivel donde se encuentra el punto $(x_{0},y_{0})$.

Evaluamos en el punto $(1,1)$

$\nabla f(1,1) = (1 + 2(1)) \overrightarrow{i} + 1 \overrightarrow{j} = 3 \overrightarrow{i} + 1 \overrightarrow{j}$

Este vector es ortogonal a la curva de nivel en el punto $(1,1)$. Para obtener el vector tangente invertimos sus componentes y multiplicamos el primero por $-1$.

Vector tangente = $ -1(1) \overrightarrow{i} + 3 \overrightarrow{j} = -1 \overrightarrow{i} + 3 \overrightarrow{j}$

Y al dibujarlo en el plano $xy$ obtenemos el vector con origen en $(1,1)$ y punto final en $(1-1,1+3) = (0,4)$.

Por último, en la podemos apreciar que en efecto, el vector gradiente siempre apunta hacia la dirección de la gráfica donde la pendiente se incrementa más rápido.

Mueve el punto $(x_{0},y_{0})$ y observa como el vector gradiente en ese punto siempre apunta en la dirección donde la pendiente se incrementa más rápido.

Capítulo V

Máximos y mínimos

Aproximación polinomial.

Cuando es complicado trabajar con una función, es común tratar de encontrar una función más sencilla que de cierta manera aproxime a la función inicial. Como ya vimos, es posible aproximar una función de dos variables $f(x,y)$ utilizando una función lineal, es decir por medio de la ecuación de su plano tangente.

La ecuación del plano tangente no es otra cosa que el polinomio de Taylor de primer grado para $f$ en $(x,y)$. Esta aproximación puede ser lo bastante buena, sin embargo es posible mejorarla utilizando una función de grado mayor, en particular utilizando un polinomio de Taylor de grado $n$ para $f$ en $(x,y)$ como veremos en esta sección.

Polinomio de Taylor en funciones con una variable

La idea para aproximar una función de una variable $f(x)$ es tomar un valor $a$ de tal forma que $f(a)$ es conocido y a partir de este construir un polinomio de grado $n$ denotado como $P_{n}(x)$, cuya gráfica pase por el punto $(a,f(a))$ y aproxime bien la gráfica de la función, en otras palabras intentar hacer $f(x) = P_{n}(x)$.

Si consideramos $x=a$ y el polinomio de grado $n$

$P_{n}(x) =a_{0} + a_{1}(x-a)+a_{2}(x-a)^{2}+a_{3}(x-a)^{3} + \cdots + a_{n}(x-a)^{n}$

$\Rightarrow P_{n}(a) = a_{0} + a_{1}(0)+a_{2}(0)^{2}+ a_{3}(0) + \cdots +a_{n}(0)^{n} = a_{0}$

Si derivamos $P_{n}(x)$ y sustituimos $x=a$ obtenemos

$P_{n}'(x) = a_{1} + 2a_{2}(x-a) + 3a_{3}(x-a)^{2} + \cdots +na_{n}(x-a)^{n-1}$

$\Rightarrow P_{n}'(a) = a_{1} + 2a_{2}(0) + 3a_{3}(0) + \cdots +na_{n}(0)^{n-1} = a_{1}$

Si derivamos $P_{n}'(x)$ y sustituimos $x=a$ obtenemos

$P_{n}''(x) = 2a_{2} + 6a_{3}(x-a) + \cdots +n(n-1) a_{n}(x-a)^{n-2}$

$\Rightarrow P_{n}''(x) = 2a_{2} + 6a_{3}(0) + \cdots +n(n-1) a_{n}(0)^{n-2} = 2a_{2}$

$\Rightarrow P_{n}''(a) = a_{2} \Rightarrow a_{2} = \frac{P_{a}''(x)}{2}$

Si continuamos haciendo el mismo procedimiento hasta no poder hacerlo más tenemos que

$P_{n}^{'n}(a) = n(n-1)(n-2) \cdots 2a_{n} \Rightarrow a_{n} = \frac{P_{n}^{'n}(a)}{n(n-1)(n-2) \cdots 2 \cdot 1}$

Por lo tanto podemos escribir el polinomio como

$P_{n}(x) = P_{n}(a) + \frac{P_{n}'(a)}{1!}(x-a) + \frac{P_{n}''(a)}{2!}(x-a)^{2} + \frac{P_{n}^{'n}(a)}{n!} (x-a)^{2} $

Que puede generalizarse en funciones con una variable como vemos en la siguiente definición.

Sea $f(x)$ una función de una variable $n$ veces derivable en $a$. Entonces el polinomio :

$P_{n}(x) = f(a) + \frac{f'(a)}{1!}(x-a) + \frac{f''(a)}{2!}(x-a)^{2} + \frac{f^{'n}(a)}{n!} (x-a)^{n}$

Es llamado polinomio de grado $n$ para $f$ en $a$.

Ejemplo: Encuentre polinomio de grado $2$ de la aproximación de Taylor para la función $f(x) = 2x^3-x$ en el punto $a=2$

En este caso se pide el polinomio de grado $2$, por lo que haremos la primera y segunda derivada de $f(x)$.

$f'(x) = 6x^2 - 1$

$f''(x) = 12x $

Sustituimos $a=2$ en $f(x)$, $f'(x)$ y $f''(x)$.

$f(2) = 2(2)^{3} - 2 = 14$

$f'(2) = 6(2)^{2}- 1 = 23$

$f''(2) = 12(2) = 24$

Ya que tenemos el valor de las derivadas en el punto $a=2$, lo sustituimos en el polinomio de Taylor de grado $2$ para $f(x)$.

$P_{2}(2) \simeq 14 + 23(x-2) + \frac{24}{2}(x-2)^{2} $

$= 14 + 23x - 46 + 12x^2-48x+48$

$= 12x^2-25x+16$

Comparamos el resultado de la aproximación con el de la función original en el punto $a=2$.

$f(2) = 2(2)^{3} - 2 = 16-2=14$

$P_{2}(2) = 12(2)^2-25(2)+16 = 48 - 50 +16 = 14 $

Como vemos la aproximación en este caso es exacta en el punto $a=2$. Hay que tomar en cuenta que la aproximación va a ser menos precisa cuanto más alejados estemos del punto que tomamos para hacer los cálculos. Por ejemplo, si evaluamos la aproximación en $a=3$ notamos que hay una diferencia significativa en los resultados del polinomio y la función original.

$f(1) = 2(3)^{3} - 3 = 51$

$P_{2}(3) = 12(3)^2-25(3)+16 = 48 - 50 +16 = 49 $

En la podemos ver gráficamente la aproximación de funciones por el polinomio de Taylor.

Mueve el punto $a$ y selecciona el grado del polinomio de Taylor para observar la grafica de la aproximación.

Polinomio de Taylor en varias variables

Ahora veamos cómo aproximar funciones de varias variables utilizando el polinomio de Taylor. Al igual que en secciones anteriores primero se verá la definición en funciones con dos variables para después generalizarse a $n$ variables.

Ya vimos que en funciones con dos variables $f(x,y)$, la mejor aproximación lineal de $f$ en un punto $(x_{0},y_{0})$ está dada por su plano tangente, es decir

$f(x,y) \simeq f(x_{0},y_{0}) + f_{x}(x_{0},y_{0})(x-x_{0}) + f_{y}(x_{0},y_{0})(y-y_{0})$

Si generalizamos la definición del polinomio de Taylor () a funciones con dos variables tenemos que acompañar a cada variable con su derivada parcial. Por ejemplo, el polinomio de grado uno vendría dado por

$P_{1}(x,y) = f(x_{0},y_{0}) + \frac{f_{x}(x_{0},y_{0})}{1!}(x-x_{0}) + \frac{f_{y}(x_{0},y_{0})}{1!}(y-y_{0})$

Como podemos notar, la ecuación del plano tangente en funciones con dos variables es igual a la ecuación del Polinomio de Taylor de grado uno. Por lo general esta es una buena aproximación, sin embargo podemos mejorarla incrementando el grado del polinomio, es decir utilizando un polinomio de Taylor de grado $n$.

Al igual que en funciones con una variable necesitaremos que $f(x,y)$ pueda derivarse $n$ veces, para ello $f$ debe tener derivadas de orden superior. Por ejemplo, si queremos hacer una aproximación cuadrática, utilizamos el polinomio de Taylor de grado dos y necesitamos que $f$ tenga derivadas de orden dos, es decir que existan $f_{xx}$, $f_{yy}$, $f_{xy}$ y $f_{yx}$. En este caso el polinomio de grado dos estaría dado por

$P_{2}(x,y) = f(x_{0},y_{0}) + \frac{f_{x}(x_{0},y_{0})}{1!}(x-x_{0}) + \frac{f_{y}(x_{0},y_{0})}{1!}(y-y_{0}) + $

$+ \frac{f_{xx}(a,b)}{2!}(x-x_{0})^{2}+f_{xy}(x_{0},y_{0})(x-x_{0})(y-y_{0}) + \frac{f_{yy}}{2!}(y-y_{0})^{2}$

Nota: Como las derivadas parciales cruzadas $f_{xy}$ y $f_{yx}$ son iguales (), las combinamos en un solo término.

Sea $f(x,y)$ una función de dos variables con derivadas de orden dos, y $(x_{0},y_{0})$ un punto en el dominio de $f$, el polinomio de Taylor de grado dos para $f$ en $(x_{0},y_{0})$ es

$P_{2}(x,y) = f(x_{0},y_{0}) + \frac{f_{x}(x_{0},y_{0})}{1!}(x-x_{0}) + \frac{f_{y}(x_{0},y_{0})}{1!}(y-y_{0}) + $

$+ \frac{f_{xx}(a,b)}{2!}(x-x_{0})^{2}+f_{xy}(x_{0},y_{0})(x-x_{0})(y-y_{0}) + \frac{f_{yy}}{2!}(y-y_{0})^{2}$

Ejemplo: Encuentre el polinomio de grado $2$ de la aproximación de Taylor para la función $f(x,y) = sen(x)+sen(y)$ en el punto $(1,2)$.

Primero evaluamos la función en el punto $(1,2)$

$f(1,2) \simeq 0.84 + 0.90 \simeq 1.75$

Ahora calculamos las derivadas parciales de primer y segundo orden:

$f_{x}(1,2) = cos(x) \simeq 0.54$

$f_{xx}(1,2) = -sen(x) \simeq -0.84$

$f_{y}(1,2) = cos(y) \simeq -0.41$

$f_{yy}(1,2) = -sen(y) = -0.90$

$f_{xy}(1,2) = 0$

Sustituimos lo obtenido en la fórmula de la definición y simplificamos.

$P_{2}(x,y) =1.75 + 0.54(x-1) - 0.41(y-2) - \frac{0.84}{2}(x-1)^{2} + 0(x-1)(y-2) -\frac{0.90}{2}(y-2)^{2} $

$=1.75 + 0.54x - 0.54 - 0.41y + 0.82 - 0.42(x^2-2x +1) - 0.45(y^2-4y+4)$

$= 1.75 + 0.54x - 0.54 - 0.41y + 0.82 - 0.42x^2 + 0.84x - 0.42 - 0.45y^2 + 1.8y + 1.8$

$= -0.19 + 1.38x + 1.39y - 0.42x^2 - 0.45y^2 $

Comparamos el resultado de la aproximación con el de la función original en el punto $(1,2)$

$f(1,2) \simeq 0.84 + 0.90 \simeq 1.75$

$P_{2}(1,2) = -0.19 + 1.38(1) + 1.39(2) - 0.42(1)^2 - 0.45(2)^2 \simeq 1.75$

Como vemos con la aproximación se obtiene el valor exacto de la función (redondeado a 2 décimas), evaluada en el punto $(1,2)$, pero como pasa en funciones con una variable esta aproximación empeora mientras más nos alejemos del punto tomado para obtener el polinomio. Por ejemplo, si utilizamos el polinomio para aproximar el valor de la función en el punto $(0.5,2.5)$ tenemos que

$f(0.5,2.5) = 0.47 + 0.59 \simeq 1.06$

$P_{2}(0.5,2.5) = -0.19 + 1.38(0.5) + 1.39(2.5) - 0.42(0.5)^2 - 0.45(2.5)^2 \simeq 1.05 $

Lo cual nos da un resultado más alejado al valor de la función.

Si utilizáramos sólo la aproximación lineal (polinomio de Taylor de grado $1$) podemos notar que la aproximación es peor aún

$L(x,y) = 1.75 + 0.54(x-1) - 0.41(y-2) = 2.03 + 0.54x - 0.41y$

$L(0.5,2.5) = 2.03 + 0.54(0.5) - 0.41(2.5) = 1.27 $

En general mientras más alto sea el grado del polinomio mejor será la aproximación alrededor del punto tomado como podemos apreciar en la figura.

Mueve el punto $(x_{0},y_{0})$ y selecciona el grado del polinomio de Taylor para observar la gráfica de la aproximación. Nótese que mientras más alto es el grado, el polinomio se asemeja más a la gráfica de la función alrededor del punto $(x_{0},y_{0})$.

Si queremos utilizar un polinomio de grado mayor a $2$ en funciones con dos variables podemos calcular el patrón que nos permita que todas las derivadas parciales del polinomio sean iguales a las derivadas parciales de la función en el punto $(x_{0},y_{0})$. Si asumimos que al calcular el polinomio de Taylor grado $n$ de una función $f(x,y)$ existen derivadas parciales de orden $n$, entonces este patrón se define de la siguiente manera.

Sea una función de dos variables $f(x,y)$ con derivadas parciales de orden $n$ en un punto $(x_{0},y_{0})$. El polinomio de Taylor de grado $n$ para $f$ en el punto $(x_{0},y_{0})$ es

$P_{n}(x,y)= \displaystyle\sum_{i=0}^n \displaystyle\sum_{j=0}^{n-i} \frac{f_{x^{i}y^{j}}(x_{0},y_{0})}{i!j!}(x-x_{0})^{i}(y-y_{0})^{j}$

Podemos verificar que en efecto obtenemos el polinomio de Taylor de grado $2$ utilizando la definición. Donde los índices en cada iteración en la suma se actualizan de la siguiente manera:

$i=0, j=0$

$i=0, j=1$

$i=0, j=2$

$i=1, j=0$

$i=1, j=1$

$i=2, j=0$

Note que el valor de $j$ inicia en $0$ e incrementa hasta $2-i$.

$P_{2}(x,y)= \displaystyle\sum_{i=0}^2 \displaystyle\sum_{j=0}^{2-i}(x-x_{0})^{i}(y-y_{0})^{j} $

$= \frac{f(x_{0},y_{0})}{0!0!} (x-x_{0})^{0}(y-y_{0})^{0} + \frac{f_{y}(x_{0},y_{0})}{0!1!} (x-x_{0})^{0}(y-y_{0})^{1} + \frac{f_{yy}(x_{0},y_{0})}{0!2!} (x-x_{0})^{0}(y-y_{0})^{2} + \frac{f_{x}(x_{0},y_{0})}{1!0!} (x-x_{0})^{1}(y-y_{0})^{0} + \frac{f_{xy}(x_{0},y_{0})}{1!1!} (x-x_{0})^{1}(y-y_{0})^{1} + \frac{f_{xx}(x_{0},y_{0})}{2!0!} (x-x_{0})^{2}(y-y_{0})^{0}$

$= f(x_{0},y_{0})+f_{y}(x_{0},y_{0})(y-y_{0}) + \frac{f_{yy}(x_{0},y_{0})}{2!}(y-y_{0})^{2} + f_{x}(x_{0},y_{0})(x-x_{0}) + f_{xy}(x_{0},y_{0}) (x-x_{0})(y-y_{0}) + \frac{f_{xx}(x_{0},y_{0})}{2!}(x-x_{0})^{2}$

En general, para cualquier función de $n$ variables tenemos la siguiente expresión.

Sea $f(\overrightarrow{x})$ una función de $m$ variables $\overrightarrow{x}=x_{1},x_{2},...,x_{m}$ con derivadas parciales de orden $n$ en un punto $\overrightarrow{a}=(a_{1},a_{2},...,a_{m})$. El polinomio de Taylor de grado $n$ para $f$ en $\overrightarrow{a}$ es

$P_{n}(\overrightarrow{x}) = f(\overrightarrow{a}) + \frac{\Delta f(\overrightarrow{a})}{1!} \cdot (\overrightarrow{x}-\overrightarrow{a})+\frac{\Delta^{2}f(\overrightarrow{a})}{2!} \cdot (\overrightarrow{x}-\overrightarrow{a})^{2} + \cdots + \frac{\Delta^{n}f(\overrightarrow{a})}{n!} \cdot (\overrightarrow{x}-\overrightarrow{a})^{n} $

Donde $\Delta^{n}f(\overrightarrow{a})$ es una matriz que contiene todas las derivadas parciales de orden $n$ de la función en $\overrightarrow{a} $ y es llamada matriz Hessiana.

Sea $f(x_{1},x_{2},...,x_{n})$ una función de $n$ variables. Decimos que la matriz hessiana $\Delta^2f(x_{1},x_{2},...,x_{n})$ de $f$, es la matriz que contiene todas las derivadas parciales de orden dos de $f$, es decir:

$\Delta^2f(x_{1},x_{2},...,x_{n}) = \begin{bmatrix}{f_{x_{1}x_{1}}}&{f_{x_{1}x_{2}}}&{\cdots}&{f_{x_{1}x_{n}}}\\{f_{x_{2}x_{1}}}&{f_{x_{2}x_{2}}}&{\cdots}&{f_{x_{2}x_{n}}}\\{\vdots}&{\vdots}&{}&{\vdots}\\{f_{x_{n}x_{1}}}&{f_{x_{n}x_{2}}}&{\cdots}&{f_{x_{n}x_{n}}}\end{bmatrix}$

Aunque la definición de matriz Hessiana solo considera las derivadas de orden 2 se puede hacer la analogía a órdenes superiores. Esto es debido a que es poco común utilizar un matriz con derivadas parciales de orden 3 o mayor.

Por ejemplo, la matriz Hessiana $\Delta^{2}f(x_{0},y_{0},z_{0})$ en un punto $(x_{0},y_{0},z_{0})$, de una función $f(x,y,z)$ es:

$\begin{bmatrix}{f_{xx}(x_{0},y_{0},z_{0})}&{f_{xy}(x_{0},y_{0},z_{0})}&{f_{xz}(x_{0},y_{0},z_{0})}\\{f_{yx}(x_{0},y_{0},z_{0})}&{f_{yy}(x_{0},y_{0},z_{0})}&{f_{yz}(x_{0},y_{0},z_{0})}\\{f_{zx}(x_{0},y_{0},z_{0})}&{f_{zy}(x_{0},y_{0},z_{0})}&{f_{zz}(x_{0},y_{0},z_{0})}\end{bmatrix}$

Puntos críticos de funciones reales.

En funciones de una variable, un punto crítico es cualquier valor en el dominio donde la función no es diferenciable o cuando su valor es cero y se define de la siguiente manera.

Sea $f(x)$ una función de una variable y $x=a$ un punto en el dominio de $f$. Decimos que $a$ es un punto crítico de $f$ si $f'(a) =0$ o cuando $f'(a)$ no está definido.

Gráficamente un punto crítico no admite una tangente o la tangente es una línea horizontal o vertical como vemos en la .

Mueve el punto $a$ para ver si es un punto crítico en $f(x)$.

Ejemplo 1: Encuentre los puntos críticos de la función $f(x) = x^3+2x^2+1$ definido en la región $ [-5,5]$ del plano $xy$.

Calculamos $f'(x)$

$f'(x) = 3x^2+4x = x(3x+4)$

Como $f(x)$ está definida en todos los reales tenemos que buscar los valores donde $f'(x) = 0$. Para esta función ocurre cuando $x=0$ y $x=-\frac{4}{3}$, por lo tanto la función tiene dos puntos críticos en la región del plano $[-5,5]$.

Ejemplo 2: Encuentre los puntos críticos de la función $f(x) = x^3+6x^2+12x+8$ definido en la región $ [-5,5]$ del plano $xy$.

Calculamos $f'(x)$

$f'(x) = 3x^2 + 12x + 12 = 3(x+2)^2$

En este caso solo se cumple que $f'(x) = 0$ cuando $x=-2$, por lo tanto la función tiene un único punto crítico en la región del plano $[-5,5]$.

En la podemos comprobar que la línea tangente es horizontal en los puntos críticos para ambos casos.

Puntos críticos en funciones con varias variables

Ya vimos que en funciones con una variable los puntos críticos ocurren cuando la derivada de la función es igual a cero o no existe. En funciones con varias variables la idea es la misma con excepción de que ahora se trabajan con derivadas parciales. De este modo, la definición se puede generalizar de manera directa como sigue.

Sea $f(x_{1},x_{2},...,x_{n})$ una función de $n$ variables y $(a_{1},a_{2},...,a_{n})$ un punto en el dominio de $f$. Decimos que $(a_{1},a_{2},...,a_{n})$ es un punto crítico de $f$ si cumple con alguno de los siguientes casos:

$f_{x}(a_{1},a_{2},...,a_{n}) = f_{y}(a_{1},a_{2},...,a_{n}) = 0$
Tanto $f_{x}(a_{1},a_{2},...,a_{n})$ como $f_{y}(a_{1},a_{2},...,a_{n})$ no existen

En funciones con dos variables la interpretación geométrica de los puntos críticos es similar a la que se tiene en funciones con una variable, solo que en este caso en lugar de que se encuentre una línea tangente horizontal en el punto crítico, se encuentra un plano tangente horizontal como podemos apreciar en la .

Ejemplos de puntos críticos en dos variables.

Ejemplo 1: Calcule los puntos críticos de la función $f(x,y) = sen(x) + cos(y)$ definida en la región $xy$ con dimensión $4$ x $4$.

Calculamos $f_{x}$ y $f_{y}$

$f_{x} = cos(x)$ y $f_{y} = -sen(y)$

Para que $cos(x) = 0$ el valor de $x$ debe ser $\frac{\pi}{2}$ o $-\frac{\pi}{2}$ y para que $-sen(y) = 0$ el valor de $y$ debe ser $\pi$, $-\pi$ o $0$, entonces los puntos críticos de la función se dan en $(-\frac{\pi}{2},-\pi)$, $(-\frac{\pi}{2},0)$, $(-\frac{\pi}{2},\pi)$, $(\frac{\pi}{2},-\pi)$, $(\frac{\pi}{2},0)$ y $(\frac{\pi}{2},\pi)$. En el ejemplo 1 de la podemos ver que en todos esos puntos el plano tangente es horizontal.

Ejemplo 2: Calcule los puntos críticos de la función $f(x,y) = x^4+y^4-4xy+1$ definida en la región $xy$ con dimensión $2$ x $2$.

Calculamos $f_{x}$ y $f_{y}$

$f_{x} = 4x^3-4y = 4(x^3-y)$ y $f_{y} = 4y^3-4x= 4(y^3-x)$

Para que $4(x^3-y) = 0$ los valores de $x$ y $y$ deben ser $x=-1$, $y=-1$ o $x=0$, $y=0$ o $y=1,x=1$, y para que $4(y^3-x) = 0$ de igual manera los valores de $x$ y $y$ deben ser $x=-1$, $y=-1$ o $x=0$, $y=0$ o $y=1,x=1$. Por último las combinaciones de valores que hacen que $4(x^3-y) = 4(y^3-x) = 0$ son en los puntos críticos $(-1,-1)$, $(0,0)$ y $(1,1)$.

Máximos y mínimos.

Máximos y mínimos locales en funciones con una variable

El propósito principal de hallar los puntos críticos es localizar los máximos y mínimos de una función, ya que estos proporcionan información relevante que sirven en muchas ciencias para realizar optimizaciones o programación matemática, la cual nos permite seleccionar el mejor elemento dentro de un conjunto según nuestras necesidades. Por ahora se definirán los máximos y mínimos locales de una función, pero más adelante veremos los que son los máximos y mínimos absolutos.

Sea $f(x)$ una función y $x = a$ un punto en el dominio de $f$. Los máximos y mínimos locales de la función se definen de la siguiente manera:

Máximo local: Si $f(a) \geq f(x)$, cuando $x$ está cercano a $a$.
Mínimo local: Si $f(a) \leq f(x)$, cuando $x$ está cercano a $a$.

Comúnmente cuando una función tiene un mínimo o un máximo local se dice que la función tiene un extremo local. Los cuales cumplen con una propiedad muy interesante la cual nos dice que si una función tiene un extremo local en un punto $x=a$, entonces el punto $a$ es un punto crítico.

Mueve la barra y observa que los extremos locales son los puntos mas altos o mas bajos en pequeños intervalos de la función.

En la podemos ver gráficamente que los extremos locales se encuentran en los puntos donde la función es más alta o baja dentro de un pequeño intervalo. Observe como todos los extremos locales se encuentran en puntos críticos. Esta propiedad se deduce del Teorema de Fermat, la cual dice lo siguiente:

Sea $f(x)$ una función diferenciable con un extremo local en un punto $a$. Entonces $f'(a)=0$

Este teorema es llamado criterio de la primera derivada y nos sirve para identificar con mayor facilidad extremos locales a partir del cálculo de puntos críticos.

Es importante notar que aunque un extremo local siempre se encuentra donde hay un punto crítico, un punto crítico no siempre se encuentra donde hay un extremo local, esto es debido a que los puntos críticos no siempre nos dan los puntos más altos o más bajos de una región, es decir, cuando los puntos críticos son puntos de inflexión (puntos donde la función cambia de concavidad), por ejemplo, si graficamos la función $x^3$ en la vemos que tiene un punto crítico en el origen que a su vez es un punto de inflexión por lo que no es un extremo local.

Entonces para poder hallar los extremos locales por medio de los puntos críticos utilizamos el teorema llamado el criterio de la segunda derivada que dice lo siguiente:

Sea $f$ una función derivable dos veces $x=a$ un punto en el dominio de $f$ . Supongamos que $f'(a) = 0$, es decir $a$ es un punto crítico, entonces

Si $f''(a) > 0$, entonces $f(a)$ es un mínimo local.
Si $f''(a) < 0$, entonces $f(a)$ es un máximo local.
Si $f''(a) = 0$, entonces el criterio no decide. En este caso $f(a)$ puede ser un máximo o un mínimo relativo o ninguno de los dos (es un punto de inflexión). Para este caso habría que buscar otro modo de determinarlo.

Ejemplo 1: Determine si los puntos críticos de la función $f(x) = x^3+2x^2+1$ definidos en la región $ [-5,5]$ del plano $xy$ son extremos locales utilizando el criterio de la segunda derivada.

Anteriormente se había calculado $f'(x) = 3x^2+4x$ y que los puntos críticos de esta función se dan en $x=0$ y $x=-\frac{4}{3}$. Ahora comprobamos si son extremos locales.

$f''(x) = 6x+4$

Para $x=0$, $f''(0) = 6(0)+4 = 4$. Como $f(a)>0$ entonces es un mínimo local.

Para $x=-\frac{4}{3}$, $f''(0) = 6(-\frac{4}{3})+4 = -8+4=-4$. Como $f(a)< 0$ entonces es un máximo local.

Por lo tanto los dos puntos críticos de la función en el intervalo $[-5,5]$ son extremos locales.

Máximos y mínimos absolutos en funciones con una variable

Cuando un punto $x=a$ cumple alguna de las desigualdades de la para todos los puntos donde está definida una función y no solo en los puntos cercanos decimos que $f$ tiene un extremo absoluto (máximo absoluto o mínimo absoluto) en $x=a$, es decir:

Sea $f(x)$ una función y $a$ un punto en el dominio de $f$. Entonces

Máximo absoluto: Si $f(a) \geq f(x)$ para todo $x$ en el dominio de $f$.
Mínimo absoluto: Si $f(a) \leq f(x)$ para todo $x$ en el dominio de $f$.

Una función no siempre tiene extremos absolutos es por eso que antes de realizar cálculos es recomendable determinar si es que existen. El siguiente teorema conocido como teorema del valor extremo nos da las condiciones suficientes para garantizar esto.

Sea $f(x)$ una función. Si $f$ es continua sobre un intervalo cerrado y acotado $[a,b]$ entonces existe un máximo absoluto y un mínimo absoluto en algunos puntos del intervalo $[a,b]$.

Entonces si nos tomamos un intervalo continuo en $f$ sabemos que existen extremos absolutos y la forma de hallarlos es realizando los pasos del siguiente teorema.

Sea $f(x)$ una función continua en un intervalo $I$ cerrado y acotado. Para encontrar los extremos locales de $f$ hacemos los siguiente:

Se calculan los valores de $f$ en los puntos críticos en el interior de $I$.
Se calculan los valores de $f$ en la frontera de $I$.
El más grande de los valores obtenidos en los pasos 1 y 2 es el valor máximo absoluto y el valor más pequeño es el valor mínimo absoluto.

Ejemplo: Calcula los extremos absolutos de la función $f(x) = x^3-3x^2+1$. En el intervalo cerrado y acotado $-\frac{1}{2} \leq x \leq 3.1$.

Como $f$ es continua en $-\frac{1}{2} \leq x \leq 4$ empleamos el procedimiento del . Primero calculamos los puntos críticos.

$f'(x) = 3x^2 - 6x = 3(x^2-2x)$

$f'(x) = 0$ solo ocurre cuando $x=0$ y $x=2$ por lo tanto tiene dos puntos críticos. Calculamos sus valores en $f$.

$f(0) = 0^3-3(0)^2+1 = 1$ y $f(2) = 2^3 - 3(2)^2 + 1 = -3$

Ahora calculamos los valores de $f$ en la frontera del intervalo $-\frac{1}{2} \leq x \leq 3.1$, es decir en $x=-\frac{1}{2}$ y $x=3.1$.

$f(-\frac{1}{2}) = (-\frac{1}{2})^3 - 3(-\frac{1}{2})^2 + 1 = -\frac{1}{8} - \frac{3}{4} + 1= \frac{1}{8}$

$f(3.1) = 3.1^3 - 3(3.1)^2 + 1 \simeq 1.9 $

Comparando todos los valores que obtuvimos concluimos que el máximo absoluto en $-1 \leq x \leq \frac{1}{2}$ se da en el punto frontera $x=3.1$ y el mínimo absoluto en el punto interior $x=2$. Si graficamos la función sobre el intervalo continuo $-\frac{1}{2} \leq x \leq 3.1$ en la es fácil ver que los extremos absolutos se dan en esos puntos.

Mueve el intervalo $I$ y observa los extremos absolutos. Las líneas verticales representan la frontera de $I$ y el relleno transparente el interior de $I$.

Máximos y mínimos locales en funciones con varias variables

Al igual que en funciones con una variable, encontrar los puntos críticos nos facilitan la búsqueda de valores extremos. En este caso, dichos valores extremos (máximos y mínimos locales) se definen como sigue.

Sea $f(x_{1},x_{2},...,x_{n})$ una función de $n$ variables y un punto $(a_{1},a_{2},...,a_{n})$. Entonces

Máximo local: Si $f(a_{1},a_{2},...,a_{n}) \geq f(x_{1},x_{2},...,x_{n})$ para todos los puntos del dominio $(x_{1},x_{2},...,x_{n})$ en un disco abierto con centro en $(a_{1},a_{2},...,a_{n})$

Mínimo local: Si $f(a_{1},a_{2},...,a_{n}) \leq f(x_{1},x_{2},...,x_{n})$ para todos los puntos del dominio $(x_{1},x_{2},...,x_{n})$ en un disco abierto con centro en $(a_{1},a_{2},...,a_{n})$

Es decir, un extremo local es un punto que es más alto o bajo en comparación con los puntos más cercanos como podemos ver en el ejemplo de la .

Mueve el disco $D$ y observa que los extremos locales son los puntos más bajos o altos dentro de $D$.

Y como en funciones con una variable, para encontrar los extremos locales analíticamente utilizamos el criterio de la primera derivada, la cual dice que:

Sea $f(x_{1},x_{2},...,x_{n})$ una función diferenciable con un extremo local en un punto $(a_{1},a_{2},...,a_{n})$ de su dominio, entonces $f_{x} = f_{y} = 0$

Este teorema nos dice que los únicos puntos donde la función $f(x_{1},x_{2},...,x_{n})$ tiene extremos locales están en puntos críticos. Sin embargo, es importante notar que esto no quiere decir que siempre vamos a encontrar extremos locales en todos los puntos críticos, por ejemplo, si graficamos la función $f(x)=x^4+y^4-4xy+1$ en la obtenemos los puntos críticos $(-1,-1),(1,1)$ y $(0,0)$, y es fácil ver que los puntos $(-1,-1)$ y $(1,1)$ son mínimos locales, mientras que en el caso del punto $(0,0)$ no es así, ya que tiene tanto puntos más bajos como más altos a su alrededor.

Esto ocurre ya que al igual que en funciones con una variable, un punto crítico podría ser un punto de inflexión, solo que en este caso se da lo que se conoce como puntos silla.

Sea $f(x_{1},x_{2},...,x_{n})$ una función de $n$ variables. Decimos que $f$ tiene un punto silla en un punto crítico $\overrightarrow{a} = (a_{1},a_{2},...,a_{n})$, si en cada disco abierto con centro en $\overrightarrow{a}$ existen puntos en el dominio de $f$ donde $f(\overrightarrow{a}) \leq f(x_{1},x_{2},...,x_{n})$ y $f(\overrightarrow{a}) \geq f(x_{1},x_{2},...,x_{n})$ ocurren de manera simultanea.

En pocas palabras un punto silla es un punto crítico que no es un extremo local, y al igual que en funciones con una variable podemos identificarlos al criterio de la segunda derivada que se define como sigue en funciones con dos variables.

Sea $f(x,y)$ una función de dos variables con derivadas de orden 2 dentro de un disco con centro en un punto $(a,b)$, y supongamos que $f_{x} = f_{y} = 0$, es decir $(a,b)$ es un punto crítico de $f$. Sea

$D = D(a,b) = f_{xx}(a,b)f_{yy}(a,b) - [f_{xy}(a,b)]^{2}$

Si $D>0$ y $f_{xx}(a,b) > 0 $, entonces $f(a,b)$ es un mínimo local
Si $D>0$ y $f_{xx}(a,b) < 0 $, entonces $f(a,b)$ es un máximo local
Si $D < 0$, entonces $f(a,b)$ no es un extremo local.

Nota 1: Si se presenta el caso donde $D=0$, el teorema no nos da información y ese punto podría ser cualquiera de los tres casos por lo que se tendría que buscar otra manera de determinarlo.

Nota 2: La expresión $f_{xx}(a,b)f_{yy}(a,b) - [f_{xy}(a,b)]^{2}$ se conoce como discriminante o Hessiano de $f$ y también puede escribirse como el determinante:

$D = \begin{vmatrix} f_{xx}(a,b) & f_{xy}(a,b) \\ f_{yx}(a,b) & f_{yy}(a,b) \end{vmatrix}$

Lo que nos dice el teorema es que si el discriminante es positivo en el punto $(a,b)$ la gráfica se curva hacia abajo si $f_{xx} < 0$, por lo que $(a,b)$ es un mínimo local y hacia arriba si $f_{xx}> 0$, por lo que $(a,b)$ es un máximo local. Generalmente el caso donde el discriminante es negativo quiere decir que la gráfica se curva hacia arriba en algunas direcciones y hacia abajo en otras, por lo que $(a,b)$ es un punto silla.

En la podemos ver gráficamente varios ejemplos de este criterio.

Ejemplos del criterio de la segunda derivada en funciones con dos variables.

Ejemplo: Determine si los puntos críticos de la función $f(x,y) = x^4+y^4-4xy+1$ definida en la región $xy$ con dimensión $2$ x $2$ son extremos locales utilizando criterio de la segunda derivada.

Anteriormente ya se calcularon las primeras derivadas parciales y los puntos críticos de $f$, donde:

$f_{x} = 4x^3-4y = 4(x^3-y)$ y $f_{y} = 4y^3-4x= 4(y^3-x)$

Y los puntos críticos son $(-1,-1)$, $(0,0)$ y $(1,1)$

Ahora calculamos las derivadas de orden 2

$f_{xx} = 12x^{2}$, $f_{yy}= 12y^{2}$ y $f_{xy} = f_{yx} = -4$

Calculamos el discriminante en los puntos críticos, primero para el punto crítico $(-1,-1)$

$D(-1,-1) = \begin{vmatrix} 12(-1)^{2} & -4 \\ -4 & 12(-1)^{2} \end{vmatrix} = 12\cdot 12 - (-4\cdot -4) $

$= 144 - 16 = 128$

Como $D > 0$ y $f_{xx}(-1,-1) >0$ entonces $(-1,-1)$ es un punto mínimo local.

Ahora para el punto crítico $(0,0)$

$D(0,0) = \begin{vmatrix} 12(0)^{2} & -4 \\ -4 & 12(0)^{2} \end{vmatrix} = 0 \cdot 0 - (-4\cdot -4) = -16$

Como $D < 0$ entonces $(0,0)$ es un punto silla.

Por último, para el punto crítico $(1,1)$

$D(1,1) = \begin{vmatrix} 12(1)^{2} & -4 \\ -4 & 12(1)^{2} \end{vmatrix} = 12\cdot 12 - (-4\cdot -4)$

$= 144 - 16 = 128$

Como $D > 0$ y $f_{xx}(1,1) >0$ entonces $(1,1)$ es un punto mínimo local.

Máximos y mínimos absolutos en funciones con varias variables

Ya vimos que los extremos locales de una función son los valores más grandes y más pequeños dentro de un disco con centro en un punto. Decimos que los extremos absolutos son los valores más grandes y pequeños en todo el dominio de $f$ y se definen de la siguiente manera:

Sea $f(x_{1},x_{2},...,x_{n})$ una función de $n$ variables y $(a_{1},a_{2},...,a_{n})$ un punto en el dominio de $f$. Entonces

Máximo absoluto: Si $f(a_{1},a_{2},...,a_{n}) \geq f(x_{1},x_{2},...,x_{n})$ para todos los puntos en el dominio de $f$.
Mínimo absoluto: Si $f(a_{1},a_{2},...,a_{n}) \leq f(x_{1},x_{2},...,x_{n})$ para todos los puntos en el dominio de $f$.

Una función no siempre tiene extremos absolutos, es por eso que primero es necesario saber si es que existen. Gracias al teorema del valor extremo podemos determinar si en una región acotada de la función hay extremos absolutos, el cual dice lo siguiente.

Sea $f(x_{1},x_{2},...,x_{n})$ una función de $n$ variables continua en un conjunto $R$ cerrado y acotado. Entonces $f(x_{1},x_{2},...,x_{n})$ alcanza un valor máximo absoluto y un valor mínimo absoluto en algunos puntos en $R$.

Por tanto, si sabemos que en un conjunto cerrado la función es continua, eso significa que existen extremos absolutos, ahora solo faltaría saber como encontrarlos. Esto se lleva a cabo siguiendo los pasos del siguiente teorema.

Sea $f(x_{1},x_{2},...,x_{n})$ una función de $n$ variables continua en un conjunto $R$ cerrado y acotado. Para encontrar los extremos locales de $f$ hacemos lo siguiente:

Se calculan los valores de $f$ en los puntos críticos que se encuentran en el interior $R$.
Se calculan los valores de $f$ en los extremos de la frontera de $R$.
El más grande de los valores obtenidos en los pasos 1 y 2 es el valor máximo absoluto y el valor más pequeño es el valor mínimo absoluto.

Ejemplo: Determine los extremos absolutos de la función $f(x,y) = x^2+y^2-xy+x+y$ sobre el triángulo $R$ definida por las condiciones $x\leq 0, \space y \leq 0$ y $x + y \geq -3$.

Como $f$ es polinomial entonces es continua sobre el triángulo cerrado y acotado $R$, por lo que existen tanto un mínimo absoluto como un máximo absoluto es esa región por el .

1- Calculamos los puntos críticos en el interior de $R$, esto ocurre cuando

$f_{x} = 2x+1-y = 0$ y $f_{y} = 2y+1-x = 0$

De modo que el único punto crítico es $(-1,-1)$ y es fácil comprobar que se encuentra en $R$. Donde $f(-1,-1) = -1$.

2- Ahora calculamos los valores extremos de la frontera de $R$, es decir la región sobre la cual $f$ se convierte en una función de una variable. En la podemos ver que el triángulo $R$ esta compuesto por 3 segmentos $L_{1}, L_{2}$ y $L_{3}$. Sobre $L_{1}$ (segmento conectado por $(-3,0),(0,0)$) tenemos que $y=0$ y

$z = x^2+x \space \space \space-3 \leq x \leq 0 $

Región acotada $x\leq 0, y \leq 0 \space y \space x + y \geq -3$.

Calculamos los valores extremos en la región $-3 \leq x \leq 0$ .

$z' = 2x + 1 = 0 \Rightarrow x = -\frac{1}{2}$

Obtenemos un punto crítico con valor $z(-\frac{1}{2}) = \left(-\frac{1}{2} \right)^{2} + \left(-\frac{1}{2} \right) = \frac{1}{4} - \frac{1}{2} = -\frac{1}{4}$. Ahora evaluamos la función en los extremos de la región $-3 \leq x \leq 0$ , es decir

$z(-3) = (-3)^2 + (-3) = 9 - 3 = 6$ y $z(0) = 0^2 + 0 = 0$

De esto tenemos que el valor máximo en $-3 \leq x \leq 0$ se da en $f(-3,0)=6$ y el valor mínimo en $-3 \leq x \leq 0$ se da en $f(-\frac{1}{2},0) = -\frac{1}{4}$.

Sobre $L_{2}$ (segmento conectado por $(0,0),(0,-3)$) tenemos que $x=0$ y

$z = y^2+y \space \space \space -3 \leq y \leq 0 $

Calculamos los extremos locales en la región $-3 \leq y \leq 0$

$z' = 2y + 1 = 0 \Rightarrow y = -\frac{1}{2}$

Obtenemos un punto crítico con valor $z(-\frac{1}{2}) = \left(-\frac{1}{2} \right)^{2} + \left(-\frac{1}{2} \right) = \frac{1}{4} - \frac{1}{2} = -\frac{1}{4}$. Ahora evaluamos la función en los extremos de la región $-3 \leq y \leq 0$ , es decir

$z(-3) = (-3)^2 + (-3) = 9 - 3 = 6$ y $z(0) = 0^2 + 0 = 0$

De esto tenemos que valor máximo en $-3 \leq y \leq 0$ se da en $f(0,-3)=6$ y el valor mínimo en $-3 \leq y \leq 0$ se da en $f(0,-\frac{1}{2}) = -\frac{1}{4}$.

Sobre $L_{3}$ (segmento conectado por $(-3,0),(0,-3)$) tenemos que $x + y = -3 \Rightarrow y = -3 - x$ y

$z = x^2 + (-3-x)^2 - x(-3-x) + x + (-3-x) $

$= 3x^2+9x+6 \space \space \space -3 \leq x \leq 0$

Calculamos los extremos locales en la región $-3 \leq y \leq 0$

$z' = 6x+9 = 0 \Rightarrow x = -\frac{9}{6} = -\frac{3}{2}$

Obtenemos un punto crítico con valor $z(-\frac{3}{2}) = 3\left(-\frac{3}{2} \right)^{2} + 9\left(-\frac{3}{2} \right) + 6 = \frac{27}{4} - \frac{54}{4} + \frac{24}{4} = -\frac{3}{4}$ . Ahora evaluamos la función en los extremos de la región $-3 \leq x \leq 0$ , es decir

$z(-3) = 3(-3)^2 + 9(-3) + 6 = 27 - 27 + 6 $

$= 6$ y $z(0) = 3(0)^2 + 9(0) + 6 = 6$

De esto tenemos que el valor máximo en $-3 \leq x \leq 0$ se da en $f(-3,0) = f(0,-3) = 6$ y el valor mínimo en $-3 \leq y \leq 0$ se da en $(-\frac{3}{2},-\frac{3}{2}) = -\frac{3}{4}$.

3- Comparando todos los extremos locales y concluimos que el máximo absoluto se da en los puntos frontera $(0,-3), (-3,0)$ con valor $6$ y el mínimo absoluto en el punto interior $(-1,-1)$ con valor $-1$.

En la podemos ver gráficamente un ejemplo donde mediante este método podemos encontrar los valores más grandes y pequeños en una región acotada.

Observa los máximos y mínimos en la frontera e interior de la región acotada $|x| \leq 1$, $|y| \leq 2$ en la función $f(x,y)=xy+y^2$. Puedes seleccionar un segmento frontera o el interior del rectángulo para ver los cálculos realizados.

Máximos y mínimos con restricciones.

Como hemos visto, obtener los extremos en funciones con varias variables se hace de manera similar que en funciones de una variable. Sin embargo, en funciones con varias variables podemos lidiar con condiciones o restricciones adicionales.

Hasta ahora solo hemos visto cómo obtener extremos de una función sin restricción alguna, así que ahora veremos cómo encontrar los extremos de una función, de manera que estos cumplan con determinadas condiciones (restricciones o ligas duras). Para ello se utilizara un poderoso método llamado: método de los multiplicadores de Lagrange, llamado así en honor al matemático Joshep Louis Lagrange, el cual será explicado a continuación.

Método de Lagrange

Como ya se mencionó, este método sirve para encontrar los extremos de una función de $n$ variables $f(a_{1},a_{2},...,a_{n})$, cuando está sujeta a alguna restricción $g(a_{1},a_{2},...,a_{n})$. La restricción $g$ también es una función de $n$ variables con el mismo espacio de entrada que $f$ y se tiene que ver de la siguiente manera:

$g(a_{1},a_{2},...,a_{n}) = c$

donde $c$ es alguna constante. Para entender este método consideremos una función particular de dos variables $f(x,y) = 4-x^2-y^2$ y la restricción $g(x,y) = x+y=2$, si graficamos ambas funciones podemos ver que $g$ es una línea proyectada sobre la superficie de $f$ ().

Mueve el punto $P$ y observa como se grafica la restricción $g$ sobre la superficie de $f$. Nota que al dibujar las curvas de nivel en el plano $xy$ la restricción $g$ es tangente a alguna curva sobre algunos puntos.

Entonces, si queremos encontrar los extremos en la restricción, tenemos que encontrar el puntos más bajo y el punto más alto en la línea proyectada por $g$. En nuestro ejemplo se ve claramente que el punto $(1,1)$ es un máximo ya que es el punto más alto que se encuentra en $g$.

Ahora, si retomamos el ejemplo anterior y dibujamos las curvas de nivel de $f$ y la curva de nivel $g = c$ sobre el plano $xy$, como se ve en la , podemos notar que la curva de nivel de $g = c$ es tangente a alguna curva de nivel de $f$. Para nuestro ejemplo particular esto ocurre en la curva de nivel $f(x,y)=2$.

Que es justamente la curva de nivel que pasa por el punto $(1,1)$ la cual ya habíamos visto es el punto máximo de la restricción.

Lo que quiere decir que en los puntos donde la curva $g = c$ es tangente a alguna curva de nivel de $f$ se encuentran los extremos de $f$ restringida a $g$ y es justamente lo que se busca calcular con el método de Lagrange.

Observa como los vectores gradientes $\varDelta f$ y $\varDelta g$ apuntan hacia la misma dirección (o en la opuesta) en los puntos de tangencia de las curvas de nivel de $f$ y $g=c$. Note que $\varDelta g$ es un múltiplo de $\varDelta f$ en los puntos de tangencia.

Para explicar analíticamente que las curvas de nivel de $f$ y $g=c$ son tangentes consideremos los gradientes de $f$ y $g =c$, ahora recordemos que el gradiente de $f$ evaluado en algún punto $(x_{0}, y_{0})$

siempre da un vector ortogonal a la curva de nivel que pasa por ese punto (). Esto significa que cuando las curvas de nivel de $f$ y $g=c$ son tangentes en un punto $P = (x_{0},y_{0})$, sus vectores gradientes se alinean, es decir deben de apuntar en la misma dirección (o en la opuesta) como se ve en la .

Si dos vectores apuntan en la misma dirección (o en la opuesta), entonces uno debe de ser un múltiplo del otro, es decir

$\varDelta f = \lambda \cdot \varDelta g$

donde $\lambda$ es llamado múltiplo de Lagrange. Entonces el procedimiento del método de Lagrange se basa en la ecuación anterior y se define como sigue.

Sean $f(a_{1},a_{2},...,a_{n})$ y $g(a_{1},a_{2},...,a_{n})$ dos funciones de $n$ variables diferenciables. Para determinar los valores extremos de $f$ sujeta a la restricción $g = c$ se debe de:

Hallar los valores de $a_{1},a_{2},...,a_{n}$ y $I$ que satisfacen de manera simultánea las ecuaciones:

$\varDelta f = \lambda \cdot \varDelta g$ y $g(a_{1},a_{2},...,a_{n}) = c $.

Evaluar $f$ en todos los puntos que resulten del paso 1. El más grande de estos valores es el máximo de $f$ y el más pequeño es el mínimo de $f$.

Si se reescribe la ecuación vectorial $\varDelta f = \lambda \cdot \varDelta g$ en términos de sus componentes, las ecuaciones del paso 1 se transforman en:

$ (f_{a_{1}},f_{a_{2}},...,f_{a_{n}}) = \lambda \cdot (g_{a_{1}},g_{a_{2}},...,g_{a_{n}})$

$\Rightarrow f_{a_{1}} = \lambda \cdot g_{a_{1}}, f_{a_{2}} = \lambda \cdot g_{a_{n}},..., f_{a_{n}} = \lambda \cdot g_{a_{2}} $

y $g(a_{1},a_{2},...,a_{n}) = c $

Lo que podemos ver como un sistema de ecuaciones con $n+1$ incógnitas ($a_{1},a_{2},...,a_{n}$ y $\lambda$), es decir:

$ \begin{dcases} f_{a_{1}} = \lambda \cdot g_{a_{1}} \\ f_{a_{2}} = \lambda \cdot g_{a_{2}} \\ \vdots \\ f_{a_{n}} = \lambda \cdot g_{a_{n}} \\ g(a_{1},a_{2},...,a_{n}) = c \end{dcases}$

donde los resultados del mismo son los puntos que utilizaremos para encontrar el máximo y el mínimo como se describe en el paso 2 del método.

Nota: En algunos caso solo se obtiene un punto al resolver el sistema, entonces para determinar si es un máximo o un mínimo se utiliza el criterio de la segunda derivada como se explica en el ejemplo 1.

Ejemplo 1: Encuentre los extremos de la función $f(x,y,z) = 2x^2+y^2+3z^2$ sujeta a la función $g(x,y,z) = 2x - 3y - 4z = 49$.

Calculamos la primera derivada parcial de las funciones $f$ y $g$.

$f_{x} = 4x$ , $f_{y} = 2y$ , $f_{z} = 6z$ , $g_{x} = 2$, $g_{y} = -3$ y $g_{z} = -4$

Escribimos el sistema de ecuaciones a partir de los componentes de la ecuación vectorial $\varDelta f = \lambda \cdot \varDelta g$ y resolvemos.

$ \begin{dcases} 4x = 2\lambda \\ 2y = -3\lambda \\ 6z = -4\lambda \\ 2x - 3y - 4z = 49 \end{dcases}$

Resolvemos el sistema de ecuaciones con alguno de los métodos explicados en la sección 1.7, en este caso se utilizará el método de sustitución. Elegimos la primera ecuación y resolvemos para $x$.

$x = \frac{\lambda}{2}$

Sustituimos el valor de $x$ en el resto de ecuaciones y actualizamos el sistema.

$ \begin{dcases} 2y = -3\lambda \\ 6z = -4\lambda \\ \lambda - 3y - 4z = 49 \end{dcases}$

Elegimos la primera ecuación y resolvemos para $y$.

$y = -\frac{3\lambda}{2}$

Sustituimos el valor de $y$ en el resto de ecuaciones y actualizamos el sistema.

$ \begin{dcases} 6z = -4\lambda \\ \frac{11\lambda}{2} - 4z = 49 \end{dcases}$

Elegimos la primera ecuación y resolvemos para $z$.

$z = -\frac{2\lambda}{3}$

Sustituimos el valor de $z$ en el resto de ecuaciones y actualizamos el sistema.

$ \begin{dcases} \frac{49\lambda}{6} = 49 \end{dcases}$

Resolvemos la ultima ecuación para $\lambda$.

$\lambda = \frac{49}{49} \cdot 6 = 6$

Obtenemos los valores de $x,y$ y $z$.

$x = \frac{\lambda}{2} \Rightarrow x = \frac{6}{2} = 3$

$y = -\frac{3\lambda}{2} \Rightarrow y = -\frac{18}{2} = -9$

$z = -\frac{2\lambda}{3} \Rightarrow z = -\frac{12}{3} = -4 $

Evaluamos los puntos obtenidos en $f$, en este caso solo se obtuvo el punto $(3,-9,-4)$.

$f(3,-9,-4) = 2(3)^2+(-9)^2+3(-4)^2 = 2(9) + 81 + 3(16) = 18+81+48=147$

Como podemos ver obtuvimos un resultado único al resolver el sistema (es decir solo un punto) esto quiere decir que la función $f$ sujeta a la restricción $g$ solo tiene un máximo o un mínimo.

Es importante mencionar que en estos casos no podemos decir arbitrariamente si es un mínimo o un máximo el punto obtenido.

Esto es debido a que en problemas del mundo real por naturaleza debe ser uno en concreto. Entonces para determinarlo aplicamos el criterio de la segunda derivada ().

De acuerdo al teorema de la segunda derivada primero calculamos el discriminante o hessiano de $f$, para eso calculamos las derivadas de segundo orden de $f$ en el punto $(3,-9,-4)$.

$f_{xx}(3,-9,-4) = 4 , f_{xy}(3,-9,-4) = 0, f_{xz}(3,-9,-4) = 0, $

$f_{yx}(3,-9,-4) = 0, f_{yy}(3,-9,-4) = 2, f_{yz}(3,-9,-4) = 0$

$f_{zx}(3,-9,-4) = 0 , f_{zy}(3,-9,-4) = 0, f_{zz}(3,-9,-4) = 6$

$D = \begin{vmatrix} f_{xx} & f_{xy} & f_{xz} \\ f_{yx} & f_{yy} & f_{yz} \\ f_{zx} & f_{zy} & f_{zz} \end{vmatrix} = \begin{vmatrix} 4 & 0 & 0 \\ 0 & 2 & 0 \\ 0 & 0 & 6 \end{vmatrix}$

$ = 4 \cdot (2\cdot 6 - (0 \cdot 0)) - 0 \cdot (0 \cdot 6 - (0 \cdot 0 )) + 0 \cdot (0 \cdot 0 - (2 \cdot 0)) $

$= 48$

Como $f_{xx} > 0$ y $D > 0$, por el criterio de la segunda derivada entonces el punto $(3,-9,-4)$ es un mínimo.

Ejemplo 2: Encuentre los extremos de la función $f(x,y) = 2xy$, sujeta a la restricción $g(x,y) = \frac{x^2}{3}+\frac{y^2}{4} = 1$.

Calculamos la primera derivada parcial de las funciones $f$ y $g$.

$f_{x} = 2y$ , $f_{y} = 2x$, $g_{x} = \frac{2x}{3}$ y $g_{y} = \frac{y}{2}$

Escribimos el sistema de ecuaciones a partir de los componentes de la ecuación vectorial $\varDelta f = \lambda \cdot \varDelta g$ y resolvemos.

$ \begin{dcases} 2y = \frac{2x\lambda}{3} \\ 2x = \frac{y\lambda}{2} \\ \frac{x^2}{3}+\frac{y^2}{4} = 1 \end{dcases}$

Resolvemos el sistema de ecuaciones, en este caso se utilizará el método de sustitución. Elegimos la primera ecuación y resolvemos para $\lambda$.

$2y = \frac{2x\lambda}{3} \Rightarrow 2x\lambda = 6y \Rightarrow x\lambda = 3y \Rightarrow \lambda = \frac{3y}{x}$

Sustituimos el valor de $\lambda$ en el resto de ecuaciones y actualizamos el sistema.

$ \begin{dcases} 2x = \frac{y\cdot (\frac{3y}{x})}{2} \\ \frac{x^2}{3}+\frac{y^2}{4} = 1 \end{dcases}$

Elegimos la primera ecuación y resolvemos para $x$.

$ 2x = \frac{y\cdot (\frac{3y}{x})}{2} \Rightarrow 2x = \frac{3y^2}{2x} \Rightarrow 4x^2 = 3y^2 \Rightarrow x^2 = \frac{3y^2}{4}$

Sustituimos el valor de $x$ en el resto de ecuaciones y actualizamos el sistema.

$ \begin{dcases} \frac{\frac{3y^2}{4}}{3}+\frac{y^2}{4} = 1 \end{dcases}$

Resolvemos la última ecuación para $y$.

$\frac{\frac{3y^2}{4}}{3}+\frac{y^2}{4} = 1 \Rightarrow \frac{y^2}{4} + \frac{y^2}{4} = 1 \Rightarrow \frac{2y^2}{4} = 1$

$2y^2 = 4 \Rightarrow y^2 = 2$

En este caso hay dos soluciones para $y$, es decir:

$y_{1} = \sqrt{2}$ y $y_{2} = -\sqrt{2}$

Obtenemos los valores de $x$. En el caso de $x$ obtenemos 2 soluciones reales:

$x^2 = \frac{3y^2}{4}$

$ \Rightarrow x_{1} = \sqrt{\frac{3(\sqrt{2})^2}{4}} \Rightarrow x_{1} = \sqrt{\frac{3(2)}{4}} \Rightarrow = \sqrt{\frac{3}{2}} \simeq 1.22 $

$ \Rightarrow x_{2} = -\sqrt{\frac{3(\sqrt{2})^2}{4}} \Rightarrow x_{1} = -\sqrt{\frac{3(2)}{4}} \Rightarrow = -\sqrt{\frac{3}{2}} \simeq -1.22 $

Entonces encontramos 4 puntos posibles, $(1.22,\sqrt{2}), (1.22,-\sqrt{2}),(-1.22,\sqrt{2})$ , $(-1.22,-\sqrt{2})$ y los evaluamos en la función

$f(1.22,\sqrt{2}) = 2(1.22)(\sqrt{2}) \simeq 3.45$

$f(1.22,-\sqrt{2}) = 2(1.22)(-\sqrt{2}) \simeq -3.45$

$f(-1.22,\sqrt{2}) = 2(-1.22)(\sqrt{2}) \simeq -3.45$

$f(-1.22,-\sqrt{2}) = 2(-1.22)(-\sqrt{2}) \simeq 3.45$

Por último obtenemos los valores de los multiplicadores de Lagrange de las soluciones. Dado de $\lambda = \frac{3y}{x}$, entonces:

Para el punto $(1.22,\sqrt{2})$ tenemos que $\lambda = 3.47$

Para el punto $(1.22,-\sqrt{2})$ tenemos que $\lambda = -3.47$

Para el punto $(-1.22,\sqrt{2})$ tenemos que $\lambda = -3.47$

Para el punto $(-1.22,-\sqrt{2})$ tenemos que $\lambda = 3.47$

Por lo que concluimos que los puntos $(1.22,\sqrt{2}), (-1.22,-\sqrt{2})$ son los máximos de $f$ sujeto a $g$ y los puntos $(1.22,-\sqrt{2}),(-1.22,\sqrt{2})$ son los mínimos de $f$ sujeto a $g$.

En la podemos ver gráficamente que en efecto estos puntos son los extremos de $f$ sujeto a $g$ graficando la superficie de $f$, la restricción $g(x,y)=1$ y la curva de nivel $f(x,y) = 3.45$. En la se puede ver que la curva de nivel $g(x,y)=1$ es tangente a los 4 puntos obtenidos y que se cumple que $\varDelta f = \lambda \cdot \varDelta g$. Si se quiere comprobar analíticamente simplemente se utiliza el criterio de la segunda derivada.

Método de Lagrange con dos restricciones

El método de Lagrange también puede ser utilizado para calcular los extremos de una función $f(a_{1},a_{2},...,a_{n})$ sujeta a dos restricciones $g(a_{1},a_{2},...,a_{n})=c$ y $h(a_{1},a_{2},...,a_{n})=d$. En este caso se consideran dos multiplicadores de Lagrange $\lambda_{1}$ y $\lambda_{2}$ de tal manera que el sistema de ecuaciones a resolver para encontrar los extremos está dado a partir de los componente de la ecuación vectorial $\varDelta f = \lambda_{1} \cdot \varDelta g + \lambda_{2} \varDelta h$, es decir:

$ \begin{dcases} f_{a_{1}} = \lambda \cdot g_{a_{1}} + \lambda \cdot h_{a_{1}} \\ f_{a_{2}} = \lambda \cdot g_{a_{2}} + \lambda \cdot h_{a_{2}} \\ \vdots \\ f_{a_{n}} = \lambda \cdot g_{a_{n}}+ \lambda \cdot h_{a_{n}} \\ g(a_{1},a_{2},...,a_{n}) = c \\ h(a_{1},a_{2},...,a_{n}) = d \end{dcases}$

Ejemplo: Encuentre los extremos de la función $f(x,y,z) = x+y$ sujeta a las funciones $g(x,y,z) = x^2+z^2=4$ y $h(x,y,z) = 2x-3y+z=6$.

Calculamos la primera derivada parcial de las funciones $f$, $g$ y $h$.

$f_{x} = 1$ , $f_{y} = 1$, $f_{z} = 0$ , $g_{x} = 2x$, $g_{y} = 0 $ y $g_{z} = 2z$

$h_{x} = 2$, $h_{y} = -3$, $h_{z} = 1$

Escribimos el sistema de ecuaciones a partir de los componentes de la ecuación vectorial $\varDelta f = \lambda_{1} \cdot \varDelta g + \lambda_{2} \cdot \varDelta h$ y resolvemos.

$ \begin{dcases} 1 = 2x\lambda_{1} + 2\lambda_{2} \\ 1 = -3\lambda_{2} \\ 0 = 2z\lambda_{1} + \lambda_{2} \\ x^2+z^2=4 \\ 2x-3y+z=6 \end{dcases}$

En este caso se utilizara el método de sustitución. Elegimos la segunda ecuación y resolvemos para $\lambda_{2}$.

$\lambda_{2}= -\frac{1}{3}$

Sustituimos el valor de $\lambda_{2}$ en el resto de ecuaciones y actualizamos el sistema.

$ \begin{dcases} 1 = 2x\lambda_{1} - \frac{2}{3} \\ 0 = 2z\lambda_{1} - \frac{1}{3} \\ x^2+z^2=4 \\ 2x-3y+z=6 \end{dcases}$

Elegimos la segunda ecuación y resolvemos para $\lambda_{1}$.

$-2z\lambda_{1} = -\frac{1}{3} \Rightarrow \lambda_{1} = \frac{1}{6z}$

Sustituimos el valor de $\lambda_{1}$ en el resto de ecuaciones y actualizamos el sistema.

$ \begin{dcases} 1 = \frac{x}{3z} - \frac{2}{3} \\ x^2+z^2=4 \\ 2x-3y+z=6 \end{dcases}$

Elegimos la primera ecuación y resolvemos para $x$.

$\frac{5}{3} = \frac{x}{3z} \Rightarrow 5z = x$

Sustituimos el valor de $x$ en el resto de ecuaciones y actualizamos el sistema.

$ \begin{dcases} 25z^2 + z^2=4 \\ 11z-3y=6 \end{dcases}$

Elegimos la primera ecuación y resolvemos para $z$.

$26z^2 = 4 \Rightarrow z^2 = \frac{4}{26} \Rightarrow z = \pm \frac{2}{\sqrt{26}}$

Sustituimos el valor de $z$ en la última ecuación (primero para la solución positiva de $z$).

$ \begin{dcases} \frac{22}{\sqrt{26}}-3y=6 \end{dcases}$

Por último obtenemos los valores de $y$ y $x$.

$3y = -6 + \frac{22}{\sqrt{26}} \Rightarrow y = -2 + \frac{22}{3\cdot\sqrt{26}}$

$x=5z \Rightarrow x = \frac{10}{\sqrt{26}}$

Entonces el primer punto obtenido es $(\frac{10}{\sqrt{26}}, -2 + \frac{22}{3\cdot\sqrt{26}},\frac{2}{\sqrt{26}} )$

Al sustituir la solución negativa obtenemos el segundo punto $(-\frac{10}{\sqrt{26}}, -2 - \frac{22}{3\cdot \sqrt{26}},-\frac{2}{\sqrt{26}} )$

Evaluamos los dos puntos obtenidos en $f$.

$f(\frac{10}{\sqrt{26}}, -2 + \frac{22}{3\cdot\sqrt{26}},\frac{2}{\sqrt{26}} ) = \frac{10}{\sqrt{26}} -2 + \frac{22}{3\cdot\sqrt{26}} \simeq 1.39$

$f(-\frac{10}{\sqrt{26}}, -2 - \frac{22}{3\cdot\sqrt{26}},\frac{2}{\sqrt{26}} ) = \frac{10}{\sqrt{26}} -2 + \frac{22}{3\cdot\sqrt{26}} \simeq -5.39$.

Por lo tanto se concluye que el máximo es el punto $(\frac{10}{\sqrt{26}}, -2 + \frac{22}{3\cdot\sqrt{26}},\frac{2}{\sqrt{26}} )$ y el mínimo el punto $(-\frac{10}{\sqrt{26}}, -2 - \frac{22}{3\cdot\sqrt{26}},\frac{2}{\sqrt{26}} )$.

Apéndice 1

Cualquier información preliminar que sea necesaria para las notas

Determinantes en matrices $2$ x $2$ y $3$ x $3$.

Una matriz es una colección ordenada de números colocados en filas y columnas, por ejemplo:

$A = \begin{bmatrix}{2}&{1}&{4}\\{1}&{1}&{3}\\{0}&{2}&{-1}\end{bmatrix}$

Si la matriz tiene $m$ filas y $n$ columnas decimos que es una matriz de dimensión $m$ x $n$, en caso de que $m = n$ decimos que es una matriz cuadrada o de “orden” $m$, por ejemplo la matriz $A$ es de orden 3.

Ahora definiremos lo que es el determinante de una matriz, el cual es un número real asociado a una matriz $n$ x $n$ (matriz cuadrada).

Nota: No se puede calcular el determinante de una matriz que no sea cuadrada.

Sea $A$ una matriz $2$ x $2$. El determinante de $A$ denotado como $||A||$, es el número real calculado a partir de las entradas de la matriz $A$ de la siguiente manera:

Si $A = \begin{bmatrix}{a}&{b}\\{c}&{d}\end{bmatrix}$, entonces $||A|| = \begin{vmatrix}{a}&{b}\\{c}&{d}\end{vmatrix}= ad - bc$.

En el caso de matrices $3$ x $3$ hacemos uso de la definición de determinante en matrices $2$ x $2$.

Sea $A$ una matriz $3$ x $3$. El determinante de $A$ denotado como $||A||$, es el número real calculado a partir de las entradas de la matriz $A$ de la siguiente manera:

Si $A = \begin{bmatrix}{a}&{b}&{c}\\{d}&{e}&{f}\\{g}&{h}&{i}\end{bmatrix}$, entonces $||A|| = \begin{vmatrix}{a}&{b}&{c}\\{d}&{e}&{f}\\{g}&{h}&{i}\end{vmatrix}$

$= a\begin{vmatrix}{e}&{f}\\{h}&{i}\end{vmatrix} - b\begin{vmatrix}{d}&{f}\\{g}&{i}\end{vmatrix} + c\begin{vmatrix}{d}&{e}\\{g}&{h}\end{vmatrix} $

$= a(ei-fh)-b(di-fg)+c(dh-eg)$

En la se muestran los pasos para calcular el determinante de una matriz $3$ x $3$.

Introduce los valores de la matriz $3$ x $3$ y observa como se calcula su determinante.

Reglas de diferenciación básicas

Derivada de una constante

$ k' = 0$

$ 5' = 0$

Derivada de una potencia

$ (x^{k})' = k \cdot x^{k-1} $

$ (x^{4})' = 4x^{3}$

Derivada de una constante por una función

$k \cdot f(x) = k \cdot f(x)'$

$ 3x' = 3 $

Derivada de una suma (o resta)

$ (f(x) \pm g(x))' = f'(x) \pm g'(x)$

$(7x^{2} + 2x^{3})' = 14x + 6x^{2} $

Derivada de un producto

$(f(x) \cdot g(x))' = f(x)' \cdot g(x) + f(x) \cdot g'(x)$

$(x^{3} \cdot x)' = 3x^{2} \cdot x + 1 \cdot x^{3} = 4x^{3} $

Derivada de un cociente

$ \left(\frac{f(x)}{g(x)} \right)' = \frac{f'(x) \cdot g(x) - f(x) \cdot g'(x)}{g(x)^{2}}$

$\left(\frac{x}{x^{2}} \right)' = \frac{1 \cdot x^{2} - 2x \cdot x}{(x^{2})^{2}} = -\frac{1}{x^{2}}$

Otras derivadas elementales

$sen(x)' = cos(x)$

$cos(x)' = -sen(x)$

$tan(x)' = sec^{2}(x)$

$sec(x)' = sec(x)\cdot tan(x)$

$cot(x)' = -csc^{2}(x)$

$csc(x)' = -csc(x)\cdot cot(x)$

$ e^{x}'' = e^{x} $

$ln \space x' = \frac{1}{x}$

Integrales básicas

Integral de una constante

$\displaystyle\int k dx = kx + C $

$\displaystyle\int 5 dx = 5x + C $

Integral de una potencia

$\displaystyle\int x^{k} dx = \frac{x^{k+1}}{k+1} + C$

$\displaystyle\int x^{2} dx = \frac{x^{3}}{3} + C$

Integral de una constante por una función

$\displaystyle\int c f(x) dx = c \displaystyle\int f(x) dx $

$\displaystyle\int 2 x^{2} dx = 2 \cdot \frac{x^{3}}{3} = \frac{2x^{3}}{3} + C $

Integral de una suma (o resta)

$\displaystyle\int f(x) \pm g(x) dx = \displaystyle\int f(x) dx \pm \displaystyle\int g(x)$

$\displaystyle\int x^{2} + x^{3} dx = \frac{x^{3}}{3} + \frac{x^{4}}{4} + C$

Otras integrales elementales

$\displaystyle\int sen(x) dx = -cos(x) + C$

$\displaystyle\int cos(x) dx = sen(x) + C$

$\displaystyle\int tan(x) dx = ln|sec(x)| + C$

$\displaystyle\int cot(x) dx= ln|sen(x)| + C$

$\displaystyle\int sec(x) dx= ln|sec(x) + tan(x)| + C$

$\displaystyle\int csc(x) dx= ln|csc(x) - cot(x)| + C$

$\displaystyle\int e^{x} dx= e^{x} + C$

Bibliografía

Marta. Producto escalar de vectores. Recuperado de https://www.superprof.es/apuntes/escolar/matematicas/analitica/vectores/producto-escalar-2.html. Consultado en 2020.

Pustilnik, I, Gómez, F. Producto vectorial y mixto. Recuperado de https://aga.frba.utn.edu.ar/producto-vectorial-y-mixto/. Consultado en 2020. Pustilnik, I, Gómez, F. Conjunto generador. LI y LD. Base. Dimensión. Recuperado de https://aga.frba.utn.edu.ar/conjunto-generador-li-y-ld-base-dimension/. Consultado en 2020.

Lección 3 curvas. Área en coordenadas polares. Recuperado de http://www.matematicaaplicada2.es/data/pdf/1322229361_2115142410.pdf. Consultado en 2020. Nykamp, DQ. Multivariable Taylor polynomial example. Recuperado de https://mathinsight.org/taylor_polynomial_multivariable_examples. Consultado en 2020. Nadal Morales, P. Lección 3: Aproximación de funciones por polinomios. Fórmula de Taylor para funciones escalares. Recuperado de https://personal.us.es/pnadal/Informacion/leccion3Taylor.pdf. Consultado en 2020. Seeburger, P. Taylor Polynomials of Functions of Two Variables. https://math.libretexts.org/Bookshelves/Calculus/Supplemental_Modules_(Calculus)/Multivariable_Calculus/3%3A_Topics_in_Partial_Derivatives/Taylor__Polynomials_of_Functions_of_Two_Variables. Consultado en 2020.

Nykamp, DQ. The derivative matrix. Recuperado de Math Insight. http://mathinsight.org/derivative_matrix. Consultado en 2020. Matematicas10.net. Ejemplos de Puntos Críticos. Recuperado de https://www.matematicas10.net/2017/05/ejemplos-de-puntos-criticos.html. Consultado en 2020. Llopis J. Cálculo de Extremos de Funciones de Varias Variables. Recuperado de https://www.matesfacil.com/UNI/varias_variables/extremos/extremos-varias-variables.html. Consultado en 2021. Khan Academy. Introducción a los multiplicadores de Lagrange. Recuperado de https://es.khanacademy.org/math/multivariable-calculus/applications-of-multivariable-derivatives/constrained-optimization/a/Lagrange-multipliers-single-constraint. Consultado en 2021. Calculisto. Multiplicadores de Lagrange con 2 restriccioes. Recuperado de https://www.calculisto.com/topics/funciones-de-varias-variables/summary/238. Consultado en 2021. Matemáticas en Movimiento. Extremos relativos. Recuperado de http://www3.uacj.mx/CGTI/CDTE/JPM/Documents/IIT/sterraza/mate2016/EXTFUN/ext_rel.html. Consultado en 2021.

Hurtado Cruz, E.R. Multiplicadores de Lagrange. Recuperado de http://sistemas.fciencias.unam.mx/~erhc/calculo3_20171/derivadas_parciales_direccionales_2016_11.pdf. Consultado en 2021.