Notas para el curso Matemáticas para las Ciencias 2
Pablo Antonio Candela Castellanos
Universidad Nacional Autónoma de México
Título de la obra:
Notas para el curso Matemáticas para las Ciencias 2
Autor:
Pablo Antonio Candela Castellanos
Código JavaScript para el libro: Joel Espinosa Longi, IMATE, UNAM.
Fuentes: Nunito y UbuntuMono
Fórmulas matemáticas: $\KaTeX$
Esta obra está bajo una Licencia Creative Commons Atribución-NoComercial-CompartirIgual 4.0 Internacional.
Este libro digital interactivo se ha diseñado para poder utilizarse en cualquier ordenador, celular o tableta, independientemente del sistema operativo que porte, sin necesidad de estar conectado a una red de internet. El contenido de este libro está pensado para estudiantes de la carrera de Ciencias de la Computación de la Facultad de Ciencias de la UNAM, de acuerdo al plan de estudios de la materia Matemáticas para las Ciencias II, tomando en cuenta los conocimientos adquiridos hasta el momento en el que toman la materia.
Comúnmente en el proceso del aprendizaje y enseñanza de las matemáticas, a los alumnos les cuesta trabajo aprender ya que en muchas ocasiones es difícil visualizar y entender los conceptos que se están estudiando. Es por eso que en este libro se tratarán los conceptos de manera que sean más intuitivos e interesantes por medio de recursos interactivos, permitiendo así que los alumnos trabajen lo que se está estudiando de tal forma que puedan visualizarlo por medio de animaciones o experimentar por sí mismos introduciendo valores e interactuando con los elementos de los recursos.
Dichos recursos interactivos se han desarrollado con ayuda del editor DescartesJS, el cual es una herramienta que permite desarrollar objetos educativos interactivos, que cuenta con la posibilidad de programar algoritmos, animaciones, integrar controles gráficos, de texto y numéricos, facilitando la creación de recursos que modelen varios conceptos en concreto. Adicionalmente al final de cada tema se explica como resolver algunos ejercicios de manera analítica, las cuales en lo general se apoyan y complementan de buena manera con los recursos interactivos en la comprobación de los resultados.
En general, el objetivo que se le ha dado a este libro es la de adquirir la capacidad de comprender de manera intuitiva la geometría en varias dimensiones, conocer los conceptos relacionados con funciones reales de varias variables, curvas, diferenciabilidad, así como saber utilizar técnicas del cálculo empleadas para solucionar problemas de optimización, la resolución de problemas lineales de varias variables y el cálculo de sólidos de revolución.
El conjunto de las $n-tuplas$ ordenadas de números reales se denota por $ℝ^{n}$, donde $ℝ^{n}:=\{(u_{1},u_{2},...,u_{n}|u_{i} \in \R, 1 \leq i \leq n)\}$ y se suelen llamar vectores de orden $n$, donde el orden se refiere a la dimensión del vector, los vectores se denotan como $\overrightarrow{u}$.
Desde el punto de vista geométrico un vector $\overrightarrow{u} = (u_{1},u_{2},...,u_{n})$ puede verse como un segmento de recta dirigido, el cual tiene por punto inicial “el origen” (Para los ejemplos de estas notas la coordenada $(0,0,...,0)$) y como punto final el punto que se encuentra en la coordenada $(u_{1},u_{2},...,u_{n})$ ().
Los vectores con la misma dirección y longitud son llamados vectores equivalentes, donde la equivalencia de vectores se denota como $\overrightarrow{u} = \overrightarrow{v}.$ Hay que tomar en cuenta que esta propiedad sólo considera la dirección y la longitud, por lo tanto, los vectores se consideran equivalentes aunque su origen esté ubicado en una posición diferente. El vector cuyas componentes son todas $0$ es conocido como el vector cero o vector nulo y es denotado como $\overrightarrow{0}$.
La suma de vectores se puede llevar a cabo entre dos o más vectores, sin embargo hay que tomar en cuenta que para realizar esta operación todos los vectores deben de tener la misma dimensión y su origen tiene que estar aplicado a un punto en común, en otras palabras, si un vector tiene su origen en la coordenada $(0,0)$, para poder sumarlo con otro vector este también tiene que tener su origen en la coordenada $(0,0)$.
La suma de vectores da como resultado un vector nuevo, existen diferentes métodos para realizar esta operación, puede hacerse de manera algebraica o utilizando geometría analítica como se explica a continuación.
El método algebraico o también conocido como método directo se realiza sumando los respectivos componentes de cada vector.
$\overrightarrow{u}$ = ($u_{1}$, $u_{2}$, $u_{3}$ ,..., $u_{n}$)
$\overrightarrow{v}$ = ($v_{1}$, $v_{2}$, $v_{3}$ ,..., $v_{n}$)
El vector resultante $\overrightarrow{w}$ es obtenido sumando los componentes de $\overrightarrow{u}$ y $\overrightarrow{v}$ de la siguiente manera:
$\overrightarrow{w}$ = ($u_{1} + v_{1}$, $u_{2} + v_{2}$, $u_{3} + v_{3}$, ...,$u_{n} + v_{n}$)
Esta operación puede generalizarse para $n$ vectores sumando los respectivos componentes de cada vector.
Ejemplo 1: Sean $\overrightarrow{u} = (2,-5,-1)$ y $\overrightarrow{v} = (4,2,2)$ vectores en $ℝ^{3}$.
$\overrightarrow{u} + \overrightarrow{v} = (2+4,-5+2,-1+2) = (6,3,1)$
Ejemplo 2: Sean $\overrightarrow{u} = (1,-2,3)$, $\overrightarrow{v} = (1,-2,-2)$ y $\overrightarrow{w} = (3,1,3)$ vectores en $ℝ^{3}$.
$\overrightarrow{u} + \overrightarrow{v} + \overrightarrow{w} = (1+1+3,-2-2+1,3-2+3) = (5,-3,4)$
En cuanto a los métodos geométricos los más conocidos son el “método del triángulo”, “el método del paralelogramo” y “el método del polígono”.
Sean dos vectores en $ℝ^{2}$ o en $ℝ^{3}$ aplicados a un punto inicial en común, la suma consiste en trasladar el origen del segundo vector a el “extremo” del primero, de esta forma la suma se representa como el vector que une el punto en común con el extremo del vector trasladado. .
Se toman dos vectores en $ℝ^{2}$ o en $ℝ^{3}$ aplicados a un punto inicial en común, primero se dibujan ambos vectores, después se traza una recta paralela a cada vector, donde la recta paralela al primer vector inicia en el extremo del segundo vector y la recta paralela al segundo vector inicia en el extremo del primer vector de tal forma que se obtiene un paralelogramo, la suma es representada como el vector que inicia en el punto en común y termina en la intersección de los segmentos paralelos. .
Este método es utilizado cuando se quieren sumar más de dos vectores, el procedimiento consiste en colocar un vector a continuación de otro de la misma manera que en el método del triángulo, los vectores se tienen que ir colocando de modo que el origen de uno coincida con el extremo de otro, esto se realiza con cada vector que se quiere sumar hasta terminar de colocar todos, por último la suma se representa por el vector que inicia en el punto en común y termina en el extremo del último vector colocado.
La suma de vectores cumple con las siguientes propiedades.
$\overrightarrow{u} + \overrightarrow{v} = \overrightarrow{v} + \overrightarrow{u}$.
$\overrightarrow{u} + (\overrightarrow{v} + \overrightarrow{w}) = (\overrightarrow{u} + \overrightarrow{v}) + \overrightarrow{w}$.
$\overrightarrow{u} + \overrightarrow{0} = \overrightarrow{u}.$
$\overrightarrow{u} + (-\overrightarrow{u}) = \overrightarrow{0}$, es decir existe un vector -$\overrightarrow{u}$ que es inverso aditivo de $\overrightarrow{u}$.
El producto por escalares es una operación que se realiza entre un vector $\overrightarrow{u}$ no nulo y un escalar $c$ (número real distinto de cero) denotado como $c\overrightarrow{u}$, el resultado que se obtiene es un vector nuevo cuya longitud es $|c|$ veces la del vector $\overrightarrow{u}$, el cual conserva la dimensión del vector original.
$c\overrightarrow{u} = c\cdot (u_{1},u_{2},..,u_{n})$ = $(c\cdot u_{1},c\cdot u_{2},..,c\cdot u_{n})$.
Ejemplo 1: Sean $c = 3$ y $\overrightarrow{u} = (3,1,-3)$.
$c\overrightarrow{u} = 3\cdot(2,1,-2) = (3\cdot 2,3\cdot 1,3\cdot -2) = (6,3,-6)$
Ejemplo 2: Sean $c = -2$ y $\overrightarrow{u} = (3,-1,-3)$.
$c\overrightarrow{u} = -2\cdot(3,-1,-3) = (-2\cdot 3,-2\cdot -1,-2\cdot -3) = (-6,2,6)$
Hay que tener en cuenta que si el escalar es negativo el vector resultante tendrá una dirección opuesta a la del vector $\overrightarrow{u}$, en caso de que $c = 0$ o $\overrightarrow{u}$ = $\overrightarrow{0}$ entonces $c\overrightarrow{u} = \overrightarrow{0}$.
En la podemos ver el vector resultante al multiplicarlo por un escalar $c$.
El producto por escalares cumple con las siguientes propiedades.
$(k+l)\overrightarrow{u} = k\overrightarrow{u} + l\overrightarrow{u}$ .
$k(\overrightarrow{u} + \overrightarrow{v}) = k\overrightarrow{u} + k\overrightarrow{v} $ .
$k(l\overrightarrow{u}) = (kl)\overrightarrow{u} = l(k\overrightarrow{u}). $
$1\overrightarrow{u} = \overrightarrow{u}$.
Para entender lo que es el producto interno y la distancia de vectores primero será necesario definir lo que es la norma. La norma se denota como $||\overrightarrow{v}||$ y representa la longitud de un vector, es decir cual es la longitud del origen al extremo del vector.
$||\overrightarrow{v}||$=$\sqrt{v_{1}^{2}+v_{2}^{2}+\cdots+v_{n}^{2}}$
Por ejemplo, si tenemos el vector $\overrightarrow{v}$ = $(v_{1},v_{2})$ $\in$ $ℝ^{2}$, entonces según la definición, su norma se calcula de la siguiente manera:
$||\overrightarrow{v}||$ = $\sqrt{v_{1}^{2}+v_{2}^{2}}$.
Para entender de dónde sale esta fórmula podemos dibujar el vector $\overrightarrow{v}$ en el plano, cuyo origen se encuentra en la coordenada $(0,0)$ y su extremo en $(v_{1},v_{2})$, ahora si trazamos una línea vertical desde el punto $(v_{1},v_{2})$ hasta el eje $x$ podemos observar que se forma un triángulo rectángulo ().
En el triángulo formado, el cateto adyacente es igual a $v_{1}$, el cateto opuesto es $v_{2}$ y la hipotenusa es igual a la longitud entre el origen y el extremo del vector, es decir la hipotenusa es ||$\overrightarrow{v}$||.
Una vez identificados estos tres valores podemos utilizar el teorema de Pitágoras para obtener la definición $||\overrightarrow{v}||$ de la siguiente manera:
$||\overrightarrow{v}||^{2} = v_{1}^{2} + v_{2}^{2} \Rightarrow ||\overrightarrow{v}|| = \sqrt{v_{1}^{2}+v_{2}^{2}}$
Como podemos ver, la formula obtenida es igual a la definición de la norma en $ℝ^{2}$. Para profundizar más acerca de la obtención de esta fórmula consultar
$||\overrightarrow{u}|| \geq 0 $,
$||\overrightarrow{u}|| = 0 $ si y solo si $\overrightarrow{u} = \overrightarrow{0}$.
$||k\overrightarrow{u}|| = |k|$ $||\overrightarrow{u}||$.
El producto interno es una operación entre vectores que da como resultado un número y se denota como $\overrightarrow{v} \cdot \overrightarrow{u}$.
Sea $\overrightarrow{u}$ y $\overrightarrow{v}$ dos vectores en $ℝ^{n}$ y $\alpha$ el ángulo entre ellos, el producto interno se puede definir de dos formas equivalentes:
La primera consiste en multiplicar los componentes de cada vector y sumar los productos, es decir:
$\overrightarrow{u} \cdot \overrightarrow{v} = u_{1}\cdot v_{1}+u_{2}\cdot v_{2}+\cdots+u_{n}\cdot v_{n}$
Ejemplo: Sean $\overrightarrow{v} = (2,4)$ y $\overrightarrow{u} = (-2,3)$.
$\overrightarrow{v} \cdot \overrightarrow{u} = (2 \cdot -2 + 4 \cdot 3) = (-4 + 12) = 8$.
Por otro lado, si conocemos la norma de ambos vectores y el ángulo que se forma entre ellos entonces.
$\overrightarrow{u} \cdot \overrightarrow{v}$ = $||\overrightarrow{u}||$ $||\overrightarrow{v}||$ $cos(\alpha)$
Donde $\alpha$ es el ángulo que forman los vectores que se están multiplicando.
Ejemplo: Sean $\overrightarrow{u} = (-2,3)$ y $\overrightarrow{v} = (2,4)$ cuyo ángulo que se forma entre ellos es de $60.26°$ , primero calculamos la norma de los vectores:
$||\overrightarrow{u}||$ = $\sqrt{-2^{2}+3^{2}} = \sqrt{13} \simeq 3.61$
$||\overrightarrow{v}||$ = $\sqrt{2^{2}+4^{2}} = \sqrt{20} \simeq 4.47$
Aplicando la definición:
$\overrightarrow{u} \cdot \overrightarrow{v} = 3.61$ $\cdot$ $4.47$ $\cdot$ $cos(60.26) = 16.13 \cdot 0.49 \simeq 8$.
Como podemos observar se obtienen los mismos resultados con ambos métodos. Hay que notar que en caso de que $\overrightarrow{v}$ o $\overrightarrow{u}$ sean el vector nulo entonces $\overrightarrow{v} \cdot \overrightarrow{u} = \overrightarrow{0}$.
La definición del producto interno nos revela información acerca del ángulo entre los vectores, podemos reescribir la fórmula como:
$cos(\alpha) = \frac{\overrightarrow{v} \cdot \overrightarrow{u}}{||\overrightarrow{v}|| \cdot ||\overrightarrow{u}||} \Rightarrow \alpha = arccos\left(\frac{\overrightarrow{v} \cdot \overrightarrow{u}}{||\overrightarrow{v}|| \cdot ||\overrightarrow{u}||}\right)$
Para mayor información consultar
Ejemplo: Utilizando los mismos vectores que en el ejemplo anterior procedemos a calcular el ángulo que se forma entre ambos utilizando la fórmula anterior.
$\alpha = arccos\left(\frac{2 \cdot -2 + 4 \cdot 3}{4.47 \cdot 3.61}\right) = arccos \left(\frac{8}{16.13}\right) \simeq 60.26°$.
En la se muestran los cálculos para obtener el producto punto y la obtención del ángulo que se forma.
El producto interno cumple con muchas de las propiedades algebraicas del producto en números reales.
$\overrightarrow{u} \cdot \overrightarrow{v} = \overrightarrow{v} \cdot \overrightarrow{u}$ .
$\overrightarrow{u} \cdot (\overrightarrow{v} + \overrightarrow{w}) = \overrightarrow{u} \cdot \overrightarrow{v} + \overrightarrow{u} \cdot \overrightarrow{w}$.
$k(\overrightarrow{u} \cdot \overrightarrow{v}) = (k\overrightarrow{u}) \cdot \overrightarrow{v}$.
$\overrightarrow{v} \cdot \overrightarrow{v} \geq 0$ y $ \overrightarrow{v} \cdot \overrightarrow{v} = 0$ si y solo si $\overrightarrow{v} = \overrightarrow{0}$
Uno de los usos más importantes que se le puede dar a la norma de un vector es el cálculo de la distancia entre dos puntos que se encuentran en $ℝ^{n}$.
Supongamos que tenemos dos puntos $u$ y $v$ en $ℝ^{n}$, consideramos el vector que se forma al unir ambos puntos, es decir el vector $\overrightarrow{uv}$, entonces la norma de $\overrightarrow{uv}$ es igual a la distancia $d$ entre los puntos.
Como sabemos, la norma nos ayuda a calcular la longitud de un vector, en otras palabras se calcula la distancia que hay entre el origen y el extremo de un vector, sin embargo esto se puede aplicar también para calcular la distancia entre dos puntos, ya que podemos unir a estos dos puntos con una línea (formando un vector) donde el origen es el primer punto y el extremo es el segundo, entonces.
$d(u,v) = ||\overrightarrow{uv}||$ = $\sqrt{(u_{1}-v_{1})^{2}+(u_{2}-v_{2})^{2}+\cdots+(u_{n}-v_{n})^{2}}$
Ejemplo: Sean los puntos $u = (2,3)$ y $v = (1,-2) \in ℝ^{2}$.
$d(u,v) = ||\overrightarrow{uv}||$ = $\sqrt{(2-1)^{2}+(3+2)^{2}}=\sqrt{26}$
En la se pueden ver los pasos para calcular la distancia de dos puntos a partir de sus coordenadas.
Anteriormente definimos la operación de producto punto el cual se realiza entre dos vectores y da como resultado un escalar, ahora definiremos una nueva operación de multiplicación de vectores que da como resultado un vector, esta operación es conocida como producto cruz o producto vectorial.
El producto cruz solo puede realizarse con vectores que se encuentran en $ℝ^{3}$ y el resultado es un nuevo vector que es perpendicular al plano que contiene a los dos vectores.
Consideremos dos vectores no nulos $\overrightarrow{u}$ y $\overrightarrow{v}$ en $ℝ^{3}$. El producto cruz de $\overrightarrow{u}$ y $\overrightarrow{v}$ denotado como $\overrightarrow{u}$ x $\overrightarrow{v}$ es igual al vector cuya norma y dirección están dados de la siguiente manera:
1- La norma de $\overrightarrow{u}$ x $\overrightarrow{v}$ es el área del paralelogramo que es abarcado por $\overrightarrow{u}$ y $\overrightarrow{v}$ () o es cero si $\overrightarrow{u}$ es paralelo a $\overrightarrow{v}$ o si $\overrightarrow{u}$ o $\overrightarrow{v}$ son el vector nulo. Alternativamente la siguiente definición es válida:
$||\overrightarrow{u}$ x $\overrightarrow{v}|| = ||\overrightarrow{u}||$ $||\overrightarrow{v}||$ $sen(\alpha)$
Donde $\alpha$ es el ángulo formado entre los vectores.
2- El vector resultante de $\overrightarrow{u}$ x $\overrightarrow{v}$ es perpendicular a $\overrightarrow{u}$ y $\overrightarrow{v}$ y la dirección de $\overrightarrow{u}$ x $\overrightarrow{v}$ es igual a la dirección del vector normal (denotado como $\overrightarrow{n}$) que es determinado por la regla de la mano derecha ().
Una vez que sabemos como está definida la norma y la dirección del vector resultante, ahora haremos los cálculos correspondientes para obtenerlo a partir de los componentes de los vectores que se están multiplicando.
$\overrightarrow{u}$ x $\overrightarrow{v}$ = $(u_{1}v_{3}-u_{3}v_{2},u_{3}v_{1}-u_{1}v_{3},u_{1}v_{2}-u_{2}v_{1})$
Esta definición podemos representarla de manera más sencilla utilizando determinantes de matrices. Dados $\overrightarrow{u}$ y $\overrightarrow{v}$ $\in ℝ^{3}$ podemos hallar la fórmula para el producto cruz expresándolos en su forma canónica, es decir $\overrightarrow{u} = u_{1}i + u_{2}j + u_{3}k$ y $\overrightarrow{v} = v_{1}i + v_{2}j + v_{3}k$.
Entonces $\overrightarrow{u}$ x $\overrightarrow{v}$ puede verse como la matriz:
$\overrightarrow{u}$ x $\overrightarrow{v}$ = $\begin{bmatrix}{i}&{j}&{k}\\{u_{1}}&{u_{2}}&{u_{3}}\\{v_{1}}&{v_{2}}&{v_{3}}\end{bmatrix}$
Retomando la fórmula para calcular los determinantes en matrices $3$ x $3$ tenemos que:
$\begin{vmatrix}{i}&{j}&{k}\\{u_{1}}&{u_{2}}&{u_{3}}\\{v_{1}}&{v_{2}}&{v_{3}}\end{vmatrix}=\begin{vmatrix}{u_{2}}&{u_{3}}\\{v_{2}}&{v_{3}}\end{vmatrix}i - \begin{vmatrix}{u_{1}}&{u_{3}}\\{v_{1}}&{v_{3}}\end{vmatrix}j + \begin{vmatrix}{u_{1}}&{u_{2}}\\{v_{1}}&{v_{2}}\end{vmatrix}k$
Finalmente utilizando la notación de vectores:
$\overrightarrow{u}$ x $\overrightarrow{v}$ = $\left(\begin{vmatrix}{u_{2}}&{u_{3}}\\{v_{2}}&{v_{3}}\end{vmatrix},-\begin{vmatrix}{u_{1}}&{u_{3}}\\{v_{1}}&{v_{3}}\end{vmatrix},\begin{vmatrix}{u_{1}}&{u_{2}}\\{v_{1}}&{v_{2}}\end{vmatrix}\right)$
Para profundizar más consultar
$(k\overrightarrow{u})$ x $(l\overrightarrow{v}) = (kl)(\overrightarrow{u}$ x $\overrightarrow{v})$.
$\overrightarrow{u}$ x $(\overrightarrow{v} + \overrightarrow{w}) = \overrightarrow{u}$ x $\overrightarrow{v} + \overrightarrow{u}$ x $\overrightarrow{w}$.
$(\overrightarrow{v} + \overrightarrow{w})$ x $\overrightarrow{u} = \overrightarrow{v}$ x $\overrightarrow{u} + \overrightarrow{w}$ x $\overrightarrow{u}$.
$\overrightarrow{u}$ x $\overrightarrow{v} = -(\overrightarrow{v}$ x $\overrightarrow{u})$.
$\overrightarrow{u}$ x $\overrightarrow{0} = \overrightarrow{0}$.
En la podemos ver los cálculos que se deben realizar para obtener el producto cruz utilizando determinantes.
El triple producto escalar es una operación que se realiza entre tres vectores, el resultado es un número real y se denota como $(\overrightarrow{u}$ x $\overrightarrow{v})\cdot \overrightarrow{w}$. Esta operación es también conocida como el producto mixto ya que consta de una combinación entre el producto escalar y el producto cruz. Hay que notar que esta operación solo puede realizarse con vectores en $ℝ^{3}$.
El triple producto escalar también puede evaluarse como un determinante y su definición está dada como sigue.
$(\overrightarrow{u}$ x $\overrightarrow{v})\cdot \overrightarrow{w} = \left[\begin{bmatrix}{u_{2}}&{u_{3}}\\{v_{2}}&{v_{3}}\end{bmatrix}i - \begin{bmatrix}{u_{1}}&{u_{3}}\\{v_{1}}&{v_{3}}\end{bmatrix}j + \begin{bmatrix}{u_{1}}&{u_{2}}\\{v_{1}}&{v_{2}}\end{bmatrix}k\right] \cdot \overrightarrow{w}$
$= w_{1}\begin{bmatrix}{u_{2}}&{u_{3}}\\{v_{2}}&{v_{3}}\end{bmatrix} - w_{2}\begin{bmatrix}{u_{1}}&{u_{3}}\\{v_{1}}&{v_{3}}\end{bmatrix} + w_{3}\begin{bmatrix}{u_{1}}&{u_{2}}\\{v_{1}}&{v_{2}}\end{bmatrix}$
En la se muestran los cálculos que se realizan para calcular el triple producto escalar de tres vectores en $ℝ^{3}$.
El producto cruz lo podemos utilizar para calcular áreas y volúmenes de ciertos objetos, en esta sección veremos los casos particulares para calcular el área de paralelogramos y el volumen de paralelepípedos.
Como vimos en la sección 1.3.1, la norma del producto cruz es el área del paralelogramo que es abarcado por dos vectores $\overrightarrow{u}$ y $\overrightarrow{v}$.
Ahora veamos como fue obtenida esta fórmula de manera geométrica, recordemos que el área de un paralelogramo es igual a la base por la altura, en nuestro caso tenemos:
Base = $||\overrightarrow{u}||$
Ahora utilizando la razón trigonométrica $sen(\alpha) = \frac{cateto\;opuesto}{hipotenusa}$ obtenemos la altura.
Altura = $sen(\alpha) = \frac{h}{||\overrightarrow{v}||} \Rightarrow$ $h = ||\overrightarrow{v}||$ $sen(\alpha) $
De lo anterior podemos definir el área del paralelogramo como sigue.
Área paralelogramo =$||\overrightarrow{u}||$ $||\overrightarrow{v}||$ $sen(\alpha)$
En la se muestran los pasos para calcular el área de un paralelogramo utilizando la definición anterior.
Otra forma equivalente para calcular el área del paralelogramo es utilizando directamente la definición del producto cruz, que como vimos en la sección 1.3.1, el área del paralelogramo es igual a la norma del producto cruz de dos vectores, es decir:
Área paralelogramo $=||\overrightarrow{u}$ x $\overrightarrow{v}|| = ||\overrightarrow{u}||$ $||\overrightarrow{v}||$ $sen(\alpha)$
Para hacerlo de esta forma primero se calcula el producto cruz de $\overrightarrow{u}$ y $\overrightarrow{v}$, después se calcula la norma del vector resultante y el resultado es igual al área del paralelogramo.
Nota: Recordemos que el producto cruz se calcula con vectores en $ℝ^{3}$, sin embargo pueden hacerse los cálculos con vectores en $ℝ^{2}$ si consideramos al tercer componente de los vectores como cero.
En la sección 1.3.2 definimos el triple producto escalar, ahora veremos cual es el significado del número que se obtiene al realizar esta operación. Para eso haremos la interpretación geométrica del triple producto escalar.
Consideremos los vectores $\overrightarrow{u}$, $\overrightarrow{v}$ y $\overrightarrow{w}$ $\in ℝ^{3}$, podemos dibujar un paralelepípedo (cuerpo cuyas seis caras son paralelogramos) el cual está determinado por los tres vectores .
El área de un paralelepípedo se calcula multiplicando el área de la base por la altura, en nuestro caso tenemos.
Área de la base $ = ||\overrightarrow{u}$ x $\overrightarrow{v}||$, es decir el área del paralelogramo formado por $\overrightarrow{u}$ y $\overrightarrow{v}$.
Altura $= ||\overrightarrow{w}||$ $|cos(\alpha)|$
siendo $\alpha$ el ángulo entre $(\overrightarrow{u}$ x $\overrightarrow{v})$ y $\overrightarrow{w}$.
De lo anterior obtenemos lo siguiente.
Volumen paralelepípedo $= ||\overrightarrow{u}$x$\overrightarrow{v}||$ $||\overrightarrow{w}||$ $|cos (\alpha)|$
Observación: $cos (\alpha)$ puede ser negativo, es por eso que tomamos el valor absoluto para calcular el valor de la altura.
En la se muestran los pasos para calcular el volumen de un paralelepípedo formado por tres vectores.
Por otro lado notemos que:
$||\overrightarrow{u}$x$\overrightarrow{v}||$ $||\overrightarrow{w}||$ $|cos (\alpha)|$ $ = ||\overrightarrow{u}$x$\overrightarrow{v}||$ $||\overrightarrow{w}||$ $|cos (\overrightarrow{u}$ x $\overrightarrow{v}, \overrightarrow{w})|$
$ = |(\overrightarrow{u}$ x $\overrightarrow{v}) \cdot \overrightarrow{w}|$
Como podemos ver, la definición del volumen del paralelepípedo es igual al valor absoluto del triple producto escalar, en otras palabras el número que se obtiene en el triple producto escalar es igual al volumen del paralelepípedo que se forma por los tres vectores multiplicados.
Por lo tanto otra forma equivalente para calcular el área de un paralelepípedo es calculando el triple producto escalar de $\overrightarrow{u}$,$\overrightarrow{v}$ y $\overrightarrow{w}$ y obtener el valor absoluto del resultado.
La siguiente definición consta de diez axiomas, de los cuales ocho son propiedades de vectores en $ℝ^{n}$ que se establecieron en el y el .
Damos la definición de espacio vectorial real ya que los escalares que se utilizarán pertenecen a los números reales, sin embargo hay que tomar en cuenta que hacer la generalización a otros conjuntos se hace de manera análoga.
La definición anterior no especifica la naturaleza de los vectores o las operaciones, por lo tanto cualquier objeto puede ser un vector, el único requisito es que se satisfagan los diez axiomas de la .
Ejemplo: Sea $V = ℝ^{2}$.
Es fácil ver que $ℝ^{2}$ cumple con los axiomas $2,3,4,5,7,8,9,10$ puesto que son las propiedades de la suma y multiplicación por escalares en vectores ( y ). Los axiomas $1$ y $6$ los cumple ya que tanto en la suma como en la multiplicación por escalares de vectores, el resultado también es un vector.
Por lo tanto $ℝ^{2}$ es un espacio vectorial. Lo mismo podemos decir para vectores de tres, cuatro o $n$ componentes, entonces $ℝ^{3}$,$ℝ^{4}$,...,$ℝ^{n}$ también son espacios vectoriales.
$\overrightarrow{w} = k_{1}\overrightarrow{v_{1}} + k_{2}\overrightarrow{v_{2}}+\cdots+k_{r}\overrightarrow{v_{r}}$
Con $k_{1},k_{2},...,k_{r}$ escalares
En el caso particular de dos vectores $\overrightarrow{u}$ y $\overrightarrow{v} \in ℝ^{2}$ y dos escalares $k_{1}$ y $k_{2}$, una combinación lineal de $\overrightarrow{u}$ y $\overrightarrow{v}$ está dada por el vector $\overrightarrow{w} = k_{1}\overrightarrow{u} + k_{2}\overrightarrow{v}$. En la podemos ver la representación gráfica de $\overrightarrow{w}$ .
Dado un espacio vectorial $V$ y un subconjunto no vacío $U \subseteq V$, se dice que $U$ es un subespacio vectorial de $V$ cuando $U$ en si mismo es un espacio vectorial con las mismas operaciones definidas en $V$, es decir.
Si $\overrightarrow{u_{1}}$ y $\overrightarrow{u_{2}} \in U$, entonces $\overrightarrow{u_{1}} + \overrightarrow{u_{2}} \in U$.
Si $\overrightarrow{u} \in U$ y $k$ es un escalar, entonces $k\overrightarrow{u} \in U$.
Si $\overrightarrow{0} \in V$, entonces $\overrightarrow{0} \in U$
En la podemos observar algunos ejemplos de subespacios en $ℝ^{2}$ y también algunos ejemplos de cuales no son subespacios.
$gen\{\overrightarrow{v_{1}},\overrightarrow{v_{2}},...,\overrightarrow{v_{r}}\}$.
$k_{1}\overrightarrow{v_{1}} + k_{2}\overrightarrow{v_{2}} +\cdots+ k_{r}\overrightarrow{v_{2}} = \overrightarrow{0}$
Si los vectores no son linealmente dependientes, se dice que son linealmente independientes.
Ejemplo: Sea el conjunto $A = (1,1),(1,-1)$ y los escalares $k_{1},k_{2}$.
$k_{1}(1,1) + k_{2}(1,-1) = \overrightarrow{0}$
Como $(k_{1}+k_{2},k_{1}-k_{2}) = (0,0) \Rightarrow k_{1} = 0, k_{2} = 0 $, entonces el conjunto $A$ es linealmente independiente ya que $k_{1}$ y $k_{2}$ tienen que ser forzosamente cero.
Geométricamente podemos ver la dependencia e independencia lineal en $ℝ^{2}$ y $ℝ^{3}$ tomando en cuenta las siguientes consideraciones.
Dos vectores en $ℝ^{2}$ o en $ℝ^{3}$ que tienen su punto inicial en el origen son linealmente independientes si y solo si no se encuentran sobre la misma línea, en caso contrario son linealmente dependientes ya que uno sería un múltiplo escalar del otro.
Tres vectores en $ℝ^{3}$ que tienen su punto inicial en el origen son linealmente independientes si y solo si no se encuentran sobre el mismo plano vectorial (es decir forman un volumen), en caso contrario son linealmente dependientes ya que un vector sería una combinación lineal de los otros dos (es decir forma un plano).
En la podemos ver algunos ejemplos de lo mencionado anteriormente.
$B$ es linealmente independiente.
$B$ genera a $V$.
Si $B = \{\overrightarrow{v_{1}},\overrightarrow{v_{2}},...,\overrightarrow{v_{n}}\}$ es base de $V$, la dimensión de $V$ es $n$ y se denota como $dim(V) = n$.
Una transformación lineal es una función de la forma $T : ℝ^{n} \rightarrow ℝ^{m}$ con la particularidad de que su dominio y codominio son espacios vectoriales. Esto quiere decir que la función $T$ es una regla de asignación que transforma los vectores de $V$ en vectores de $W$.
Es importante notar que no toda función que transforme vectores de $V$ en vectores de $W$ es una transformación lineal, para eso debe de cumplir con ciertas condiciones que se exponen en la siguiente definición.
1- $T(k\overrightarrow{u}) = kT(\overrightarrow{u})$
2- $T(\overrightarrow{u} + \overrightarrow{v}) = T(\overrightarrow{u}) + T(\overrightarrow{v})$
En el caso especial donde $V$ = $W$, la transformación lineal $T$ es llamado operador lineal en el espacio vectorial $V$.
Ejemplo: Sean $\overrightarrow{u} = (u_{1},u_{2})$, $\overrightarrow{v} = (v_{1},v_{2})$, vectores en $ℝ^{2}$ y $k$ un escalar, veamos si la función $T : ℝ^{2} \rightarrow ℝ^{3}$ dada por $T(x,y) = (2x+y,y,x-y)$ es una transformación lineal.
Verificamos si $T$ cumple con la definición de transformación lineal. Primera condición:
$T(k\overrightarrow{u}) = T(ku_{1},ku_{2})$
Aplicamos la transformación.
$(2ku_{1} + ku_{2} , ku_{2} , ku_{1} - ku_{2}) =$
$ k(2u_{1} + u_{2} , u_{2} , u_{1} - u_{2}) = kT(\overrightarrow{u})$.
Se cumple la primera condición, ahora verificamos la segunda.
$T(\overrightarrow{u} + \overrightarrow{v}) = T(u_{1} + v_{1},u_{2} + v_{2})$
Aplicamos la transformación.
$(2(u_{1}+v_{1}) + u_{2} + v_{2},u_{2}+v_{2},u_{1} + v_{1} - (u_{2} + v_{2})) =$
$(2u_{1}+2v_{2} + u_{2} + v_{2},u_{2}+v_{2},u_{1} + v_{1} - u_{2} - v_{2})$
Separamos la suma por componentes de $\overrightarrow{u}$ y $\overrightarrow{v}$.
$(2u_{1} + u_{2},u_{2},u_{1} - u_{2}) + (2v_{1} + v_{2},v_{2},v_{1} - v_{2}) = $
$T(\overrightarrow{u}) + T(\overrightarrow{v})$.
Cumple ambas condiciones, por lo tanto $T$ es una transformación lineal.
En la podemos observar el vector obtenido después de aplicar la transformación lineal del ejemplo anterior a un vector en $R^{2}$.
Si combinamos las propiedades enunciadas en la definición anterior podemos mostrar que una transformación lineal transporta combinaciones lineales de $V$ a $W$ conservando los escalares de la combinación lineal.
En otras palabras si $\overrightarrow{v_{1}}$, $\overrightarrow{v_{2}}$,...,$\overrightarrow{v_{n}}$ son vectores en $V$ y $k_{1}$, $k_{2}$,...,$k_{n}$ son escalares, podemos tomar una combinación lineal en el dominio:
$k_{1}\overrightarrow{v_{1}} + k_{2}\overrightarrow{v_{2}} +\cdots+ k_{n}\overrightarrow{v_{n}}$
Aplicamos la transformación lineal $T : V \rightarrow W$ tomando en cuenta las propiedades de la definición y obtenemos:
$T(k_{1}\overrightarrow{v_{1}} +\cdots+ k_{n}\overrightarrow{v_{n}}) = k_{1}T(\overrightarrow{v_{1}}) + k_{2}T(\overrightarrow{v_{2}}) +\cdots+ k_{n}T(\overrightarrow{v_{n}})$
$T(\overrightarrow{0}) = \overrightarrow{0}$, la imagen del vector nulo del dominio $V$ es el vector nulo del codominio $W$.
$T(\overrightarrow{u} - \overrightarrow{v}) = T(\overrightarrow{u}) - T(\overrightarrow{v})$, para todo $\overrightarrow{u}$ y $\overrightarrow{v}$ en $V$.
$Nu(T) = \{\overrightarrow{v} \in V | T(\overrightarrow{v}) = \overrightarrow{0}_w\}$
$R(T) = \{\overrightarrow{w} \in W | \overrightarrow{w} = T(\overrightarrow{v}), \overrightarrow{v} \in V\}$
Ahora veremos cómo se construye la matriz asociada a una transformación lineal cuando se especifican las bases del dominio y el codominio de la transformación.
Sean $V$ y $W$ espacios vectoriales de dimensión $n$, $m$ respectivamente. Sea $T : V \rightarrow W$ una transformación lineal y sean $B_{1} = \{\overrightarrow{v}_{1},\overrightarrow{v}_{2},...,\overrightarrow{v}_{n}\}$ base en $V$ y $B_{2} = (\overrightarrow{w}_{1},\overrightarrow{w}_{2},...,\overrightarrow{w}_{m})$ base en $W$. Para un vector $\overrightarrow{v} \in V$ existen escalares $k_{1},k_{2},...,k_{n}$ tales que.
$\overrightarrow{v} = k_{1}\overrightarrow{v}_{1} + k_{2}\overrightarrow{v}_{2} + \cdots + k_{n}\overrightarrow{v}_{n}$
O bien:
$[\overrightarrow{v}]_{B_{1}} = \begin{bmatrix}{k_{1}}\\\vdots\\{k_{n}}\end{bmatrix}$
$T(\overrightarrow{v})$ es el vector:
$T(\overrightarrow{v}) = T( k_{1}\overrightarrow{v}_{1} + k_{2}\overrightarrow{v}_{2} + \cdots + k_{n}\overrightarrow{v}_{n}) = $
$k_{1}T(\overrightarrow{v}_{1}) + k_{2}T(\overrightarrow{v}_{2}) +\cdots+ k_{n}T(\overrightarrow{v}_{n}) = \displaystyle\sum_{i=1}^n k_{i}T(\overrightarrow{v}_{i})$
Cada vector $T(\overrightarrow{v}_{i})$ se encuentra en $W$, de modo que existen escalares $a_{1i},a_{2i},...,a_{mi}$ tales que:
$T(\overrightarrow{v}_{i}) = a_{1i}\overrightarrow{w}_{1} + a_{2i}\overrightarrow{w}_{2} +\cdots+ a_{mi}\overrightarrow{w}_{m} = \displaystyle\sum_{j=1}^m a_{ji}\overrightarrow{w}_{j}$
O bien:
$[T(\overrightarrow{v}_{i})]_{B_{2}} = \begin{bmatrix}{a_{1i}}\\\vdots\\{a_{mi}}\end{bmatrix}$
Finalmente $T(\overrightarrow{v})$ es:
$T(\overrightarrow{v}) = \displaystyle\sum_{i=1}^n k_{i}T(\overrightarrow{v}_{i}) = \displaystyle\sum_{i=1}^n k_{i} \displaystyle\sum_{j=1}^m a_{ji}\overrightarrow{w}_{j} = \displaystyle\sum_{i=1}^n a_{ji} k_{i} $
Como podemos ver $T(\overrightarrow{v})$ tiene una expresión única en $W$ como combinación lineal de los vectores $\overrightarrow{w}_{1},\overrightarrow{w}_{2},..,\overrightarrow{w}_{m}$ de la base $B_{2}$, por lo tanto:
$[T(\overrightarrow{v})]_{B_{2}} = (\displaystyle\sum_{i=1}^n a_{1i}k_{i}, \displaystyle\sum_{i=1}^n a_{2i}k_{i},...,\displaystyle\sum_{i=1}^n a_{mi}k_{i} )$
Es decir:
$[T(\overrightarrow{v})]_{B_{2}} = \begin{bmatrix}{\displaystyle\sum_{i=1}^n a_{1i}k_{i}}\\\vdots\\{\displaystyle\sum_{i=1}^n a_{mi}k_{i}}\end{bmatrix}$
Consideremos la matriz $A = (a_{ji})$, con $j = 1,2,...,m$ y $i = 1,2,...,n$. Observemos que:
$\begin{bmatrix}{\displaystyle\sum_{i=1}^n a_{1i}k_{i}}\\\vdots\\{\displaystyle\sum_{i=1}^n a_{mi}k_{i}}\end{bmatrix} = \begin{bmatrix}{a_{11}}&{a_{12}}&\cdots&{a_{1n}}\\{a_{21}}&{a_{22}}&\cdots&{a_{2n}}\\ \vdots \\ {a_{m1}}&{a_{m2}}&\cdots&{a_{mn}}\end{bmatrix} \begin{bmatrix}{k_{1}}\\{k_{2}}\\ \vdots\\{k_{n}}\end{bmatrix} = A[\overrightarrow{v}]_{B_{1}}$
Entonces $[T(\overrightarrow{v})]_{B_{2}} = A[\overrightarrow{v}]_{B_{1}}$. La matriz $A$ es tal que en su $i$-ésima columna se encuentran los elementos de la matriz de coordenada del vector $T(\overrightarrow{v}_{i})$ con respecto de la base $B_{2}$ de $W$.
$A=( [T(\overrightarrow{v}_{1})_{B_{2}}] [T(\overrightarrow{v}_{2})_{B_{2}}] \cdots [T(\overrightarrow{v}_{n})_{B_{2}}])$
Esta matriz tiene la propiedad de que al multiplicarla por la matriz de coordenadas del vector $\overrightarrow{v} \in V$ con respecto a $B_{1}$ da como resultado la matriz de coordenadas del vector $T(\overrightarrow{v})\in W$ con respecto a $B_{2}$. Entonces decimos que $A$ es la matriz de la transformación $T$ respecto a las bases $B_{1}$ y $B_{2}$.
$A = [T]_{B_{1}B_{2}}$
Construcción obtenida de
Ejemplo: Sea $T : ℝ^{2} \rightarrow ℝ^{3}$ una transformación lineal dada por $T(x,y) = (2x-y, x+2y, 3x)$. Sean $B_{1} = \{(1,-1),(1,1)\}$ una base en $ℝ^{2}$ y $B_{2} = \{(1,1,0),(0,1,0),(0,0,1)\}$ una base en $ℝ^{3}$. Encontremos la matriz asociada a $T$.
Como sabemos $A=( [T(\overrightarrow{v}_{1})_{B_{2}}] [T(\overrightarrow{v}_{2})_{B_{2}}] \cdots [T(\overrightarrow{v}_{n})_{B_{2}}])$, en nuestro caso:
$A=( [T(1,-1)_{B_{2}}] [T(1,1)_{B_{2}}] )$
Aplicamos la transformación lineal a los vectores de la base $B_{1}$
$T(1,-1) = (2(1) - (-1),1 + 2(-1),3(1)) = (3,-1,3)$
$T(1,1) = (2(1) - 1, 1 + 2(1), 3(1)) = (1,3,3)$
Ahora encontramos las coordenadas de los vectores obtenidos con respecto a la base $B_{2}$, es decir los expresamos como combinación lineal.
$(3,-1,3) = a_{11}(1,1,0) + a_{21}(0,1,0) + a_{31}(0,0,1)$
Resolvemos el sistema de ecuaciones
$ \begin{dcases} a_{11} = 3 \\ a_{11} + a_{21} = -1 \\ a_{31} = 3 \end{dcases}$
$a_{11} = 3, a_{31} = 3, a_{21} = -1 - a_{11} \Rightarrow a_{21} = -1-3 = -4$
Por lo tanto
$[T(1,-1)_{B_{2}}] = \begin{bmatrix}{3}\\{-4}\\{3}\end{bmatrix}$
$(1,3,3) = a_{12}(1,1,0) + a_{22}(0,1,0) + a_{32}(0,0,1)$
Resolvemos el sistema de ecuaciones
$ \begin{dcases} a_{12} = 1 \\ a_{12} + a_{22} = 3 \\ a_{32} = 3 \end{dcases}$
$a_{12} = 1, a_{32} = 3, a_{22} = 3 - a_{12} \Rightarrow a_{22} = 3-1 = 2$
Por lo tanto
$[T(1,1)_{B_{2}}] = \begin{bmatrix}{1}\\{2}\\{3}\end{bmatrix}$
Finalmente obtenemos la matriz asociada a la transformación.
$A = \begin{bmatrix}{3}&{1}\\{-4}&{2}\\{3}&{3}\end{bmatrix}$
Ahora utilizando la matriz $A$ hallemos $T(2,3)$. Recordemos que:
$ A[\overrightarrow{v}]_{B_{1}} = [T(\overrightarrow{v})]_{B_{2}} $
Como $A$ opera con coordenadas debemos buscar las coordenadas del vector $(2,3)$ en la base $B_{1}$, es decir $[\overrightarrow{v}]_{B_{1}}$
$(2,3) = k_{1}(1,-1) + k_{2}(1,1) \Rightarrow k_{1} = -.5, k_{2} = 2.5$
$[\overrightarrow{v}]_{B_{1}} = \begin{bmatrix}{-.5}\\{2.5}\end{bmatrix}$
Entonces
$A[\overrightarrow{v}]_{B_{1}} = \begin{bmatrix}{3}&{1}\\{-4}&{2}\\{3}&{3}\end{bmatrix} \begin{bmatrix}{-.5}\\{2.5}\end{bmatrix} = \begin{bmatrix}{1}\\{7}\\{6}\end{bmatrix} = [T(\overrightarrow{v})]_{B_{2}}$
El vector obtenido no es $T(2,3)$ sino que son sus coordenada en $B_{1}$. Para hallar $T(2,3)$ debemos multiplicar las coordenadas obtenidas por los vectores de la base $B_{2}$.
$T(2,3) = 1(1,1,0) + 7(0,1,0) + 6(0,0,1) = (1,8,6)$
Podemos hacer la comprobación aplicando la función de la transformación de manera normal al vector $(2,3)$.
$T(2,3) = (2(2) - 3, 2 + 2(3), 3(2)) = (1,8,6)$
Como podemos ver obtenemos el mismo resultado utilizando la matriz asociada a la transformación.
Sea $T : ℝ^{n} \rightarrow ℝ^{n}$ una transformación lineal, decimos que el número real $\lambda$ es un valor propio de $T$ si existe un vector $\overrightarrow{u} \in ℝ^{n}$ no nulo tal que:
$T(\overrightarrow{u})=\lambda \overrightarrow{u}$
Al vector $\overrightarrow{u}$ se le llama el vector propio asociado al valor propio $\lambda$. Considerando la correspondencia entre transformaciones lineales y matrices, podemos definir el valor propio y el vector propio para una matriz cuadrada $A$ como sigue.
$A\overrightarrow{u} = \lambda \overrightarrow{u}$
La ecuación de la definición anterior es equivalente a decir que $A\overrightarrow{u} = \lambda I\overrightarrow{u}$, donde $I$ es la matriz identidad de orden $n$.
$ I = \begin{bmatrix}{1}&{0}&\cdots&{0}\\{0}&{1}&\cdots&{0}\\ \vdots \\ {0}&{0}&\cdots&{1}\end{bmatrix}$
Que a su vez puede reescribirse como el sistema de ecuaciones homogéneo $(A - \lambda I) \overrightarrow{u} = 0$. Como el vector $\overrightarrow{u}$ no puede ser nulo, para que se cumpla la igualdad el determinante $|A - \lambda I|$ debe ser igual a cero, esto quiere decir que $\lambda$ es el valor propio de $A$ si y sólo si $|A - \lambda I| = 0$.
$ \begin{dcases} a_{11}x_{1} + a_{12}x_{2} + \cdots + a_{1n}x_{n} = 0 \\ a_{21}x_{1} + a_{22}x_{2} + \cdots + a_{2n}x_{n} = 0 \\ \vdots \\ a_{m1}x_{1} + a_{m2}x_{2} + \cdots + a_{mn}x_{n} = 0 \end{dcases}$
Notemos que la expresión $|A - \lambda I|$ es un polinomio en $\lambda$ de grado $n$, llamado polinomio característico de $A$ y lo denotamos como:
$p(\lambda) = |A - \lambda I|$
Ejemplo: Sea la matriz $A$, hallar los valores y vectores propios asociados a la matriz $A$.
$A = \begin{bmatrix}{1}&{6}\\{1}&{0}\end{bmatrix}$
Su polinomio característico es
$p(\lambda) = |A - \lambda I| = \left|\begin{bmatrix}{1}&{6}\\{1}&{0}\end{bmatrix} - \lambda \begin{bmatrix}{1}&{0}\\{0}&{1}\end{bmatrix}\right|$
$ = \left|\begin{bmatrix}{1}&{6}\\{1}&{0}\end{bmatrix} - \begin{bmatrix}{\lambda}&{0}\\{0}&{\lambda}\end{bmatrix}\right| = \left|\begin{bmatrix}{1 - \lambda}&{6}\\{1}&{-\lambda}\end{bmatrix}\right|$
Calculamos el determinante de la matriz $2$ x $2$
$\left|\begin{bmatrix}{1 - \lambda}&{6}\\{1}&{-\lambda}\end{bmatrix}\right| = (1 - \lambda ) \cdot (-\lambda) - 6 \cdot (1) $
$ = \lambda ^{2} -\lambda - 6 = (\lambda - 3)(\lambda + 2)$
Entonces los valores propios de $A$ son $\lambda_{1} = 3$, $\lambda_{2} = -2$. Ahora encontramos los vectores propios asociados a los valores propios, para eso debemos obtener las soluciones no triviales del sistema de ecuaciones homogéneo $(A - \lambda I)\overrightarrow{u} = 0$.
Para $\lambda_{1} = 3$ se tiene:
$\begin{bmatrix}{1 - 3}&{6}\\{1}&{-3}\end{bmatrix} \overrightarrow{u} = \begin{bmatrix}{-2}&{6}\\{1}&{-3}\end{bmatrix} \overrightarrow{u} = 0$
Si consideramos el vector $\overrightarrow{u} = (u_{1},u_{2})$, entonces el sistema de ecuaciones homogéneo es
$ \begin{dcases} -2u_{1} + 6u_{2} = 0 \\ u_{1} - 3u_{2} = 0 \end{dcases} $
Obtenemos que $u_{1} = 3u_{2}$, de esta forma los vectores propios asociados al valor propio $\lambda_{1}$ son de la forma $t(3,1)$, con $t$ un número en los reales.
Si consideramos el vector $\overrightarrow{u} = (3,1)$, podemos verificar que se cumple $A\overrightarrow{u} = \lambda \overrightarrow{u}$.
$\begin{bmatrix}{1}&{6}\\{1}&{0}\end{bmatrix} \cdot \begin{bmatrix}{3}\\{1}\end{bmatrix} =\begin{bmatrix}{9}\\{3}\end{bmatrix} = 3 \begin{bmatrix}{3}\\{1}\end{bmatrix}$
Por lo tanto $(3,1)$ es un vector propio asociado al valor propio $\lambda_{1} = 3$.
Hacemos el mismo procedimiento con $\lambda_{2}$ y encontramos que los vectores propios asociados son de la forma $t(-2,1)$, con $t$ un número en los reales.
En la puedes verificar los valores y vectores propios de una matriz $2$ x $2$.
Antes de explicar como obtener la forma canónica de Jordan en $ℝ^{2}$ y $ℝ^{3}$ será necesario dar algunas definiciones.
$A \cdot B = B \cdot A = I$
Decimos que $A$ es invertible y que $B$ es la matriz inversa de $A$.
$D = [a_{ij}]$ si cumple que $a_{ij} = 0$ con $i \neq j$
$D= P^{-1}AP$
Entre las propiedades de una matriz diagonalizable podemos destacar las siguientes
$N(A) = \{\overrightarrow{v} \in ℝ^{n} | A\overrightarrow{v} = 0\}$
$nulidad(A) = dim(N(A))$
$\begin{bmatrix}{\lambda_{1}}&{0}\\{0}&{\lambda_{2}}\end{bmatrix}$ o $\begin{bmatrix}{\lambda}&{1}\\{0}&{\lambda}\end{bmatrix}$
Para calcular la forma canónica de Jordán en $ℝ^{2}$ debemos encontrar el polinomio característico y los valores propios de una matriz $2$ x $2$. Al hacer esto se pueden presentar dos casos:
Caso 1: Obtenemos dos valores propios distintos, es decir $\lambda_{1} \neq \lambda_{2}$. Buscamos los vectores propios $\overrightarrow{v_{1}}$ y $\overrightarrow{v_{2}}$ asociados a los valores propios tal que $A\overrightarrow{v_{i}} = \lambda_{i}\overrightarrow{v_{i}}$, con $i = 1,2$. Ahora formamos la matriz $P=(v_{1} v_{2})$, es decir si:
$\overrightarrow{v_{1}} = \begin{bmatrix}{a}\\{c}\end{bmatrix}$ y $\overrightarrow{v_{2}} = \begin{bmatrix}{b}\\{d}\end{bmatrix}$, entonces $P = \begin{bmatrix}{a}&{b}\\{c}&{d}\end{bmatrix}$
Como los valores propios son distintos, entonces los vectores $\overrightarrow{v_{1}}$ y $\overrightarrow{v_{2}}$ son linealmente independientes (), por lo tanto la matriz $P$ es invertible , entonces:
$J = P^{-1}AP = \begin{bmatrix}{\lambda_{1}}&{0}\\{0}&{\lambda_{2}}\end{bmatrix}$
Ya que los valores propios de $A$ se encuentran en la diagonal de la matriz $J$ (Propiedad 1, ).
Caso 2: Obtenemos sólo un valor propio $\lambda$. Para este caso tenemos dos escenarios.
Subcaso a): La multiplicidad geométrica de $\lambda$ es $2$, por lo tanto $A = \lambda 1$. Este es un caso trivial ya que la matriz $A$ ya se encuentra en la forma canónica de Jordan, por lo tanto basta con elegir $J = A$ y $P = I$.
Subcaso b): La multiplicidad geométrica de $\lambda$ es $1$. En este caso la forma canónica de Jordan está dada por:
$J = P^{-1}AP = \begin{bmatrix}{\lambda}&{1}\\{0}&{\lambda}\end{bmatrix}$
Si queremos encontrar la matriz $P$ podemos aplicar el siguiente teorema.
Ejemplo: Dada la matriz $A$, encontremos las matrices $J$ y $P$.
$A = \begin{bmatrix}{0}&{-2}\\{3}&{5}\end{bmatrix}$
Calculamos los valores propios de $A$
$p(\lambda) = |A - \lambda I| = \left|\begin{bmatrix}{0}&{-2}\\{3}&{5}\end{bmatrix} - \begin{bmatrix}{\lambda}&{0}\\{0}&{\lambda}\end{bmatrix}\right|$
$= \lambda^{2} - 5\lambda + 6 = (\lambda - 2)(\lambda - 3)$
Obtenemos dos valores propios distintos, llamémoslos $\lambda_{1} = 2$ y $\lambda_{2} = 3$. Como los valores propios son distintos entramos en el caso 1, por lo tanto la forma canónica de Jordan de $A$ es:
$J = \begin{bmatrix}{2}&{0}\\{0}&{3}\end{bmatrix}$
Si quisiéramos calcular la matriz $P$ para hacer la comprobación buscamos los vectores propios $\overrightarrow{v_{1}}, \overrightarrow{v_{2}}$ asociados a $\lambda_{1}$ y $\lambda_{2}$ respectivamente, en nuestro caso para $\lambda_{1} = 2$ se tiene que resolver el sistema de ecuaciones homogéneo $(A - 2I)\overrightarrow{v} = 0$, es decir:
$\begin{bmatrix}{-2}&{-2}\\{3}&{5-2}\end{bmatrix} \overrightarrow{v} = \begin{bmatrix}{-2}&{-2}\\{3}&{3}\end{bmatrix} \overrightarrow{v} = 0$
Considerando a $\overrightarrow{v} = (v_{1},v_{2})$
$ \begin{dcases} -2v_{1} - 2v_{2} = 0 \\ 3v_{1} + 3v_{2} = 0 \end{dcases}$
Obtenemos que $v_{1} = -v_{2}$, de esta forma el vector propio asociado a $\lambda_{1}$ es $\overrightarrow{v_{1}} = (1,-1)$. Hacemos el mismo procedimiento para $\lambda_{2} = 3$ y obtenemos que $\overrightarrow{v_{2}} = (2,-3)$, por lo tanto
$P = \begin{bmatrix}{1}&{2}\\{-1}&{-3}\end{bmatrix}$
Comprobamos que $J = P^{-1}AP$
$\begin{bmatrix}{3}&{2}\\{-1}&{-1}\end{bmatrix} \begin{bmatrix}{0}&{-2}\\{3}&{5}\end{bmatrix} \begin{bmatrix}{1}&{2}\\{-1}&{-3}\end{bmatrix} = \begin{bmatrix}{2}&{0}\\{0}&{3}\end{bmatrix}$
Como vemos se cumple la definición de la forma canónica de Jordan para matrices $2$ x $2$.
$\begin{bmatrix}{\lambda_{1}}&{0}&{0}\\{0}&{\lambda_{2}}&{0}\\{0}&{0}&{\lambda_{3}}\end{bmatrix}$ o $\begin{bmatrix}{\lambda_{1}}&{0}&{0}\\{0}&{\lambda_{2}}&{0}\\{0}&{0}&{\lambda_{2}}\end{bmatrix}$
o $\begin{bmatrix}{\lambda_{1}}&{0}&{0}\\{0}&{\lambda_{2}}&{1}\\{0}&{0}&{\lambda_{2}}\end{bmatrix}$ o $\begin{bmatrix}{\lambda}&{1}&{0}\\{0}&{\lambda}&{0}\\{0}&{0}&{\lambda}\end{bmatrix}$ o $\begin{bmatrix}{\lambda}&{1}&{0}\\{0}&{\lambda}&{1}\\{0}&{0}&{\lambda}\end{bmatrix}$
Para calcular la forma canónica de Jordan en $R^{3}$ debemos calcular los valores propios y el polinomio característico de una matriz $3$ x $3$, al hacer esto se nos pueden presentar los siguientes casos:
Caso 1: Obtenemos tres valores propios distintos $\lambda_{1}, \lambda_{2}$ y $\lambda_{3}$, es decir el polinomio característico de $A$ es de la forma $(t - \lambda_{1})(t - \lambda_{2})(t - \lambda_{3})$ con $t \in \R$. Este caso es parecido al caso 1 para las matrices $2$ x $2$. Buscamos los vectores propios $\overrightarrow{v_{1}} , \overrightarrow{v_{2}}$ y $\overrightarrow{v_{3}}$, tal que $A\overrightarrow{v_{i}} = \lambda_{i}\overrightarrow{v_{i}}$, para $i = 1,2,3$. Ahora definimos la matriz $P = (\overrightarrow{v_{1}} \overrightarrow{v_{2}} \overrightarrow{v_{3}})$, entonces tenemos que:
$ J = P^{-1}AP = \begin{bmatrix}{\lambda_{1}}&{0}&{0}\\{0}&{\lambda_{2}}&{0}\\{0}&{0}&{\lambda_{3}}\end{bmatrix}$
Caso 2: Obtenemos dos valores propios distintos $\lambda_{1}$ y $\lambda_{2}$ (con $m_{a}(\lambda_{2}) = 2$ y $m_{a}(\lambda_{1}) = 1$ ), es decir el polinomio característico de $A$ es de la forma $(t - \lambda_{1})(t - \lambda_{2})^{2}$, con $t \in \R$. Para este caso tenemos 2 escenarios.
Subcaso a): La multiplicidad geométrica de $\lambda_{2}$ es $2$. En este caso la forma canónica de Jordan está dada por:
$J = P^{-1}AP = \begin{bmatrix}{\lambda_{1}}&{0}&{0}\\{0}&{\lambda_{2}}&{0}\\{0}&{0}&{\lambda_{2}}\end{bmatrix}$
Si queremos encontrar la matriz $P$ podemos aplicar el siguiente teorema.
Subcaso b): La multiplicidad geométrica de $\lambda_{2}$ es $1$. En este caso la forma canónica de Jordan está dada por:
$J = P^{-1}AP = \begin{bmatrix}{\lambda_{1}}&{0}&{0}\\{0}&{\lambda_{2}}&{1}\\{0}&{0}&{\lambda_{2}}\end{bmatrix}$
Si queremos encontrar la matriz $P$ podemos aplicar el siguiente teorema.
Caso 3: Obtenemos sólo un valor propio $\lambda$, es decir el polinomio característico de $A$ es de la forma $(t - \lambda)^{3}$, con $t \in \R$. Para este caso tenemos 3 escenarios.
Subcaso a): La multiplicidad geométrica de $\lambda$ es $3$, por lo tanto se cumple que $A = \lambda I $. Este es un caso trivial dado que $A$ ya se encuentra en la forma canónica de Jordan, por lo tanto basta con tomar $J = A$ y $P = I$.
Subcaso b): La multiplicidad geométrica de $\lambda$ es $2$. En este caso la forma canónica de Jordan está dada por:
$J = P^{-1}AP = \begin{bmatrix}{\lambda}&{1}&{0}\\{0}&{\lambda}&{0}\\{0}&{0}&{\lambda}\end{bmatrix}$
Si queremos encontrar la matriz $P$ podemos aplicar el siguiente teorema.
Subcaso c): La multiplicidad geométrica de $\lambda$ es $1$. En este caso la forma canónica de Jordan está dada por:
$J = P^{-1}AP = \begin{bmatrix}{\lambda}&{1}&{0}\\{0}&{\lambda}&{1}\\{0}&{0}&{\lambda}\end{bmatrix}$
Si queremos encontrar la matriz $P$ podemos aplicar el siguiente teorema.
Ejemplo: Sea la matriz $A$, encontremos las matrices $J$ y $P$.
$A = \begin{bmatrix}{0}&{3}&{1}\\{2}&{-1}&{-1}\\{-2}&{-1}&{-1}\end{bmatrix}$
Calculamos los valores propios de $A$
$p(\lambda) = |A - \lambda I|$ $= \left|\begin{bmatrix}{0}&{3}&{1}\\{2}&{-1}&{-1}\\{-2}&{-1}&{-1}\end{bmatrix} - \begin{bmatrix}{\lambda}&{0}&{0}\\{0}&{\lambda}&{0}\\{0}&{0}&{\lambda}\end{bmatrix}\right|$
$ = \left|\begin{bmatrix}{0 - \lambda}&{3}&{1}\\{2}&{-1 - \lambda}&{-1}\\{-2}&{-1}&{-1-\lambda}\end{bmatrix} \right| = -\lambda^{3}-2\lambda^{2} + 4\lambda + 8$
$ = -(\lambda - 2)(\lambda + 2)^{2}$.
Por lo tanto obtenemos dos raíces, es decir obtenemos dos valores propios $\lambda_{1} = 2$ y $\lambda_{2} = -2$. Ahora calculamos $m_{g}(\lambda_{1})$ y $m_{g}(\lambda_{2})$, para $m_{g}(\lambda_{2})$ tenemos:
$m_{g}(\lambda_{2}) = dim(N(A + 2 I)) = dim \left(N \left(\begin{bmatrix}{2}&{3}&{1}\\{2}&{1}&{-1}\\{-2}&{-1}&{1}\end{bmatrix}\right)\right)$
Para ello resolvemos el sistema $(A + 2 I)\overrightarrow{v} = 0$:
$\begin{bmatrix}{2}&{3}&{1}\\{2}&{1}&{-1}\\{-2}&{-1}&{1}\end{bmatrix} \overrightarrow{v} = 0$
Si consideramos a $\overrightarrow{v} = (v_{1},v_{2},v_{3})$, tenemos
$ \begin{dcases} 2v_{1} + 3v_{2} + v_{3} = 0 \\ 2v_{1} + v_{2} - v_{3} = 0 \\ -2v_{1} - v_{2} + v_{3} = 0 \end{dcases}$
Resolviendo el sistema obtenemos que $v_{1} = v_{3}$ y $v_{2} = -v_{3}$, por lo tanto el espacio nulo es $\{t(1,-1,1)\}$, es decir $dim(N(A + 2 I)) = 1$, o lo que es lo mismo $m_{g}(\lambda_{2}) = 1$. Si hacemos el mismo procedimiento para $\lambda_{1}$ tenemos que $m_{g}(\lambda_{1}) = 1$ ya que $N(A - \lambda_{1} I ) = \{t(-1,-1,1)\}$.
Como $m_{g}(\lambda_{2}) = 1$ entramos en el subcaso b) del caso 2, por lo tanto la forma canónica de Jordan es:
$J = \begin{bmatrix}{\lambda_{1}}&{0}&{0}\\{0}&{\lambda_{2}}&{1}\\{0}&{0}&{\lambda_{2}}\end{bmatrix} = \begin{bmatrix}{2}&{0}&{0}\\{0}&{-2}&{1}\\{0}&{0}&{-2}\end{bmatrix} $
Para verificar la definición de la forma canónica de Jordan en matrices $3$ x $3$ calculamos la matriz $P$, para eso utilizaremos el .
Primero buscamos un vector propio $\overrightarrow{v_{1}}$ tal que $A\overrightarrow{v_{1}} = \lambda_{1}\overrightarrow{v_{1}}$. Anteriormente habíamos calculado que los vectores propios de $\lambda_{1}$ son de la forma $t(-1,-1,1)$, si consideramos $t = 1$ obtenemos el vector $(-1,-1,1)$, entonces $\overrightarrow{v_{1}} = (-1,-1,1)$.
Ahora tomamos un vector cualquiera $\overrightarrow{v_{3}}$ que se encuentre en $N(A - \lambda_{2} I)^{2}$ pero no en $N(A - \lambda_{2} I)$, donde
$(A - \lambda_{2} I)^{2} = \begin{bmatrix}{8}&{8}&{0}\\{8}&{8}&{0}\\{-8}&{-8}&{0}\end{bmatrix}$
Para encontrar un vector en $N(A - \lambda_{2})^{2}$ resolvemos el sistema $(A + 2 I)^{2} \overrightarrow{v} = 0$.
$\begin{bmatrix}{8}&{8}&{0}\\{8}&{8}&{0}\\{-8}&{-8}&{0}\end{bmatrix} \overrightarrow{v} = 0$
Si consideramos $\overrightarrow{v} = (v_{1},v_{2},v_{3})$, tenemos
$ \begin{dcases} 8v_{1} + 8v_{2} = 0 \\ 8v_{1} + 8v_{2} = 0 \\ -8v_{1} - 8v_{2} = 0 \end{dcases}$
Resolviendo el sistema obtenemos que $v_{1} = -v_{2}$ y $v_{2} = v_{2}$, por lo tanto el espacio nulo es $\{t(-1,1,0), s(0,0,1)\}$ con $t,s \in \R$. Si consideramos $s = 1$ podemos tomar el vector $\overrightarrow{v_{3}} = (0,0,1)$.
Por último calculamos el vector $\overrightarrow{v_{2}} = (A- \lambda_{2} I ) \overrightarrow{v_{3}}$, es decir $\overrightarrow{v_{2}} = (A + 2 I ) \overrightarrow{v_{3}}$.
$\overrightarrow{v_{2}} = \begin{bmatrix}{2}&{3}&{1}\\{2}&{1}&{-1}\\{-2}&{-1}&{1}\end{bmatrix} \begin{bmatrix}{0}\\{0}\\{1}\end{bmatrix} = \begin{bmatrix}{1}\\{-1}\\{1}\end{bmatrix}$.
Ya tenemos los vectores $\overrightarrow{v_{1}}, \overrightarrow{v_{2}}, \overrightarrow{v_{3}}$, ahora podemos formar la matriz $P = (\overrightarrow{v_{1}} \overrightarrow{v_{2}} \overrightarrow{v_{3}})$.
$P = \begin{bmatrix}{-1}&{1}&{0}\\{-1}&{-1}&{0}\\{1}&{1}&{1}\end{bmatrix}$
Es fácil comprobar que $J = P^{-1}AP$
$\begin{bmatrix}{-.5}&{-.5}&{0}\\{.5}&{-.5}&{0}\\{0}&{1}&{1}\end{bmatrix} \begin{bmatrix}{0}&{3}&{1}\\{2}&{-1}&{-1}\\{-2}&{-1}&{-1}\end{bmatrix} \begin{bmatrix}{-1}&{1}&{0}\\{-1}&{-1}&{0}\\{1}&{1}&{1}\end{bmatrix} $
$= \begin{bmatrix}{2}&{0}&{0}\\{0}&{-2}&{1}\\{0}&{0}&{-2}\end{bmatrix}$
Como vemos se cumple la definición de la forma canónica de Jordan para matrices $3$ x $3$.
En esta sección se explicará lo que son las ecuaciones lineales y como resolverlas, también se dará su interpretación geométrica.
$a_{1}x_{1} + a_{2}x_{2}+\cdots+a_{n}x_{n} = b$
Donde $a_{1},a_{2},...,a_{n}$ y $b$ son constantes en los reales. La constante $a_{i}$ es llamada coeficiente de $x_{i}$ con $i = 1,2,...,n$; y $b$ es llamado término constante de la ecuaciónHay que tomar en cuenta que las ecuaciones lineales son ecuaciones de primer grado, por lo que las variables $x_{1},x_{2},...,x_{n}$ no deben de tener potencias, raíces, multiplicarse o dividirse entre si.
Ejemplos de ecuaciones lineales:
$2x + y = 3$
$x + y + z = -5$
Ejemplos que no son ecuaciones lineales:
$y^{2}-2 = 0$
$x + yz = 1$
El conjunto de valores que satisfacen una ecuación se conoce como el conjunto solución de la ecuación. Para ecuaciones con dos y tres variables podemos representar este conjunto de valores mediante un sistema cartesiano (para dos variables en el plano cartesiano y para tres variables en el espacio cartesiano), donde cada solución de la ecuación está representada como un punto en el sistema cartesiano.
En la podemos observar cual es la representación geométrica del conjunto solución para ecuaciones con dos y tres variables.
Como podemos ver para ecuaciones lineales con dos variables el conjunto solución forma una línea en el plano, mientras que en las ecuaciones lineales con tres variables el conjunto solución forma un plano en el espacio.
Las soluciones de las ecuaciones lineales podemos escribirlas en términos de ciertos parámetros. Por ejemplo, si tomamos la ecuación $x + y + z = 1$, podemos reescribirla como $ x = 1 - y - z$ (despejamos la $x$ de la ecuación), ahora si consideramos la variable $y$ como el parámetro $t$ y la variable $z$ como el parámetro $s$ podemos escribir las soluciones de la siguiente manera:
$(x,y,z) = (1 - t - s, t , s)$ con $ t, s \in \R$
Esto quiere decir que cada punto en el plano que forma la ecuación $x + y + z = 1$ es de la forma $(1 - t - s, t , s)$ y es una solución de la ecuación. En la podemos ver la parametrización de una ecuación con dos y tres variables.
Ahora que ya comprendemos lo que es una ecuación lineal definiremos lo que es un sistema de ecuaciones lineales y cómo resolverlos.
$ \begin{dcases} a_{11}x_{1} + a_{12}x_{2} + \cdots + a_{1n}x_{n} = b_{1} \\ a_{21}x_{1} + a_{22}x_{2} + \cdots + a_{2n}x_{n} = b_{2} \\ \vdots \\ a_{m1}x_{1} + a_{m2}x_{2} + \cdots + a_{mn}x_{n} = b_{3} \end{dcases}$
Una solución del sistema es una tupla de números $(s_{1},s_{2},...,s_{n})$ que hacen que se cumplan todas las igualdades cuando los valores $s_{1},s_{2},...,s_{n}$ son sustituidos por $x_{1},x_{2},...,x_{n}$ respectivamente. El conjunto de todas las soluciones de un sistema de ecuaciones es llamado conjunto solución del sistema.
Si un sistema tiene al menos una solución se dice que es consistente, en caso contrario se dice que es inconsistente.
El siguiente sistema de ecuaciones lineales es inconsistente ya que no existen valores para $x$ y $y$ que hagan que la igualdad de ambas ecuaciones se cumplan simultáneamente:
$\begin{dcases} 3x + 2y = 5 \\ 3x + 2y = -5 \end{dcases}$
En la podemos ver geométricamente cada caso que se presenta en el para sistemas con dos ecuaciones y dos variables.
Ahora que hemos explicado lo que son los sistemas de ecuaciones lineales vamos a ver cómo resolverlos. En estas notas se explicarán tres de los métodos más utilizados, el método de sustitución, el método de igualación y el método de reducción.
Este método consiste en ir aislando las variables para después sustituirlas en las ecuaciones del sistema, los pasos que hay que seguir son los siguientes.
Ahora veremos tres ejemplos, cada uno presenta un caso del .
Ejemplo 1
$ \begin{dcases} 3x + 2y - z = 6 \\-2x + 2y + z = 3 \\ x + y + z = 4 \end{dcases}$
Seleccionamos la tercera ecuación y resolvemos para $x$
$x + y + z = 4 \Rightarrow x = 4 - y - z \space (1)$
Sustituimos $x$ en las dos ecuaciones restantes
$ 3x + 2y - z = 6 \Rightarrow 3(4 - y - z) + 2y - z = 6$
$12 - 3y - 3z + 2y - z = 6 \Rightarrow 12 - y - 4z = 6$
$\Rightarrow -y -4z = -6$
$-2x + 2y + z = 3 \Rightarrow -2(4 - y - z) + 2y + z = 3$
$\Rightarrow -8 + 2y + 2z + 2y + z = 3 \Rightarrow -8 + 4y + 3z = 3$
$\Rightarrow 4y + 3z = 11$
Nos queda el sistema
$ \begin{dcases} -y -4z = -6 \\ 4y + 3z = 11 \end{dcases}$
Seleccionamos la primera ecuación y resolvemos para $y$
$-y -4z = -6 \Rightarrow -y = -6 + 4z \Rightarrow y = 6 -4z \space (2)$
Sustituimos $y$ en la ecuación restante
$ 4y + 3z = 11 \Rightarrow 4( 6 -4z) + 3z = 11$
$ 24 - 16z + 3z = 11 \Rightarrow 24 - 13z = 11$
$\Rightarrow -13z = -13 \Rightarrow z = 1 $
Ya terminamos el paso 4 de este método, ahora vamos a obtener el valor de todas las variables, para eso primero sustituimos $z$ en $(2)$
$(2) \space y = 6 -4z \Rightarrow y = 6 -4(1) \Rightarrow y = 2$
Tenemos los valores de $y$ y $z$, solo falta sustituirlo en $(1)$ para obtener el valor de $x$
$(1) \space x = 4 - y - z \Rightarrow x = 4 - 2 - 1 \Rightarrow x = 1$
Ya hemos obtenido el valor de las tres variables, entonces la solución es la tupla $(1,2,1)$ y es una solución única.
Ejemplo 2:
$ \begin{dcases} x - 3y + z = 4 \\-x + 2y -5z = 3 \\ 5x - 13y + 13z = 8 \end{dcases}$
Seleccionamos la primera ecuación y resolvemos para $x$
$ x - 3y + z = 4 \Rightarrow x = 4 + 3y - z \space (1)$
Sustituimos en $x$ las ecuaciones restantes
$-x + 2y -5z = 3 \Rightarrow -( 4 + 3y - z) + 2y - 5z = 3$
$\Rightarrow -4 -3y + z + 2y - 5z = 3$
$\Rightarrow -y - 4z = 7 $
$5x - 13y + 13z = 8 \Rightarrow 5(4 + 3y - z) - 13y + 13z = 8$
$20 + 15y -5z -13y + 13z = 8 \Rightarrow 20 + 2y +8z = 8 $
$\Rightarrow 2y + 8z = -12 $
Nos queda el sistema
$ \begin{dcases} -y - 4z = 7 \\2y + 8z = -12 \end{dcases}$
Seleccionamos la primera ecuación y resolvemos para $y$
$-y - 4z = 7 \Rightarrow -y = 7 + 4z \Rightarrow y = -7 -4z \space (2) $
Sustituimos $y$ en la ecuación restante
$2y + 8z = -12 \Rightarrow 2(-7 -4z) + 8z = -12$
$-14 -8z +8z = -12 \Rightarrow 0 = 2 $
Como vemos obtenemos una contradicción, por lo tanto no hay que continuar más y concluimos que no existe ninguna solución para el sistema de ecuaciones.
Ejemplo 3
$ \begin{dcases} 2x + y -3z = 0 \\4x + 2y - 6z = 0 \\ x - y + z = 0 \end{dcases}$
Seleccionamos la tercera ecuación y resolvemos para $x$
$x - y + z = 0 \Rightarrow x = y - z \space (1)$
Sustituimos en las ecuaciones restantes
$2x + y -3z = 0 \Rightarrow 2(y - z) + y -3z$
$2y - 2z + y -3z = 0 \Rightarrow 3y -5z = 0$
$4x + 2y - 6z = 0 \Rightarrow 4(y - z) + 2y - 6z = 0 $
$\Rightarrow 4y - 4z +2y -6z = 0 \Rightarrow 6y -10z = 0$
Nos queda el sistema
$ \begin{dcases} 3y -5z = 0 \\6y -10z = 0 \end{dcases}$
Seleccionamos la primera ecuación y resolvemos para $y$
$ 3y -5z = 0 \Rightarrow y = \frac{5z}{3} \space (2)$
Sustituimos $y$ en la ecuación restante
$6y -10z = 0 \Rightarrow 6(\frac{5z}{3}) -10z = 0 \Rightarrow 10z -10z = 0 \Rightarrow 0 = 0$
Obtenemos que $0 = 0$, por lo tanto no necesitamos continuar, el resultado obtenido es una identidad que nos indica que el sistema tiene un número infinito de soluciones.
Estás soluciones las podemos expresar en su forma paramétrica. Sabemos que $y = \frac{5z}{3}$ y $x = y - z$, como no sabemos nada de $z$ entonces decimos que es una variables libre y podemos considerarla como el parámetro $t$. Ahora dejamos las variables $y,x$ expresadas en términos de $z$, en el caso de $y = \frac{5z}{3}$ ya lo está, para $x = y - z$ sustituimos el valor de $y$, es decir $x = \frac{5z}{3} - z = \frac{2z}{3}$. Por lo tanto las soluciones son de la forma $(x,y,z) = (\frac{2t}{3},\frac{5t}{3},t)$ o bien $t(\frac{2}{3},\frac{5}{3},1)$.
Este método consiste en despejar las variables de las ecuaciones del sistema e ir igualando los resultados para obtener su valor. Hay que tomar en cuenta que el número de pasos necesarios incrementa demasiado mientras más variables tengamos en el sistema, es por eso que no se recomienda resolver sistemas con más de tres variables utilizando este método. En estas notas se explica cómo resolver sistemas de $3$ x $3$ (tres ecuaciones con tres variables).
despejamos, decimos que este es el resultado $(1)$.
Ejemplo
$ \begin{dcases} 3x + 2y + z = 1 \\5x + 3y + 4z = 2 \\ x + y - z = 1 \end{dcases}$
Elegimos la variable $x$ y lo resolvemos en las tres ecuaciones
$3x + 2y + z = 1 \Rightarrow x = \frac{1}{3} - \frac{2y}{3} - \frac{z}{3}$
$5x + 3y + 4z = 2 \Rightarrow x = \frac{2}{5} - \frac{3y}{5} - \frac{4z}{5} $
$x + y - z = 1 \Rightarrow x = 1 - y + z$
Seleccionamos la primera y segunda ecuación y las igualamos
$\frac{1}{3} - \frac{2y}{3} - \frac{z}{3} = \frac{2}{5} - \frac{3y}{5} - \frac{4z}{5} \Rightarrow - \frac{2y}{3} - \frac{z}{3} + \frac{3y}{5} + \frac{4z}{5} = \frac{2}{5} - \frac{1}{3}$
$-\frac{y}{15} + \frac{7z}{15} = \frac{1}{15} $
Despejamos $y$
$-\frac{y}{15} = \frac{1}{15} - \frac{7z}{15} \Rightarrow -y = 1 - 7z \Rightarrow y = -1 + 7z \space (1) $
Seleccionamos la primera y tercera ecuación y las igualamos
$\frac{1}{3} - \frac{2y}{3} - \frac{z}{3} = 1 - y + z \Rightarrow - \frac{2y}{3} - \frac{z}{3} + y - z = 1 - \frac{1}{3}$
$\frac{y}{3} - \frac{4z}{3} = \frac{2}{3}$
Despejamos $y$
$\frac{y}{3} = \frac{2}{3} + \frac{4z}{3} \Rightarrow y = 2 + 4z \space (2)$
Igualamos $(1)$ y $(2)$
$-1 + 7z = 2 + 4z$
$7z - 4z = 2 + 1 \Rightarrow 3z = 3 \Rightarrow z = 1$
Sustituimos $z$ en $(2)$
$y = 2 + 4(1) \Rightarrow y = 6$
Sustituimos $y$ y $z$ en la primera ecuación
$x = \frac{1}{3} - \frac{2(6)}{3} - \frac{1}{3} \Rightarrow x = -\frac{12}{3} \Rightarrow x = -4$.
Ya hemos obtenido el valor de las tres variables, entonces tenemos la solución única $(-4,6,1)$
Al igual que en el método de sustitución, cuando obtenemos alguna contradicción en el proceso significa que el sistema no tiene solución, mientras que si obtenemos la igualdad identidad $0 = 0$ decimos que el sistema tiene soluciones infinitas y podemos expresarlas en su forma paramétrica.
Este método consiste en ir eliminando las variables en las ecuaciones hasta obtener sus valores, los pasos que hay que seguir son los siguientes.
En este paso ya eliminamos la variable $x_{i}$ que elegimos del sistema.
Ejemplo
$ \begin{dcases} 2x + 2y + 2z = 4 \\x - y + 3z = 2 \\ x + 3y + 2z = 6 \end{dcases}$
Elegimos la primera ecuación y la variable $x$. Multiplicamos la segunda y tercera ecuación por un número de tal forma que el coeficiente de $x$ sea igual al de la primera ecuación
$x - y + 3z = 2 \Rightarrow 2 (x - y + 3z = 2 ) \Rightarrow 2x - 2y + 6z = 4$
$ x + 3y + 2z = 6 \Rightarrow 2 (x + 3y + 2z = 6) \Rightarrow 2x + 6y + 4z = 12 $
Restamos la primera ecuación con las ecuaciones que obtuvimos
$\def\arraystretch{1.5} \begin{array}{c} \hspace*{2.2em} 2x + 2y + 2z = 4 \\ -\hspace*{1.5em} 2x - 2y + 6z = 4 \\ \hline 4y - 4z = 0 \end{array}$
$\def\arraystretch{1.5} \begin{array}{c} \hspace*{2.2em} 2x + 2y + 2z = 4 \\ -\hspace*{1.5em} 2x + 6y + 4z = 12 \\ \hline -4y -2z = -8 \end{array}$
Actualizamos el sistema
$ \begin{dcases} 4y - 4z = 0 \\-4y -2z = -8 \end{dcases}$
Elegimos la primera ecuación y la variable $y$. Multiplicamos la segunda ecuación por un número de tal forma que el coeficiente de $y$ sea igual al de la primera ecuación.
$-4y -2z = -8 \Rightarrow -1(-4y -2z = -8) \Rightarrow 4y + 2z = 8$
Restamos la primera ecuación con la ecuación que obtuvimos
$\def\arraystretch{1.5} \begin{array}{c} \hspace*{2.2em} 4y - 4z = 0 \\ -\hspace*{1.5em} 4y + 2z = 8 \\ \hline -6z = -8 \end{array}$
Solo nos queda una ecuación de primer grado con un variable. Despejamos $z$ y obtenemos su valor
$-6z = -8 \Rightarrow z = \frac{4}{3}$
Ahora que hemos obtenido el valor de $z$ podemos obtener el valor de $y$
$4y + 2z = 8 \Rightarrow 4y + 2(\frac{4}{3}) = 8 \Rightarrow 4y + \frac{8}{3} = 8 $
$\Rightarrow 4y = \frac{16}{3} \Rightarrow y = \frac{4}{3}$
Utilizando los valores de $y$ y $z$ obtenemos el valor de $x$
$2x + 2y + 2z = 4 \Rightarrow 2x + 2(\frac{4}{3}) + 2(\frac{4}{3}) = 4 \Rightarrow 2x + \frac{8}{3} + \frac{8}{3} = 4$
$2x = -\frac{4}{3} \Rightarrow x = -\frac{2}{3}$
Ya hemos obtenido el valor de las tres variables, entonces tenemos la solución única $(-\frac{2}{3},\frac{4}{3},\frac{4}{3})$
Al igual que en los métodos de igualación y sustitución cuando obtenemos alguna contradicción en el proceso significa que el sistema no tiene solución, mientras que si obtenemos la igualdad identidad $0 = 0$ decimos que el sistema tiene soluciones infinitas y las podemos expresar en su forma paramétrica.
En esta sección veremos cómo determinar el volumen de sólidos en tres dimensiones utilizando el método de los discos, el método del anillo y el cálculo de volúmenes mediante las secciones transversales conocidas.
Los sólidos generados al girar una región plana (región de revolución) alrededor de un eje (eje de revolución) son llamados sólidos de revolución. Esta región plana esta acotada por una función $f(x)$ y un intervalo $[a,b]$. En la podemos ver algunos ejemplos.
Este método es utilizado para calcular el volumen de sólidos de revolución como los mostrados en la . Podemos pensar que estos sólidos están conformados por $n$ discos, los cuales se forman al girar un rectángulo dentro de la región plana alrededor del eje de revolución ().
El volumen de estos discos es
Volumen del disco = Área del disco $\cdot$ Ancho del disco = $\pi R^{2}w$
Donde $R$ es el radio del disco y $w$ es su anchura. Denotaremos el volumen de un disco como $\varDelta V$ y la anchura como $\varDelta x$, es decir
$\varDelta V = \pi R^{2} \varDelta x $
Si aproximamos el volumen de un sólido de revolución sumando los $n$ discos de anchura $\varDelta x$ y radio $R(x_{i})$ que lo conforman tenemos:
Volumen del sólido $\simeq \displaystyle\sum_{i=1}^n \pi[R(x_{i})]^{2} \varDelta x$
$= \pi \displaystyle\sum_{i=1}^n [R(x_{i})]^{2} \varDelta x$
Esta aproximación mejora mientras más discos tomemos, en otras palabras cuando $n \rightarrow \infty$, de esta manera podemos definir el volumen de un sólido como sigue.
Volumen del sólido = $\lim\limits_{n \rightarrow \infty} \pi \displaystyle\sum_{i=1}^n [R(x_{i})]^{2} \varDelta x = \displaystyle\int_{a}^{b} \pi [R(x)]^{2} dx$
Donde $R(x) = f(x)$ y $a,b$ son los intervalos de la región plana que forman el sólido. En la podemos ver como la aproximación va mejorando mientras más discos se tomen.
$V = \displaystyle\int_{a}^{b} \pi [f(x)]^{2} dx$
Nota: La integral está definida en términos del eje de revolución, es decir si el eje de revolución es $y$, entonces la región plana está acotada por una función del tipo $f(y)$, por lo tanto:
$V = \displaystyle\int_{a}^{b} \pi [f(y)]^{2} dy$
Ejemplo: Encontrar el volumen del sólido formado al girar la región acotada por la función $f(x)=x^2-4x+5$ en el intervalo $[0,4]$, alrededor del eje $x$.
El sólido representado por esta función la podemos ver en la , así el volumen del sólido de revolución es:
$V= \displaystyle\int_{0}^{4} \pi [f(x)]^{2} dx = \displaystyle\int_{0}^{4} \pi (x^2-4x+5)^{2} dx$
$=\pi \displaystyle\int_{0}^{4} (x^2-4x+5)^{2} dx =\pi \displaystyle\int_{0}^{4} x^{4} -8x^{3}+26x^{2} - 40x + 25 dx$
$=\pi \left(\displaystyle\int_{0}^{4} x^{4} dx - \displaystyle\int_{0}^{4} 8x^{3} dx + \displaystyle\int_{0}^{4} 2x^{2} dx - \displaystyle\int_{0}^{4} 40x dx + \displaystyle\int_{0}^{4} 25 dx \right)$
$=\pi \left([\frac{x^{5}}{5}]^{4}_{0} - 8 [\frac{x^{4}}{4}]^{4}_{0} + 26[\frac{x^{3}}{3}]^{4}_{0} - 40 [\frac{x^{2}}{2}]^{4}_{0} + [25x]^{4}_{0} \right)$
$= \pi \left(\frac{1024}{5} - 512 + \frac{1664}{3} - 320 + 100 \right) = \pi \left(\frac{412}{15} \right)$
Por lo tanto el volumen del sólido es $\pi \left(\frac{412}{15} \right)$.
El método del anillo también conocido como método de las arandelas es una extensión del método de los discos que sirve para calcular el volumen de sólidos con huecos. Esto es producido cuando la región de revolución se define como la región que se encuentra entre las gráficas de dos funciones $f(x)$ y $g(x)$ ().
Para calcular el volumen de sólidos de revolución con huecos reemplazamos los discos por anillos, estos anillos se forma al girar un rectángulo dentro de la región que se encuentra acotada por las dos funciones en el intervalo $[a,b]$ alrededor del eje de revolución,
en la podemos ver cómo se generan estos anillos.
Si consideramos a $r$ y $R$ como los radios interiores y exteriores del anillo y $\varDelta x$ como la anchura, el volumen del anillo está dado por:
Volumen anillo $= \pi (R^{2}-r^{2}) \varDelta x $
Podemos pensar que los sólidos con huecos están formados por $n$ anillos. Ahora si aproximamos el volumen del sólido por los $n$ anillos de anchura $\varDelta x$ con radio exterior $R(x_{i})$ y radio interior
$r(x_{i})$ tenemos que:
Volumen del sólido $\simeq \displaystyle\sum_{i=1}^n \pi[[R(x_{i})]^{2} - [r(x_{i})]^{2}] \varDelta x$
$=\pi \displaystyle\sum_{i=1}^n [[R(x_{i})]^{2} - [r(x_{i})]^{2}] \varDelta x$
De la misma manera que en el método de los discos esta aproximación mejora mientras más anillos tomemos, por lo que podemos definir el volumen de un solido de revolución con huecos como sigue.
Volumen del sólido $= \displaystyle\int_{a}^{b} \pi [[R(x)]^{2}-[r(x)]^{2}] dx$
Donde $R(x) = f(x)$ , $r(x) = g(x)$ y $a,b$ son los intervalos de la región de revolución. El la se puede ver gráficamente como solido entre dos funciones se aproxima de mejor manera mientras más anillos sean tomados.
Notemos que la integral que contiene el radio interior $r(x)$ representa el volumen del hueco y se resta a la integral que contiene el radio exterior.
$V = \displaystyle\int_{a}^{b} \pi [[f(x)]^{2}-[g(x)]^{2}] dx$
Al igual que en el método de los discos, si $y$ es el eje de revolución, entonces el volumen del sólido es:
$V = \displaystyle\int_{a}^{b} \pi [[f(y)]^{2}-[g(y)]^{2}] dy$
Ejemplo: Encontrar el volumen del sólido formado al girar la región acotada por las funciones $f(x)=x$ y $g(x)=\frac{1}{x}$ en el intervalo $[1,4]$ alrededor del eje $x$.
El sólido generado por estas funciones lo podemos ver en el primer ejemplo de la , así el volumen del solido de revolución es:
$V = \displaystyle\int_{a}^{b} \pi [[f(x)]^{2}-[g(x)]^{2}] dx = \displaystyle\int_{1}^{4} \pi [(x)^{2}- \left(\frac{1}{x} \right)^{2}] dx$
$=\pi \displaystyle\int_{1}^{4} x^{2}-\frac{1}{x^{2}} dx = \pi \left( \displaystyle\int_{1}^{4} x^{2} dx - \displaystyle\int_{1}^{4} \frac{1}{x^{2}} dx\right)$
$= \pi \left( [\frac{x^{3}}{3}]^{4}_{1} - [-\frac{1}{x}]^{4}_{1} \right) = \pi \left( \frac{63}{3} - \frac{3}{4} \right) = \pi \left( \frac{84}{4} - \frac{3}{4} \right) = \pi (\frac{81}{4})$
Por lo tanto el volumen del sólido acotado por las funciones $f(x)=x$ y $g(x)=\frac{1}{x}$ en el intervalo $[1,4]$ es $\pi (\frac{81}{4}).$
Hasta ahora hemos estudiado cómo calcular los volúmenes de sólidos de revolución, sin embargo no todos los sólidos se generan al rotar una región plana alrededor de un eje, en estos casos podemos calcular su volumen si conocemos sus secciones transversales.
En la podemos ver que las secciones transversales son regiones planas de área $A(x)$ (con $x$ un punto en el eje), que se encuentran dentro del sólido. Por ejemplo, si la sección transversal es un cuadrado, entonces su área se calcula con la fórmula $l$ x $l$, donde $l$ es la longitud de los lados, ahora si consideramos que los lados de la sección transversal son de longitud $x$, entonces $A(x) = x^{2}$.
Podemos calcular el volumen del sólido cortándolo en $n$ “rebanadas” de longitud $\varDelta x_{k}$, estimar el volumen de cada rebanada y después sumarlas. Estas rebanadas son paralelas unas con otras y perpendiculares al eje donde se encuentra el sólido, por lo que si las juntamos todas deben de formar el sólido original.
Supongamos que tenemos una partición regular $p=[x_{0},x_{1},...,x_{n}]$ en el intervalo $[a,b]$ donde se definió el sólido y $n$ rebanadas $S_{i}$, cuya longitud se extiende desde $x_{i-1}$ hasta $x_{i}$ como podemos ver en la . Ahora bien, sea $x^{*}_{i}$ un punto arbitrario en el intervalo $[x_{i-1},x_{i}]$, entonces el volumen de la rebanada $S_{i}$ puede ser estimada como sigue:
$V(S_{i}) \simeq A(x^{*}_{i}) \varDelta x$
Con $\varDelta x$ la longitud del intervalo $[x_{i-1},x_{i}]$. Si sumamos el volumen de cada rebanada podemos hacer un aproximación del volumen total del sólido de la siguiente manera
Volumen de sólido $ \simeq \displaystyle\sum_{i=1}^n V(S_{i}) = \displaystyle\sum_{i=1}^n A(x^{*}_{i}) \varDelta x$
Esta aproximación mejora mientras más delgadas sean las rebanadas, de hecho tan pequeñas como para que cada subsección sea igual a una de las secciones transversales del sólido, es decir cuando $n \rightarrow \infty$, por lo que:
Volumen del sólido $ =\lim\limits_{n \rightarrow \infty} \displaystyle\sum_{i=1}^n A(x^{*}_{i}) \varDelta x = \displaystyle\int_{a}^{b} A(x) dx$
$V = \displaystyle\int_{a}^{b} A(x) dx$
Como se dijo en un inicio, las rebanadas deben ser perpendiculares a un eje, la definición anterior describe la fórmula cuando las rebanadas son perpendiculares al eje $x$, si las rebanadas son perpendiculares al eje $y$ la fórmula es análoga, es decir
$ \displaystyle\int_{a}^{b} A(y) dy$
La estrategia que debemos de seguir para calcular el volumen de un sólido es la siguiente
Ejemplo: Calcular el volumen de una pirámide cuadrada con base de $6$ x $6$ unidades, que se encuentra en el intervalo $[0,3]$ y cuyas secciones transversales son perpendiculares al eje $x$.
El problema nos dice que el sólido es una pirámide cuadrada (como la mostrada en la ), por lo tanto sus secciones transversales tienen la forma de un cuadrado (ya que son perpendiculares al eje $x$).
La fórmula para calcular el área de un cuadrado es $l$ x $l$. Si nos fijamos en la sección transversal que se encuentra en $x=1$ sus lados tienen longitud $2$, por lo que $A(1) = 2^{2} = 4$, si $x=2$ tenemos que $A(2) = 4^{2} = 16$ y si $x=3$ tenemos que $A(3) = 6^{2}= 36$.
En términos generales, el área de la sección transversal es $A(x) = (2x)^{2} = 4x^{2}$. Ahora que determinamos la fórmula para calcular el área de las secciones transversales la integramos en el intervalo $[0,3]$.
$V = \displaystyle\int_{0}^{3} 4x^{2} dx = 4 \displaystyle\int_{0}^{3} x^{2} dx $
$= 4 \cdot \left[\frac{x^{3}}{3} \right]^{3}_{0} = 4 \cdot 9 = 36$
Por lo tanto el volumen de una pirámide cuadrada con secciones transversales perpendiculares al eje $x$ definida en el intervalo $[0,3]$ con base de $6$ x $6$ unidades es igual a $36$.
En la sección anterior vimos cómo calcular el volumen de sólidos utilizando integrales. Ahora veremos cómo calcular el volumen de superficies de revolución.
Supongamos que tenemos una partición regular $p = [x_{0},x_{1},...,x_{n}]$ en el intervalo $[a,b]$. Entonces para $i = 1,2,...,n$ construimos un segmento de recta que va del punto $(x_{i-1},f(x_{i-1}))$ al punto $(x_{i},f(x_{i}))$ .
Notemos que $\varDelta x_{i} = x_{i} - x_{i-1}$ y $\varDelta y_{i} = y_{i} - y_{i-1}$, con $y_{i} = f(x_{i})$.
Al girar estos segmentos de recta alrededor del eje de revolución se generan unas bandas, las cuales nos ayudaran a aproximar el volumen de la superficie de revolución.
Como podemos ver en la , estas bandas son en realidad troncos de cono (un cono cortado), por lo que para calcular su área debemos calcular el área de la superficie lateral de un tronco de cono. Sean $R$ y $r$ el radio exterior e interior del tronco y $l$ su altura inclinada, si sabemos que el área de la superficie lateral de un cono completo es
Área superficie lateral del cono $= \pi R s $
Donde $R$ es el radio de la base y $s$ es su altura inclinada. Entonces para calcular el área de la superficie lateral del tronco podemos restar el área de la superficie lateral del cono completo menos el área de la superficie lateral del pedazo de cono (llamémoslo cono pequeño) que le hace falta al tronco para formar el cono completo.
Como las secciones transversales del cono completo y el cono pequeño son triángulos semejantes tenemos que :
$\frac{r}{R} = \frac{s-l}{s}$
Resolviendo para $s$
$rs = R(s-1)$
$\Rightarrow rs = Rs - Rl$
$\Rightarrow Rl = Rs - rs$
$\Rightarrow Rl = (R - r)s$
$\Rightarrow s = \frac{Rl}{R-r}$
Por lo tanto el área de la superficie de un tronco de cono es:
A = Área superficie cono completo - Área superficie cono pequeño
$ = \pi R s - \pi r(s-l) = \pi R \left(\frac{Rl}{R-r} \right) - \pi r \left(\frac{Rl}{R-r} - l\right)$
$ = \frac{\pi R^{2} l }{R-r} - \frac{\pi R r l}{R - r} + \pi r l = \frac{\pi R^{2} l }{R-r} - \frac{\pi R r l}{R - r} + \frac{\pi r l (R - r)}{R-r}$
$ = \frac{\pi R^{2} l}{R-r} - \frac{\pi R r l}{R - r} + \frac{\pi R r l}{R-r} - \frac{\pi r^{2} l}{R - r} = \frac{\pi \left(R^{2} - r^{2} \right) l }{R - r} $
$= \frac{\pi(R-r)(R + r) l}{R - r} = \pi(R+r)l$
Ahora aplicando esta fórmula para calcular el área de la superficie de las bandas tenemos que:
Área superficie banda $= \pi(R + r)l = \pi (f(x_{i-1}) + f(x_{i})) l$
Donde $l$ es la longitud del segmento de recta que se encuentra en el subintervalo $[x_{i-1},x_{i}]$ (), la cual se puede deducir de la fórmula
$l= \sqrt{(x_{i-1} - x_{i})^{2} + (y_{i-1} - y_{i}^{2})}$
Denotamos $(x_{i-1} - x_{i})$ como $\varDelta x_{i}$ y $(y_{i-1} - y_{i})$ como $\varDelta y_{i}$, entonces:
Área superficie banda $ = \pi (f(x_{i-1}) + f(x_{i})) \sqrt{(\varDelta x_{i})^{2} + (\varDelta y_{i})^{2}}$
$= \pi (f(x_{i-1}) + f(x_{i})) \sqrt{(\varDelta x_{i})^{2} + \left(\frac{\varDelta y_{i}}{\varDelta x_{i}}\right)^{2} (\varDelta x_{i})^{2}} $
$= \pi (f(x_{i-1}) + f(x_{i})) \sqrt{1 + \left(\frac{\varDelta y_{i}}{\varDelta x_{i}}\right)^{2}} (\varDelta x_{i})$
Por el teorema del valor medio sabemos que existe un punto $x^{*} \in [x_{i-1},x_{i}]$ tal que $f'(x^{*}) = \frac{\varDelta y_{i}}{\varDelta x_{i}}$, entonces:
$= \pi (f(x_{i-1}) + f(x_{i})) \sqrt{1 + [f'(x^{*}_{i})]^{2}} \varDelta x_{i}$
$f'(c) = \frac{f(b) - f(a)}{b - a}$
Además, dado que $f(x)$ es continua, según el teorema del valor intermedio, hay un punto $x^{**}_{i} \in [x_{i-1},x_{i}]$ tal que $f(x^{**}_{i}) = \left(\frac{1}{2}\right)[f(x_{i-1}+f(x_{i}))]$, entonces
Area banda = $2\pi f(x^{**}_{i}) \sqrt{1 + [f'(x_{i}*)]^{2}} \varDelta x_{i}$
Por lo tanto la aproximación del área de una superficie de revolución es:
Área superficie $\simeq \displaystyle\sum_{i=1}^n 2 \pi f(x^{**}_{i}) \sqrt{1 + [f'(x^{*}_{i})]^{2}} \varDelta x_{i} $
Esta aproximación mejora mientras mas subintervalos tengamos, es decir cuando $n \rightarrow \infty$, por lo tanto
Área superficie $= \lim\limits_{n \rightarrow \infty} \displaystyle\sum_{i=1}^n 2 \pi f(x^{**}_{i}) \sqrt{1 + [f'(x^{*}_{i})]^{2}} \varDelta x_{i} $
$\displaystyle\int_{a}^{b} 2\pi f(x) \sqrt{1 + [f'(x)]^{2}} dx$
$\displaystyle\int_{a}^{b} 2\pi f(x) \sqrt{1 + [f'(x)]^{2}} dx$
La fórmula para calcular el área de superficies de revolución que se forman al girar la gráfica de una función sobre el eje $y$ es análoga, es decir:
$\displaystyle\int_{a}^{b} 2\pi f(y) \sqrt{1 + [f'(y)]^{2}} dy$
Ejemplo: Sea $f(x) = \sqrt{x}$ sobre el intervalo $[0,4]$. Buscar el área de la superficie de revolución al girar la gráfica de $f(x)$ sobre el eje $x$.
La superficie de revolución de $f(x)=\sqrt{x}$ la podemos generar en la , asi el área de la superficie de revolución es:
$A = \displaystyle\int_{a}^{b} 2\pi f(x) \sqrt{1 + [f'(x)]^{2}} dx = \displaystyle\int_{0}^{4} 2\pi \sqrt{x} \sqrt{1 + [\sqrt{x}']^{2}} dx$
$ = \displaystyle\int_{0}^{4} 2\pi \sqrt{x} \sqrt{1 + \left[\frac{1}{2 \sqrt{x}} \right]^{2}} dx = \displaystyle\int_{0}^{4} 2\pi \sqrt{x} \sqrt{1 + \frac{1}{4x}} dx$
$ = \displaystyle\int_{0}^{4} 2\pi \sqrt{x + \frac{x}{4x}} dx = 2\pi \displaystyle\int_{0}^{4} \sqrt{x + \frac{1}{4}} dx $
Haciendo la sustitución $u = x + \frac{1}{4}$
$2\pi \displaystyle\int_{\frac{1}{4}}^{\frac{17}{4}} \sqrt{u} \space du = 2\pi \displaystyle\int_{\frac{1}{4}}^{\frac{17}{4}} u^{\frac{1}{2}} du = 2\pi \left[\frac{2}{3} u^{\frac{3}{2}} \right]^{\frac{17}{4}}_{\frac{1}{4}}$
$= 2\pi \left[\frac{2}{3} u^{\frac{3}{2}} \right]^{\frac{17}{4}}_{\frac{1}{4}} = 2\pi \left(\frac{17 \sqrt{17}}{12} - \frac{1}{12} \right) \simeq 36.17 $
Por lo tanto, el área de la superficie de revolución generada al girar la gráfica de $f(x) = \sqrt{x}$ sobre el eje $x$ es $36.17$.
Las coordenadas polares son un sistema de coordenadas bidimensional en el que cada punto se determina por una distancia y un ángulo (generalmente medido en radianes).
Para definir un sistema de coordenadas polares elegimos un punto en el plano que llamaremos “polo”, denotado como $O$, y una semirrecta que inicia en el punto $O$ que llamaremos “eje polar”. Por lo general el eje polar se traza horizontalmente a la derecha del polo y corresponde al eje $x$ positivo del sistema cartesiano.
Cada punto $P$ se localiza mediante un par de coordenadas $(r,\theta)$, donde $r$ es la distancia que hay de $O$ a $P$ y $\theta$ es el ángulo que hay entre el eje polar y la recta $OP$. Entonces decimos que el par ordenado $(r,\theta)$ es una coordenada polar de $P$.
Por convención el ángulo es positivo cuando se mide en sentido contrario a las manecillas del reloj y negativo cuando se mide en el sentido de las manecillas del reloj. Hay que notar que en el sistema de coordenadas cartesianas cada punto sólo tiene una representación, mientras que en coordenadas polares cada punto tiene varias representaciones. Por ejemplo, el punto con coordenadas polares $(5,\pi)$, también se puede escribir como $(5, 3\pi)$, ya que tanto $\pi$ como $3\pi$ representan $180°$.
La relación entre las coordenadas polares y las coordenadas cartesianas las podemos ver en la y la , donde el polo corresponde al origen del sistema cartesiano y el eje polar corresponde al eje $x$ positivo del sistema cartesiano, por lo tanto, si el punto $P$ tiene coordenadas polares $(r,\theta)$, tenemos
$cos(\theta) = \frac{x}{r} \hspace7ex sen(\theta) = \frac{y}{r}$
De modo que
$x = r cos(\theta) \hspace7ex y = r sen(\theta)$
Por ejemplo, si el punto $P$ tiene coordenadas polares $(3,\frac{5 \pi}{3})$, entonces sus coordenadas cartesianas son $(3 \space cos(\frac{5 \pi}{3}),3 \space sen(\frac{5 \pi}{3})) = (1.5,-2.6)$.
En el caso de que conozcamos las coordenadas cartesianas y queramos convertirlas a coordenadas polares utilizamos las siguientes igualdades:
$r^{2} = x^{2} + y^{2} \hspace7ex tan(\theta) = \frac{y}{x}$
Donde $r$ es obtenido utilizando el Teorema de Pitágoras, entonces $r = \sqrt{x^{2} + y^{2}}$. Como medimos los ángulos en radianes, el valor de $\theta$ se encuentra en el intervalo $(0,2\pi]$, por lo tanto podemos utilizar la inversa de la función tangente para calcularla.
Las siguientes fórmulas muestran como calcular el valor de $\theta$ dados los posibles escenarios de los valores que tomen las coordenadas cartesianas.
$\theta = \begin{dcases} arctan\left(\frac{y}{x}\right) &\text{si } x > 0 , y \geq 0 \\ \frac{\pi}{2} &\text{si } x = 0 , y > 0 \\ arctan\left(\frac{y}{x}\right) + \pi &\text{si } x < 0 \\ \frac{3\pi}{2} &\text{si } x=0 , y < 0 \\ arctan\left(\frac{y}{x}\right) + 2\pi &\text{si } x> 0 , y < 0 \end{dcases}$
En la podemos ver como convertir de coordenadas polares a cartesianas y viceversa. Notemos que las fórmulas anteriores devuelven el valor de $\theta$ en radianes, por lo que si queremos obtener $\theta$ en grados hacemos la conversión correspondiente.
La gráfica de una ecuación polar $r = f(\theta)$, consiste en todos los puntos $P$ que tiene al menos una representación polar $(r,\theta)$, cuyas coordenadas satisfacen la ecuación polar.
La forma en la que podemos graficar la curva de una ecuación polar $r = f(\theta)$ es elaborando una tabla de valores $(r,\theta)$, graficar los puntos correspondientes y conectarlos en orden creciente de $\theta$. Hay que tomar en cuenta que esto puede funcionar bien solo si hay suficientes puntos para revelar todos los lazos de la gráfica.
Por ejemplo, si queremos graficar la ecuación polar $f(\theta) = 1 + cos(\theta)$, con $0 \leq \theta \leq 2 \pi$ haríamos una tabla como la siguiente:
$$ \begin{array}{c|c} \theta & f(\theta) = 1 + cos(\theta) \\ \hline 0 & 2 \\ \frac{\pi}{3} & 1.5 \\ \frac{2\pi}{3} & 0.5 \\ \pi & 0 \\ \frac{4\pi}{3} & 0.5 \\ \frac{5\pi}{3} & 1.5 \\ 2 \pi & 2 \\ \end {array} $$
En el primer ejemplo de la podemos ver la gráfica de esta ecuación polar.
Esta ecuación polar es conocida como cardioide ya que al graficar los puntos y unirlos se asemeja al dibujo de un corazón.
Sea $C$ una curva polar dada por la función $r=f(\theta)$, la región $A=\{(r,\theta): a \leq \theta \leq b, 0 \leq r \leq f(\theta) \}$ cuya área queremos calcular, es la región sombreada que se observa en la .
Como hemos estado haciendo a lo largo de este capítulo, empezaremos calculando aproximaciones del área para después obtener la fórmula del área por medio de una integral.
Primero dividimos el intervalo $[a,b]$ en $n$ sectores circulares en forma de abanico, para eso tomamos una partición regular $p = [\theta_{1}, \theta_{2},...,\theta_{i}]$, de tal forma que cada subintervalo $S_{i}$ va de $\theta_{i-1}$ a $\theta_{i}$, como vemos en la , adicionalmente para cada subintervalo elegimos un punto arbitrario que llamaremos $\theta_{i}^{*}$. Entonces el área de $f(\theta)$, que va de $a \leq \theta \leq \ b$ la podemos aproximar sumando el área de cada subintervalo, es decir
A = $area(S_{1}) + area(S_{2}) +...+ area(S_{n})$
Donde $S_{i}$ es el sector circular de radio $r(\theta_{i}^{*})$ y ángulo $\theta_{i} - \theta_{i-1}$, el cual denotaremos como $\varDelta \theta_{i}$.
Ahora para calcular el área de los $S_{i}$ consideremos un círculo de radio $r$, que como sabemos su área es $\pi r^{2}$. Podemos pensar que el área de los $S_{i}$ es igual al área de un sector del círculo completo, cuyo ángulo es igual a $\varDelta \theta_{i}$ radianes. Entonces si tomamos en cuenta que una vuelta completa de un círculo es igual a $2\pi$ radianes, el área del sector del círculo con ángulo $\varDelta \theta_{i}$ es igual a
$\pi r^{2} \cdot \frac{\varDelta \theta_{i}}{2\pi} = \frac{1}{2} r^{2} \varDelta \theta_{i} = \frac{1}{2} (f(\theta_{i}))^{2} \varDelta \theta_{i}$
Por lo tanto sumando el área de cada uno de los subintervalos el área total es aproximadamente
$A \simeq \displaystyle\sum_{i=1}^n \frac{1}{2} (f(\theta_{i}))^{2} \varDelta \theta_{i}$
Si $f(\theta)$ es continua, la aproximación mejora mientras la partición nos genere subintervalos más pequeños, es decir cuando $n \rightarrow \infty$, por lo tanto podemos definir el área de la región acotada por $f(\theta)$ en el intervalo $[a,b]$ como una integral.
$A = \lim\limits_{n \rightarrow \infty} \displaystyle\sum_{i=1}^n \frac{1}{2} (f(\theta_{i}))^{2} \varDelta \theta_{i} = \displaystyle\int_{b}^{a} \frac{1}{2} (f(\theta))^{2} \space d\theta$
$\displaystyle\int_{b}^{a} \frac{1}{2} (f(\theta))^{2} \space d\theta$
Ejemplo: Encontrar el área de la región en el plano, acotado por $f(\theta) = sen(2\theta)$, en el intervalo $[0,\frac{\pi}{2}]$.
La gráfica de $f(\theta)$ sobre el intervalo $[0,\frac{\pi}{2}]$ la podemos generar en la , de esta manera el área de la función es:
$\displaystyle\int_{0}^{\frac{\pi}{2}} \frac{1}{2} (sen(2\theta))^{2} \space d\theta = \frac{1}{2} \displaystyle\int_{0}^{\frac{\pi}{2}} (sen^{2}(2\theta)) \space d\theta $
Usando la identidad $cos^{2}(u) + sen^{2}(u) = 1$
$= \frac{1}{2} \displaystyle\int_{0}^{\frac{\pi}{2}} (1-cos^{2}(2\theta)) \space d\theta = \frac{1}{2} \left[ \displaystyle\int_{0}^{\frac{\pi}{2}} 1 \space d\theta - \displaystyle\int_{0}^{\frac{\pi}{2}} cos^{2}(2\theta) \space d\theta \right] $
Usando la identidad $cos^{2}(u) = \frac{1}{2} + \frac{1}{2} cos(2u)$
$=\frac{1}{2} \left[ \displaystyle\int_{0}^{\frac{\pi}{2}} 1 \space d\theta - \displaystyle\int_{0}^{\frac{\pi}{2}} \left(\frac{1}{2} + \frac{1}{2}cos(4\theta)\right) \space d\theta \right] $
$= \frac{1}{2} \left[ \displaystyle\int_{0}^{\frac{\pi}{2}} 1 \space d\theta - \displaystyle\int_{0}^{\frac{\pi}{2}} \frac{1}{2} \space d\theta - \displaystyle\int_{0}^{\frac{\pi}{2}} \frac{1}{2}cos(4\theta) \space d\theta \right] $
$= \frac{1}{2} \left[\displaystyle\int_{0}^{\frac{\pi}{2}} \frac{1}{2} \space d\theta - \frac{1}{2} \displaystyle\int_{0}^{\frac{\pi}{2}} cos(4\theta) \space d\theta \right] $
Hacemos el cambio de variable $u = 4x$ y $\frac{du}{d\theta} = 4 \rightarrow d\theta = \frac{1}{4}$
$= \frac{1}{2} \left[ \displaystyle\int_{0}^{\frac{\pi}{2}} \frac{1}{2} d\theta - \frac{1}{2} \displaystyle\int_{0}^{2\pi} \frac{1}{4} cos(u) \space du\right] = \frac{1}{2} \left[ [\frac{1}{2}x]_{0}^{\frac{\pi}{2}} - \frac{1}{8} [sen(u)]_{0}^{2\pi} \right]$
$= \frac{1}{2} \left[ \frac{1}{2}[\frac{\pi}{2} - 0] - \frac{1}{8}[0 - 0] \right] = \frac{1}{2} \left[ \frac{\pi}{4} \right] = \frac{\pi}{8}$
Por lo tanto el área de la región acotada por$f(\theta) = sen(2\theta)$, en el intervalo $[0,\frac{\pi}{2}]$ es $\frac{\pi}{8}$.
Supongamos que una partícula se mueve en el espacio en un intervalo de tiempo $I$. Podemos pensar que las coordenadas de la partícula están descritas como las funciones definidas en $I$:
$x = x(t) \hspace5ex y = y(t) \hspace5ex z= z(t) \hspace5ex t \in I$
Los puntos $(x,y,z) = (x(t),y(t),z(t)), t \in I$, forman una curva en el espacio, que llamaremos la trayectoria de la partícula y las ecuaciones $x(t)$, $y(t)$, $z(t)$ parametrizan la curva. Una curva en el espacio también puede representarse en forma vectorial. Por ejemplo, el vector en coordenadas cartesianas y en tres dimensiones
$\overrightarrow{r(t)} = x(t)\overrightarrow{i} + y(t)\overrightarrow{j} + z(t)\overrightarrow{k}$
que va del origen a la posición de la partícula $(x(t), y(t), z(t))$ en el instante $t$ es llamado vector de posición de la partícula, donde las funciones $x(t), y(t), z(t)$ son las funciones componentes del
vector posición y $\overrightarrow{i},\overrightarrow{j},\overrightarrow{k}$ son los vectores unitarios de los ejes.
En el caso de que se esté trabajando en dos dimensiones la fórmula se simplifica como
$\overrightarrow{r(t)} = x(t)\overrightarrow{i} + y(t)\overrightarrow{j}$
En la podemos observar la trayectoria de una partícula a lo largo del tiempo $t$, dadas las funciones componentes del vector de posición $\overrightarrow{r(t)}$ .
El concepto de velocidad está asociado al cambio de posición de una partícula a lo largo del tiempo. A Continuación analizaremos la velocidad y aceleración utilizando diferenciación.
Supongamos que $\overrightarrow{r}(t) = x(t)\overrightarrow{i} + y(t)\overrightarrow{j} + z(t)\overrightarrow{k}$ es el vector de posición de una partícula que se mueve a lo largo de una curva, y que $x(t),y(t),z(t)$ son funciones diferenciables de $t$. Podríamos pensar que la velocidad de la partícula es igual a la distancia total recorrida entre el tiempo que le tomó realizar el recorrido, sin embargo esto no es más que la velocidad promedio ya que es posible que la partícula en algún momento haya ido más rápido y en otro momento más lento.
Entonces para tener una idea más precisa de cómo fue el movimiento podríamos dividir la trayectoria de la partícula en etapas y ver el tiempo que le tomó a la partícula recorrer esa etapa. Si denotamos con $\varDelta r$ al cambio de posición y con $\varDelta t$ el tiempo empleado para realizar este cambio tenemos lo siguiente:
$\varDelta r = \overrightarrow{r}(t + \varDelta t) - \overrightarrow{r}(t)$
Que en términos de sus componentes es igual a
$\varDelta r = \overrightarrow{r}(t + \varDelta t) - \overrightarrow{r}(t)$
$ = [x(t + \varDelta t )\overrightarrow{i} + y(t + \varDelta t )\overrightarrow{j} + z(t + \varDelta t ) \overrightarrow{k}] - [ x(t)\overrightarrow{i} + y(t)\overrightarrow{j} + z(t)\overrightarrow{k}]$
$= [x(t + \varDelta t) - x(t))]\overrightarrow{i} + [y(t + \varDelta t) - y(t))]\overrightarrow{j} + [z(t + \varDelta t) - z(t))]\overrightarrow{k}$
Claramente mientras más pequeño sea el intervalo de tiempo en el que dividimos la etapas mayor será la precisión, por lo tanto podemos decir que la velocidad instantánea es el límite cuando $t$ tiende a cero del cociente entre la trayectoria de $\varDelta r$ y el tiempo empleado, es decir
$\lim\limits_{\varDelta t \rightarrow 0} \frac{\varDelta r}{\varDelta t} = [\lim\limits_{\varDelta t\rightarrow 0} \frac{x(t + \varDelta t) - x(t)}{\varDelta t}] \overrightarrow{i} + [\lim\limits_{\varDelta t \rightarrow 0} \frac{y(t + \varDelta t) - y(t)}{\varDelta t}] \overrightarrow{j} + [\lim\limits_{\varDelta t \rightarrow 0} \frac{z(t + \varDelta t) - z(t)}{\varDelta t}] \overrightarrow{k}$
$= [\frac{dx}{dt} ]\overrightarrow{i} + [\frac{dy}{dt}]\overrightarrow{j}+ [\frac{dz}{dt}] \overrightarrow{k}$
Con lo que obtenemos la siguiente definición
$\overrightarrow{r}(t)' = \frac{d\overrightarrow{r}}{dt} = \lim\limits_{\varDelta t \rightarrow 0} \frac{\overrightarrow{r}(t + \varDelta t) - \overrightarrow{r}(t)}{\varDelta t} = \frac{dx}{dt}\overrightarrow{i} + \frac{dy}{dt} \overrightarrow{j} + \frac{dz}{dt} \overrightarrow{j}$
Observe en la que para valores pequeños de $\varDelta t$ el vector
$\frac{\overrightarrow{r}(t + \varDelta t) - \overrightarrow{r}(t)}{\varDelta t} \quad(\text{1})$
aproxima la dirección de la partícula que se mueve a lo largo de la curva $\overrightarrow{r}(t)$ (tiende a un vector tangente a la curva en $\overrightarrow{r}(t)$). Su magnitud mide el tamaño del vector $\varDelta r$, por lo tanto el vector (1) nos da la velocidad promedio durante el intervalo de tiempo de longitud $\varDelta t$, y su límite es el vector de velocidad $v(t)$ en el tiempo $t$, ya que para un $\varDelta t$ infinitamente pequeño podemos calcular la velocidad instantánea de la partícula. Por lo tanto
$\overrightarrow{v}(t) = \lim\limits_{\varDelta t \rightarrow 0} = \frac{\overrightarrow{r}(t + \varDelta t) - \overrightarrow{r}(t)}{\varDelta t}$
Que por la , es justamente la derivada de $\overrightarrow{r}(t)$.
$\overrightarrow{v}(t) = \frac{d\overrightarrow{r}}{dt} = \overrightarrow{r}(t)'$
es el vector de velocidad de la partícula, tangente a la curva. En cualquier instante $t$, la dirección de $v$ es la dirección del movimiento, la magnitud de $v$ es la rapidez de la partícula y la derivada $a = \frac{d\overrightarrow{v}}{dt}$, cuando existe, es el vector de aceleración de la partícula. En resumen
$v = \frac{d\overrightarrow{r}}{dt}$
Rapidez $= ||v||$
Ejemplo: Una persona en una motocicleta se mueve en una trayectoria con un vector de posición $\overrightarrow{r}(t) = 3t^2 \overrightarrow{i} + 2t + 3 \overrightarrow{j}$, para $0 \leq t \leq 3$. Determine
Tenemos que el vector de posición de la motocicleta es
$\overrightarrow{r}(t) = 3t^2 \overrightarrow{i} + 2t + 3 \overrightarrow{j}$
Para calcular el vector de velocidad, calculamos su derivada, es decir
$\overrightarrow{v}(t) = \overrightarrow{r}'(t) = \frac{d\overrightarrow{r}}{dt} = 6t \overrightarrow{i} + 2 \overrightarrow{j}$
Para calcular la velocidad instantánea cuando $t = 3$ sustituimos el valor de $t$ en los componentes del vector de velocidad, es decir
$\overrightarrow{v}(3) = 6(3) \overrightarrow{i} + 2 \overrightarrow{j} = 18 \overrightarrow{i} + 2 \overrightarrow{j} \space m/s$
Ahora calcularemos la rapidez que tiene la motocicleta en el instante $t = 3$, para eso calculamos la norma del vector de velocidad en el instante $t = 3$ (el inciso anterior), es decir
$||\overrightarrow{v}(3)|| = \sqrt{18^2 + 2^2} = \sqrt{328} \simeq 18.11 m/s$
En el ejemplo anterior hemos calculado la rapidez instantánea de la motocicleta cuando $t = 3$ utilizando el vector de velocidad, esto es posible gracias a que estamos calculando la derivada de $\overrightarrow{r}(t)$, es decir considerando un cambio de posición en un intervalo de tiempo infinitamente pequeño de tal forma que la rapidez en ese ínfimo intervalo de tiempo es constante.
Sin embargo es posible que solo queramos obtener la rapidez promedio de la motocicleta en el intervalo de tiempo que va de $t_{1}$ a $t_{2}$. En este caso no calculamos el vector de velocidad como la derivada de $\overrightarrow{r}(t)$, sino que lo calculamos como el promedio entre la trayectoria recorrida y el tiempo total utilizado para realizar el desplazamiento, es decir
Velocidad promedio = $\frac{\overrightarrow{r}(t_{2}) - \overrightarrow{r}(t_{1})}{t_{2}-t_{1}}$
Ahora calculemos la velocidad y rapidez promedio de la motocicleta del ejemplo anterior, cuando $t_{1} = 0$ y $t_{2} = 3$. Aplicando la fórmula de la velocidad promedio tenemos que
$\overrightarrow{v}_{prom} = \frac{\overrightarrow{r}(3) - \overrightarrow{r}(0)}{3-0} = \frac{3(3)^2 \overrightarrow{i} + 2(3) + 3 \overrightarrow{j} - 3(0)^{2} \overrightarrow{i} + 2(0) + 3 \overrightarrow{j}}{3}$
$= \frac{3(9) \overrightarrow{i} + 6 + 3 \overrightarrow{j} - 3(0) \overrightarrow{i} + 0 + 3 \overrightarrow{j}}{3} = \frac{27 \overrightarrow{i} + 6 \overrightarrow{j}}{3}$
$= 9 \overrightarrow{i} + 2 \overrightarrow{j} \space m/s$
Para calcular la rapidez promedio calculamos la norma del vector de velocidad promedio, es decir
$||\overrightarrow{v}_{prom}|| = \sqrt{9^{2} + 2^{2}} = \sqrt{81 + 4} = \sqrt{85} \simeq 9.2 m/s$
En la podemos observar la comparación entre la rapidez promedio y la rapidez instantánea del ejemplo anterior.
En esta sección se usarán las integrales definidas para explicar cómo se calcula la longitud de arco de una curva tanto en coordenadas cartesianas como en coordenadas polares.
La longitud de arco, también llamada rectificación de una curva, es la medida de la distancia recorrida a lo largo de una curva suave y rectificable.
Supongamos que tenemos una curva $C$ rectificable cualquiera determinada por una función $f(x)$ que va del punto $a$ al punto $b$, y que queremos aproximar su longitud de arco. Pensando en esto podemos diseñar una aproximación a partir de una serie de triángulos rectángulos cuyas hipotenusas concatenadas cubran el arco de la curva. Para esto tomamos una partición regular $p = [x_{0},x_{1},...,x_{n}]$ en el intervalo $[a,b]$, tal que para $i = 1,2,...,n$ construimos un segmento de recta $s_{i}$ que va del punto $(x_{i-1},f(x_{i-1}))$ al punto $(x_{i},f(x_{i}))$.
Los segmento $s_{i}$ los podemos ver como la hipotenusa de los triángulos rectángulos donde el cateto opuesto es igual al segmento que va de $(x_{i},f(x_{i}))$ a $(x_{i},f(x_{i-1}))$ y el cateto adyacente es el segmento que va de $(x_{i-1},f(x_{i-1}))$ a $(x_{i},f(x_{i-1}))$ como podemos ver en la .
Entonces, si calculamos la longitud de cada $s_{i}$ (la hipotenusa de cada uno de los triángulos) y las sumamos, obtenemos una aproximación de la longitud del arco. Ahora, si denotamos a la longitud de cada $s_{i}$ como $\varDelta s_{i}$, a la longitud del cateto opuesto como $\varDelta y_{i}$ y a la longitud del cateto adyacente como $\varDelta x_{i}$ podemos utilizar el Teorema de Pitágoras para calcular la longitud de cada $s_{i}$ de la siguiente manera
$\varDelta s_{i}^{2} = \varDelta x_{i}^{2} + \varDelta y_{i}^{2}$
$\Rightarrow \varDelta s_{i} = \sqrt{\varDelta x_{i}^{2} + \varDelta_{i}^{2}} $
Por lo que la aproximación de la longitud del arco es
$L = \displaystyle\sum_{i=1}^n \sqrt{\varDelta x_{i}^{2} + \varDelta y_{i}^{2}}$
$= \displaystyle\sum_{i=1}^n \sqrt{\varDelta x_{i}^{2} + \left(\frac{\varDelta y_{i}}{\varDelta x_{i}}\right)^{2} \varDelta x_{i}^{2}} $
$= \displaystyle\sum_{i=1}^n \sqrt{1 + \left(\frac{\varDelta y_{i}}{\varDelta x_{i}}\right)^{2}} \cdot \varDelta x_{i}$
Esta aproximación mejora cuando el número de segmento $s_{i}$ generados por la partición regular $p = [x_{0},x_{1},...,x_{n}]$ tiende a infinito, ya que los segmentos $s_{i}$ son cada vez más pequeños haciendo que se apeguen mejor al arco de la curva. Entonces al aplicar el límite cuando el número de segmentos $s_{i}$ tiende a infinito obtenemos lo siguiente.
$L = \lim\limits_{n \rightarrow \infty} \displaystyle\sum_{i=1}^n \sqrt{1 + \left(\frac{\varDelta y_{i}}{\varDelta x_{i}}\right)^{2}} \varDelta x_{i}$
Como $f'(x)$ existe para todo $x$ en $(x_{i-1},x_{i})$, entonces por el teorema del valor medio () sabemos que existe un $x_{i}^{*}$ en $(x_{i-1},x_{i})$ tal que
$f'(x_{i}^{*}) = \frac{f(x_{i}) - f(x_{i-1})}{x_{i} - x_{i-1}} = \frac{\varDelta y_{i}}{\varDelta x_{i}}$
Por lo tanto
$L = \lim\limits_{n \rightarrow \infty} \displaystyle\sum_{i=1}^n \sqrt{1 + [f'(x_{i}^{*})]^{2} } \varDelta x_{i}$
Y que por la definición de la integral definida esto no es más que:
$\displaystyle\int_{a}^{b} \sqrt{1 + [f'(x)]^{2}} dx$
$\displaystyle\int_{a}^{b} f(x) dx = \lim\limits_{n \rightarrow \infty} \displaystyle\sum_{i=1}^n f'(x_{i}^{*}) \varDelta x $
En la podemos ver como la aproximación mejora mientras más segmentos tomemos para aproximar la longitud de arco.
$L = \displaystyle\int_{a}^{b} \sqrt{1 + [f'(x)]^{2}} dx$
Similarmente, para una curva suave dada por $x = f(y)$ que representa una curva suave en el intervalo $[a,b]$. La longitud de arco de $f(y)$ entre $c$ y $d$ es
$L = \displaystyle\int_{c}^{d} \sqrt{1 + [f'(y)]^{2}} dy$
Ejemplo: Determine la longitud de arco de la curva determinada por $f(x) = x^{\frac{3}{2}}$ en el intervalo $[1,3]$
La curva que representa la función $f(x)$ la podemos ver en la . Ahora, utilizando la definición de la longitud de arco resolvemos la siguiente integral
$ \displaystyle\int_{1}^{3} \sqrt{1 + [(x^{\frac{3}{2}})']^{2}} dx$
Donde $(x^{\frac{3}{2}})' = \frac{3}{2} x^{\frac{1}{2}}$, entonces
$ \displaystyle\int_{1}^{3} \sqrt{1 + [\frac{3}{2} x^{\frac{1}{2}}]^{2}} dx = \displaystyle\int_{1}^{3} \sqrt{1 + \frac{9}{4}x} dx$
Haciendo el cambio de variable $u = 1 + \frac{9}{4}x $ y $\frac{du}{dt} = \frac{9}{4} \rightarrow dx = \frac{4}{9} \space du$
$ = \displaystyle\int_{\frac{13}{4}}^{\frac{31}{4}} \frac{4}{9} \sqrt{u} \space du = \displaystyle\int_{\frac{13}{4}}^{\frac{31}{4}} \frac{4}{9} u^{\frac{1}{2}} \space du = \frac{4}{9} \left[\frac{u^{\frac{3}{2}}}{\frac{3}{2}} \right]_{\frac{13}{4}}^{\frac{31}{4}} $
$ = \frac{4}{9} \left[\frac{2u^{\frac{3}{2}}}{3} \right]_{\frac{13}{4}}^{\frac{31}{4}} \simeq \frac{4}{9} \cdot [(14.38 - 3.90)] \simeq \frac{4}{9} \cdot [10.48] \simeq 4.66$
Entonces la longitud de arco de la curva determinada por $f(x) = x^{\frac{3}{2}}$ en el intervalo $[1,3]$ es aproximadamente $4.66$.
Ahora veremos como calcular la longitud de arco en curvas parametrizadas. Al igual que en coordenadas cartesianas primero haremos una aproximación utilizando segmentos de recta y después utilizaremos integrales para obtener la fórmula de la longitud de arco.
Sea $C$ una curva dada en forma paramétrica por medio de las ecuaciones
$x = f(t) \hspace5ex y = g(t), \hspace7ex a \leq t \leq b$
Si suponemos que $f(t)$ y $g(t)$ son funciones con derivadas continuas en el intervalo $[a,b]$, cuyo valor no es igual a cero simultáneamente, decimos que tales funciones son continuamente diferenciables y la curva $C$ definida por ellas se denomina curva suave.
Entonces para definir la fórmula de la longitud podemos imaginar que la curva $C$ es la trayectoria de una partícula que se mueve del punto $A = (f(a), g(a))$ en el instante $t = a$, al punto $B = (f(b), g(b))$ en el instante $t = b$. Ahora dividimos la curva en $n$ partes en los puntos $A = P_{0},P_{1},...,P_{n} = B$. Estos puntos corresponden a una partición regular $p = [t_{0},t_{1},...,t_{n}]$ en el intervalo $[a,b]$, donde $P_{i} = (f(t_{i}),g(t_{i}))$. Entonces para $i = 1,2,...,n$ construimos un segmento de recta $s_{i}$ que va del punto $P_{i-1}$ al punto $P_{i}$ como se ve en la .
Si pensamos en estos segmentos como la hipotenusa de un triángulo rectángulo podemos utilizar el Teorema de Pitágoras para calcular su longitud como sigue
$L_{i} = \sqrt{(\varDelta x_{i})^{2} + (\varDelta y_{i})^{2}}$
Donde $\varDelta x_{i} = f(t_{i})- f(t_{i-1})$ y $\varDelta y_{i} = g(t_{i}) - g(t_{i-1}) $. Notemos que mientras más pequeña sea la longitud $L_{i}$ el segmento de recta se apega mejor a la curva.
De acuerdo con el teorema del valor intermedio () existen números $t_{i}^{*}, t_{i}^{**}$ en $[t_{i-1},t_{i}]$, tales que
$\varDelta x_{i} = f'(t_{i}^{*}) \varDelta t_{i}$
$\varDelta y_{i} = g'(t_{i}^{**}) \varDelta t_{i}$
Suponiendo que la trayectoria de $A$ a $B$ se recorre exactamente una vez cuando $t$ aumenta de $t = a$ a $t = b$, entonces la longitud de arco de la curva $C$ es igual a la suma de todos los segmentos, entonces
Longitud de arco $\simeq \displaystyle\sum_{i=1}^n \sqrt{(\varDelta x_{i})^{2} + (\varDelta y_{i})^{2}} = \displaystyle\sum_{i=1}^n \sqrt{([f'(t_{i}^{*}) ]^{2} + [g'(t_{i}^{**}) ]^{2}} \varDelta t_{i}$
Esta aproximación mejora mientras más particiones tengamos, es decir mientras más grande sea el valor de $n$. Entonces si a la suma de los segmentos $s_{i}$ le aplicamos el límite cuando $n \rightarrow \infty$ podemos definir la longitud de arco de la curva como la siguiente integral
Longitud de arco $ = \displaystyle\int_{a}^{b} \sqrt{([f'(t) ]^{2} + [g'(t) ]^{2}} \space dt $
$L = \displaystyle\int_{a}^{b} \sqrt{([f'(t) ]^{2} + [g'(t) ]^{2}} \space dt$
En la podemos ver como la aproximación mejora mientras más segmentos nos tomemos para aproximar la longitud de arco de una curva parametrizada.
Una curva suave $C$ no pasa dos veces por el mismo lugar ni invierte dirección del movimiento en el intervalo $[a,b]$, ya que $(f')^{2} + (g')^{2} > 0$ en todo el intervalo. Entonces si $x = f(t)$ y $y = g(t)$ y utilizamos la notación de Leibniz obtenemos la siguiente fórmula equivalente
L $= \displaystyle\int_{a}^{b} \sqrt{ \left(\frac{dx}{dt}\right)^{2} + \left(\frac{dy}{dt}\right)^{2}} \space dt$
Ejemplo: Determine la longitud de arco de la curva parametrizada por $x = 1+3t^{2}$ y $y = 4+2t^{3}$, cuando $0 \leq t \leq 1$
La gráfica de la curva parametrizada la podemos generar en la . Entonces utilizando la resolvemos la siguiente integral
$L = \displaystyle\int_{0}^{1} \sqrt{([(1+3t^{2})']^{2} + [(4+2t^{3})']^{2}} \space dt$
Donde $(1+3t^{2})' = 6t$ y $(4+2t^{3})' = 6t^{2}$, entonces
$L = \displaystyle\int_{0}^{1} \sqrt{[6t]^{2} + [6t^{2}]^{2}} \space dt = \displaystyle\int_{0}^{1} \sqrt{ 36t^{2} + 36t^{4}} \space dt$
$ = \displaystyle\int_{0}^{1} \sqrt{ 36t^{2}(1 + t^{2})} \space dt = \displaystyle\int_{0}^{1} 6t \sqrt{ 1 + t^{2} } \space dt$
Haciendo el cambio de variable $u = 1+t^{2}$ y $\frac{du}{dt} = 2t \rightarrow dt = \frac{1}{2t}du$
$= \displaystyle\int_{1}^{2} \frac{6t}{2t} \sqrt{u } \space du = 3 \cdot \displaystyle\int_{1}^{2} \sqrt{u } \space du = 3 \cdot \displaystyle\int_{1}^{2} u^{\frac{1}{2}} \space du $
$ =[\frac{3u^{\frac{3}{2}}}{\frac{3}{2}}]_{1}^{2} = [2u^{\frac{3}{2}}]_{1}^{2} = 2[2.8 - 1] \simeq 3.6$
Por lo tanto la longitud de la curva parametrizada por $x = 1+3t^{2}$ y $y = 4+2t^{3}$, cuando $0 \leq t \leq 1$ es aproximadamente $3.6$
Ahora veremos como calcular la longitud de arco en curvas polares. Como ya vimos en la sección 2.3 podemos parametrizar las curvas polares, es por eso que podemos deducir la fórmula de la longitud de arco de una curva polar utilizando la definición de longitud de arco para curvas paramétricas como veremos a continuación.
En la podemos ver cómo aproximar las curvas polares por medio de segmentos de recta para después obtener la fórmula de la longitud de arco utilizando integrales como hemos venido haciendo a lo largo de esta sección.
Como vimos anteriormente podemos parametrizar las curvas polares $r = f(\theta)$, $a \leq \theta \leq b$ con
$x = rcos(\theta) = f(\theta) cos(\theta) \hspace5ex y = rsen(\theta) = f(\theta) sen(\theta)$
Entonces, si utilizamos la fórmula en notación de Leibniz para calcular la longitud de arco de una curva parametrizada obtenemos lo siguiente
L $= \displaystyle\int_{b}^{a} \sqrt{\left(\frac{dx}{d\theta}\right)^{2} + \left(\frac{dy}{d\theta}\right)^{2}} \space d\theta $
Donde
$\frac{dx}{d\theta} = r'cos(\theta) - rsen(\theta)$
$\frac{dy}{d\theta} = r' sen(\theta) + rcos(\theta)$
Por lo que
$(\frac{dx}{d\theta})^{2} = (r')^{2} cos^{2}(\theta) + r^{2}sen^{2}(\theta) - 2rr'sen(\theta)cos(\theta)$
$(\frac{dy}{d\theta})^{2} = (r')^{2} sen^{2}(\theta) + r^{2}cos^{2}(\theta) - 2rr'sen(\theta)cos(\theta)$
Sumando los cuadrados obtenemos
$(\frac{dx}{d\theta})^{2} + (\frac{dy}{d\theta})^{2} = r^{2} + (\frac{d\overrightarrow{r}}{d\theta})^{2}$
Finalmente la longitud de arco de una curva polar es
L $= \displaystyle\int_{b}^{a} \sqrt{r^{2} + \left(\frac{d\overrightarrow{r}}{d\theta}\right)^{2}} d\theta $
$\displaystyle\int_{b}^{a} \sqrt{r^{2} + \left(\frac{d\overrightarrow{r}}{d\theta}\right)^{2}} d\theta$
Ejemplo: Calcular la longitud de arco de la curva polar $r = 2cos(\theta)$, con $0 \leq \theta \leq \pi$.
La gráfica de $r = 2cos(\theta)$ la podemos generar en la , y como podemos ver es un círculo de radio $1$. Entonces si
$r = 2cos(\theta)\hspace5ex \frac{d\overrightarrow{r}}{d\theta} = -2sen(\theta)$
Tenemos que
$\displaystyle\int_{0}^{\pi} \sqrt{(2cos(\theta))^{2} + (-2sen(\theta))^{2}} \space d\theta$
$= \displaystyle\int_{0}^{\pi} \sqrt{4cos^{2}(\theta) + 4sen^{2}(\theta)} \space d\theta$
$= \displaystyle\int_{0}^{\pi} \sqrt{4(cos^{2}(\theta) + sen^{2}(\theta))} \space d\theta$
Que por la identidad trigonométrica $cos^{2}(\theta) + sen^{2}(\theta) = 1$
$= \displaystyle\int_{0}^{\pi} \sqrt{4(1)} \space d\theta = \displaystyle\int_{0}^{\pi} 2 \space d\theta$
$= [2\theta]_{0}^{\pi} = 2\pi - 0 = 2\pi$
Por lo tanto la longitud de arco de la curva polar $r = 2cos(\theta)$, con $0 \leq \theta \leq \pi$ es $2\pi$. Que justamente es el diámetro de un círculo de radio $1$.
Las curvas en el espacio son una generalización de las curvas en el plano. Toda curva en $ℝ^{3}$ se puede considerar como la imagen de una función vectorial $\overrightarrow{r}(t): (a,b) \rightarrow ℝ^{3}$ (con $\overrightarrow{r}$ el vector de posición de la curva) y es de la forma
$\overrightarrow{r}(t) = x(t)\overrightarrow{i} + y(t)\overrightarrow{j} + z(t)\overrightarrow{k} =(x(t),y(t),z(t))$
que recibe el nombre de parametrización de la curva, donde $a \leq t \leq b$.
Al igual que las curvas planas la idea es primero calcular una aproximación dividiendo la curva en pequeños segmentos y sumando la longitud de cada uno de ellos. Cuantos más segmentos se escoja mejor será la aproximación, por lo tanto al aplicar el límite cuando el número de segmentos tiende a infinito obtenemos una integral definida. Es por eso que podemos definir la longitud de arco de una curva en el espacio de manera similar que en la , es decir.
$L = \displaystyle\int_{a}^{b} \sqrt{([x'(t) ]^{2} + [y'(t) ]^{2} + [z'(t) ]^{2}} \space dt$
Si utilizamos la notación de Leibniz podemos reescribir la fórmula como
$L = \displaystyle\int_{a}^{b} \sqrt{ \left(\frac{dx}{dt}\right)^{2} + \left(\frac{dy}{dt}\right)^{2} + \left(\frac{dz}{dt}\right)^{2}} \space dt$
Como la derivada del vector de posición $\overrightarrow{r}(t)$ () es
$\overrightarrow{r}(t)' = \frac{dx}{dt}\overrightarrow{i} + \frac{dy}{dt} \overrightarrow{j} + \frac{dz}{dt} \overrightarrow{j}$
entonces la longitud de arco la podemos escribir como la norma de $\overrightarrow{r}(t)'$, que no es otra cosa que la norma del vector de velocidad (definición 3.2)
$L = \displaystyle\int_{a}^{b} ||\overrightarrow{r}(t)'|| \space dt = \displaystyle\int_{a}^{b} ||\overrightarrow{v}(t)|| \space dt$
Hemos visto que las curvas en el espacio pueden expresarse por medio de funciones vectoriales. Para el movimiento a lo largo de una curva el parámetro adecuado es el tiempo $t$. Sin embargo cuando se quieren estudiar propiedades geométricas de una curva el parámetro adecuado por lo general es el parámetro de arco $s$.
Si elegimos un punto base $P(t_{0})$ sobre una curva $C$ parametrizada por $t$ en el intervalo $[a,b]$, cada valor de $t$ determina un punto $P(t) = (x(t),y(t),z(t))$ en $C$ y una distancia dirigida que llamaremos $s(t)$, donde
$s(t) = \displaystyle\int_{t_{0}}^{t} ||\overrightarrow{r}'(\tau)|| d \tau$
La cual es medida a lo largo de $C$ desde el punto inicial $P(t_{0})$ hasta el punto $P(t)$. Usamos $\tau$ como variable de integración ya que la letra $t$ se esta usando en el limite superior. Si $t > t_{0}$, entonces $s(t)$ es la distancia recorrida del punto $P(t_{0})$ al punto $P(t)$. Si $t < t_{0}$, entonces $s(t)$ es el negativo de tal distancia.
$s(t) = \displaystyle\int_{t_{0}}^{t} \sqrt{([x'(\tau) ]^{2} + [y'(\tau) ]^{2} +
[z'(\tau)
]^{2}} \space d\tau = \displaystyle\int_{t_{0}}^{t} ||\overrightarrow{r}'(\tau)|| \space d \tau$
Usando la definición de la longitud de arco y el teorema fundamental del cálculo se concluye que
$s'(t) = \frac{ds}{dt} ( \displaystyle\int_{0}^{t} ||\overrightarrow{r}'(\tau)|| \space d\tau ) = ||\overrightarrow{r}'(t)||$
Que en su forma diferencial se escribe como
$ds = ||\overrightarrow{r}'(t)|| dt$
Además, si una curva $\overrightarrow{r}(t)$ ya está dada en términos de cierto parámetro $t$, y $s(t)$ es la longitud de arco dada por la ecuación anterior, entonces podemos expresar $t$ como función de $s:t = t(s)$.
Es por eso que la curva puede ser parametrizada en términos de $s$, sustituyéndola por $t: r = \overrightarrow{r}(s)$.
Ejemplo: Si $t_{0} = 0$, reparametrice la hélice dada por $\overrightarrow{r}(t) = cos(t) \overrightarrow{i} + sen(t) \overrightarrow{j} + t\overrightarrow{k}$ con respecto a la longitud de arco.
$s = s(t) = \displaystyle\int_{t_{0}}^{t} \sqrt{([x'(\tau) ]^{2} + [y'(\tau) ]^{2} + [z'(\tau) ]^{2}} \space d\tau $
Donde $x'(\tau) = -sen(\tau), y'(\tau) = cos(\tau), z'(\tau) = 1$ , entonces
$= \displaystyle\int_{t_{0}}^{t} \sqrt{(-sen(\tau))^{2} + (cos(\tau))^{2} + 1^{2}} \space d\tau $
$= \displaystyle\int_{t_{0}}^{t} \sqrt{sen^{2}(\tau) + cos^{2}(\tau) + 1} \space d\tau $
Usando $sen^{2}(x) = \frac{1}{2} - \frac{1}{2}cos(2x)$ y $cos^{2}(x)= \frac{1}{2} + \frac{1}{2}cos(2x) $
$\displaystyle\int_{t_{0}}^{t} \sqrt{\frac{1}{2} - \frac{1}{2}cos(2x) + \frac{1}{2} + \frac{1}{2}cos(2x) + 1} \space d\tau $
$= \displaystyle\int_{t_{0}}^{t} \sqrt{2} \space d\tau = [\sqrt{2} \tau]_{0}^{t} = [\sqrt{2} t - 0] = \sqrt{2} t $
Despejando $t$ de la ecuación tenemos que $t = \frac{s}{\sqrt{2}}$. Por último sustituimos este valor en el vector de posición $\overrightarrow{r}(t)$ para obtener la reparametrización de la hélice:
$\overrightarrow{r}(s) = cos(\frac{s}{\sqrt{2}})\overrightarrow{i} + sen(\frac{s}{\sqrt{2}})\overrightarrow{j} + \frac{s}{\sqrt{2}}\overrightarrow{k}$
Una de las ventajas de escribir una función vectorial en términos del parámetro de curva es que $||\overrightarrow{r}'(s)|| = 1$, de este modo del ejemplo anterior tenemos que
$||\overrightarrow{r}'(s)|| = \sqrt{[-sen(\frac{s}{\sqrt{2}})\frac{1}{\sqrt{2}}]^{2} + [cos(\frac{s}{\sqrt{2}})\frac{1}{\sqrt{2}}]^{2} + [\frac{1}{\sqrt{2}}]^{2}} $
$ = \sqrt{[sen^{2}(\frac{s}{\sqrt{2}})\frac{1}{2}] + [cos^{2}(\frac{s}{\sqrt{2}})\frac{1}{2}] + \frac{1}{2}} $
$ = \sqrt{\frac{1}{2}[sen^{2}(\frac{s}{\sqrt{2}}) + cos^{2}(\frac{s}{\sqrt{2}})] + \frac{1}{2}} = \sqrt{1} = 1$
De esta manera, dada una curva suave $C$ representada por $\overrightarrow{r}(s)$, donde $s$ es el parámetro de arco, la longitud de arco entre $a$ y $b$ es
$L = \displaystyle\int_{a}^{b} ||\overrightarrow{r}'(s)|| \space ds = \displaystyle\int_{a}^{b} 1 \space ds = b-a$
Lo que quiere decir que $\overrightarrow{r}(s)$ es una parametrización tal que la longitud de la curva que describe es igual al tiempo que tarda en recorrerla. De esto último obtenemos el siguiente teorema
$||\overrightarrow{r}'(s)|| = 1$
Lo que significa que $\overrightarrow{r}'(s)$ es un vector unitario tangente a la curva definida por $\overrightarrow{r}(t)$.
Un vector unitario es un vector cuya norma es igual a 1. Para un vector $\overrightarrow{v}$ distinto de $\overrightarrow{0}$, podemos utilizar la multiplicación escalar para encontrar el vector unitario $\overrightarrow{u}$ con la misma dirección que $v$ si multiplicamos el vector $\overrightarrow{v}$ por el recíproco de su magnitud, es decir
$\overrightarrow{u} = \frac{1}{||\overrightarrow{v}|} \cdot \overrightarrow{v}$
Si recordamos que la norma de un vector $\overrightarrow{v}$ multiplicado por un escalar $k$ es $||k\overrightarrow{v}|| = |k| ||\overrightarrow{v}||$ (), entonces para $\overrightarrow{u}$ tenemos que
$||\overrightarrow{u}|| = \frac{1}{||\overrightarrow{v}||} \cdot ||\overrightarrow{v}|| = 1$.
Y como vemos se cumple que la norma de $\overrightarrow{u}$ es igual a 1. Este proceso de utilizar la multiplicación escalar para encontrar el vector unitario con una dirección dada se llama normalización.
Ejemplo: Sea $\overrightarrow{v} = (2,4,4)$ un vector en $ℝ^{3}$, encuentra el vector unitario $\overrightarrow{u}$ con la misma dirección de $\overrightarrow{v}$.
Primero calculamos la norma de $\overrightarrow{v}$.
$||\overrightarrow{v}|| = \sqrt{2^{2} + 4^{2} + 4^{2}} = \sqrt{4 + 16 + 16} = \sqrt{36} = 6$
Ahora dividimos a $\overrightarrow{v}$ por su norma para obtener su vector unitario
$\overrightarrow{u} = \frac{1}{6} \cdot (2,4,4) = (\frac{2}{6},\frac{4}{6},\frac{4}{6})$
Por último comprobamos que la norma de $\overrightarrow{u}$ es igual a 1
$||\overrightarrow{u}|| = \sqrt{ \left(\frac{2}{6} \right)^{2} + \left(\frac{4}{6} \right)^{2} + \left(\frac{4}{6} \right)^{2} }= \sqrt{\frac{4}{36} + \frac{16}{36} + \frac{16}{36}} = \sqrt{\frac{36}{36}} = 1 $
Por lo tanto $\overrightarrow{u} = (\frac{2}{6},\frac{4}{6},\frac{4}{6})$ es el vector unitario con la misma dirección de $\overrightarrow{v}$.
Decimos que un vector unitario tangente es el resultado de obtener el vector unitario de un determinado vector tangente. Como se dijo en la subsección anterior, el vector $\overrightarrow{r}'(s)$ es un tangente unitario de una curva dada por $\overrightarrow{r}(t)$ y se define como sigue
$\overrightarrow{T}(s) = \overrightarrow{r}'(s)$
Ahora veamos porque $\overrightarrow{r}'(s)$ es el vector tangente unitario a la curva. Como ya vimos $\frac{ds}{dt} = s'(t) = ||\overrightarrow{r}'(t)||$, entonces podemos escribir la siguiente igualdad
$\frac{d\overrightarrow{r}}{dt} = \frac{d\overrightarrow{r}}{ds} \cdot \frac{ds}{dt}$
O bien
$\overrightarrow{r}'(t) = \overrightarrow{r}'(s) \cdot ||\overrightarrow{r}'(t)||$
Donde resolviendo para $\overrightarrow{r}'(s)$ tenemos
$\overrightarrow{r}'(s) = \frac{\overrightarrow{r}'(t)}{||\overrightarrow{r}'(t)||}$
Y como vimos en la sección 3.1, dada una curva $\overrightarrow{r}(t)$, su vector de velocidad $\frac{d\overrightarrow{r}}{dt} = \overrightarrow{v}(t) = \overrightarrow{r}'(t)$ es tangente a la curva, además por el sabemos que $||\overrightarrow{r}'(s)|| = 1$ por lo tanto concluimos que $\overrightarrow{r}'(s)$ es el vector tangente unitario a la curva $\overrightarrow{r}(t)$.
De esto último podemos reescribir la fórmula para calcular el vector tangente en términos del parámetro $t$ como sigue
$\overrightarrow{T}(t) = \frac{\overrightarrow{r}'(t)}{||\overrightarrow{r}'(t)||}$
Ejemplo: Hallar el vector tangente unitario a la curva $\overrightarrow{r}(t) = t\overrightarrow{i} +t^{2}\overrightarrow{j} +t^{3} \overrightarrow{k}$ cuando $t = 1$. La curva de $\overrightarrow{r}(t) $ la podemos ver en la .
Primero calculamos $\overrightarrow{r}'(t)$
$\overrightarrow{r}'(t) = 1\overrightarrow{i} + 2t\overrightarrow{j} + 3t^{2}\overrightarrow{k} $
Ahora calculamos su norma
$||\overrightarrow{r}'(t)|| = \sqrt{1^{2} + (2t)^{2} + (3t^{2})^{2}} = \sqrt{1 + 4t^{2} + 9t^{4}}$
Evaluamos ambos resultados cuando $t = 1$
$\overrightarrow{r}'(1) = 1\overrightarrow{i} + 2\overrightarrow{j} + 3\overrightarrow{k} $
$ ||\overrightarrow{r}'(1)|| = \sqrt{14} $
Por lo tanto el vector tangente unitario cuando $t=1$ es
$\overrightarrow{T}(1) = \frac{1\overrightarrow{i} + 2\overrightarrow{j} + 3\overrightarrow{k}}{\sqrt{14}} \simeq .267 \overrightarrow{i} + .534 \overrightarrow{j} + .801\overrightarrow{k}$
En la podemos ver el vector tangente de la curva cuando $t=1$. Por último comprobamos que $\overrightarrow{T}(1) = 1$.
$||\overrightarrow{T}(1)|| = \sqrt{\frac{1^{2}}{\sqrt{14}^{2}} + \frac{2^{2}}{\sqrt{14}^{2}} + \frac{3^{2}}{\sqrt{14}^{2}}} $
$\sqrt{\frac{1}{14} + \frac{4}{14} + \frac{9}{14}} = \sqrt{\frac{14}{14} + \frac{4}{14} } = 1$
Un uso importante del parámetro de curva es hallar la curvatura, que es la medida de cuán agudamente se dobla una curva. Para describir esto es útil usar un número, el cual se conoce como curvatura de la curva y es denotado por el símbolo $\kappa$.
Cuando una partícula se mueve a lo largo de una curva en el plano o en el espacio, $\overrightarrow{T}(t) = \frac{d\overrightarrow{r}}{ds}$ gira al doblarse la curva como podemos ver en la .
Como $\overrightarrow{T}(t)$ es un vector unitario su norma permanece constante y solo cambia su dirección cuando la partícula se mueve a lo largo de la curva. Entonces, la curvatura es la razón con la que $\overrightarrow{T}(t)$ gira por unidad a lo largo de la curva ($\frac{dT}{ds} = \overrightarrow{T}'(s)$) y se define como sigue.
$\kappa = ||\frac{d\overrightarrow{T}}{ds}|| = ||\overrightarrow{T}'(s)||$
Un buen ejemplo para entender mejor la curvatura es el círculo, ya que tiene la misma curvatura en todos sus puntos. La curvatura y el radio están relacionados inversamente, es decir mientras el radio del círculo sea más grande su curvatura es más pequeña, entonces la curvatura de un círculo con radio $r$ es $\kappa = \frac{1}{r}$, como veremos a continuación.
Ejemplo: Sea un circulo centrado en el origen definido por $\overrightarrow{r}(t) = rcos(t) \overrightarrow{i} + rsen(t) \overrightarrow{j}$. Encuentre la curvatura del circulo.
Reescribimos a $\overrightarrow{r}(t)$ en términos de su parámetro de arco
$\overrightarrow{r}(s) = rcos(\frac{s}{r}) \overrightarrow{i} + rsen(\frac{s}{r})\overrightarrow{j}$
Donde $\overrightarrow{r}'(s) = -sen(\frac{s}{r})\overrightarrow{i} + cos(\frac{s}{r})\overrightarrow{j}$, por lo que
$\overrightarrow{T}(s) = \frac{\overrightarrow{r}'(s)}{||\overrightarrow{r}'(s)||} = -sen(\frac{s}{r})\overrightarrow{i} + cos(\frac{s}{r})\overrightarrow{j}$
y la curvatura es
$||\overrightarrow{T}'(s)|| = ||-\frac{1}{r}cos(\frac{s}{r})\overrightarrow{i} - \frac{1}{r} sen(\frac{s}{r})\overrightarrow{j}|| $
$= \sqrt{(-\frac{1}{r}cos(\frac{s}{r}))^{2} + (-\frac{1}{r} sen(\frac{s}{r}))^{2}} = \sqrt{\frac{1}{r^2}cos^{2}(\frac{s}{r}) + \frac{1}{r^{2}} sen^{2}(\frac{s}{r})} $
$ = \sqrt{\frac{1}{r^2} \cdot (cos^{2}(\frac{s}{r}) + sen^{2}(\frac{s}{r}))}$
Que por la identidad $sen^{2}(x) + cos^{2}(x) = 1$
$= \sqrt{\frac{1}{r^2} \cdot (1)} = \frac{1}{r}$
En el ejemplo anterior ya vimos como calcular la curvatura aplicando directamente la definición. Como vimos primero tenemos que expresar la curva en términos de su parámetro de arco $s$, sin embargo también podemos encontrar la curvatura de una curva expresada en términos de algún parámetro $t$ arbitrario utilizando las fórmulas del siguiente teorema
$\kappa = \frac{||\overrightarrow{T}'(t)||}{||\overrightarrow{r}'(t)||} = \frac{||\overrightarrow{r}'(t) \times \overrightarrow{r}''(t)||}{||\overrightarrow{r}'(t)||^{3}}$
Como sabemos $||\overrightarrow{r}'(t)|| = \frac{ds}{dt}$, por lo que la primera fórmula implica que la curvatura es el cociente de la tasa de cambio del vector $\overrightarrow{T}(t)$ entre la tasa de cambio de la longitud de arco. Para entender esto consideremos un número pequeño $\varDelta t$, entonces
$\frac{\overrightarrow{T}'(t)}{\frac{ds}{dt}} \simeq \frac{\frac{\overrightarrow{T}'(t+\varDelta t) - \overrightarrow{T}(t)}{\varDelta t}}{\frac{s(t + \varDelta t) - s(t)}{\varDelta t}} = \frac{\overrightarrow{T}'(t+\varDelta t) - \overrightarrow{T}(t)}{s(t + \varDelta t) - s(t)} = \frac{\varDelta \overrightarrow{T}}{\varDelta s} = \frac{d\overrightarrow{T}}{ds}$
Es decir, para algún $\varDelta s$ dado, cuanto mayor sea la longitud de $\varDelta \overrightarrow{T}$, la curva se dobla mas en $t$. En la podemos ver esto en curvas en el plano (ya que es más fácil de ver que en $ℝ^{3}$).
Ejemplo: Hallar la curvatura de la curva definida por $\overrightarrow{r}(t) = 2t\overrightarrow{i} + t^{2}\overrightarrow{j} - \frac{1}{3}t^{3}\overrightarrow{k}$.
Calculamos $||\overrightarrow{r}'(t)||$
$\overrightarrow{r}'(t) = 2\overrightarrow{i}+ 2t\overrightarrow{j} - t^{2}\overrightarrow{k}$
$||\overrightarrow{r}'(t)|| = \sqrt{2^{2} + (2t)^{2} + (-t^{2})^{2}} = \sqrt{4 + 4t^{2} + t^{4}} $
$= \sqrt{(t^2+2)^{2}} = t^{2} + 2$
Ahora calculamos $||\overrightarrow{T}'(t)||$
$ \overrightarrow{T}(t) = \frac{\overrightarrow{r}'(t)}{||\overrightarrow{r}'(t)||} = \frac{2\overrightarrow{i}+ 2t\overrightarrow{j} - t^{2}\overrightarrow{k}}{t^{2}+2}$
Donde la derivada de una división es $Q'(x) = \frac{g(x)\cdot f'(x) - g'(x)\cdot f(x)}{[g(x)]^{2}}$
$\overrightarrow{T}'(t) = \frac{(t^{2}+2)(2\overrightarrow{j} - 2t\overrightarrow{k}) - 2t (2\overrightarrow{i} + 2t\overrightarrow{j} - t^{2}\overrightarrow{k})}{(t^{2}+2)^{2}} $
$= \frac{2t^{2}\overrightarrow{j} - 2t^{3}\overrightarrow{k} + 4\overrightarrow{j} - 4t\overrightarrow{k} - 4t\overrightarrow{i} - 4t^{2}\overrightarrow{j} + 2t^{3}\overrightarrow{k} }{(t^{2}+2)^{2}} = \frac{-4t\overrightarrow{i} + (4 - 2t^{2})\overrightarrow{j} - 4t\overrightarrow{k}}{(t^{2}+2)^{2}} $
$||\overrightarrow{T}'(t)|| = \frac{\sqrt{ (-4t)^{2} + (4 - 2t^{2})^{2} + (-4t)^{2}}}{(t^{2}+2)^{2}} = \frac{\sqrt{16t^{2} + 16 - 16t^{2} + 4t^{4} + 16t^{2}}}{(t^{2}+2)^{2}} $
$= \frac{\sqrt{4(4t^{2}+4+t^{4})}}{(t^{2}+2)^{2}} = \frac{\sqrt{4 \cdot (t^{2}+2)^{2}}}{(t^{2}+2)^{2}} $
$ = \frac{2(t^{2}+2)}{(t^{2}+2)^{2}} = \frac{2}{t^{2}+2}$
Por último utilizando la formula $\kappa = \frac{||\overrightarrow{T}'(t)||}{||\overrightarrow{r}'(t)||}$ obtenemos la curvatura
$\kappa = \frac{\frac{2}{t^{2}+2}}{t^{2}+2} = \frac{2}{(t^{2}+2)^{2}}$
Un vector normal es un vector de un espacio con producto escalar que tiene la propiedad de ser ortogonal a todos los vectores tangentes a alguna entidad geométrica. Este es un concepto muy útil en el posicionamiento de una partícula móvil en el espacio como veremos más adelante.
Entre los vectores ortogonales al vector unitario tangente $\overrightarrow{T}$ de una curva hay uno de particular importancia ya que apunta en la dirección en la que gira la curva, este vector es conocido como vector normal unitario y se denota como $\overrightarrow{N}$.
Consideremos el vector tangente en términos del parámetro de arco $\overrightarrow{T}(s)$, como tiene longitud constante (igual a $1$), entonces por el la derivada $\frac{d \overrightarrow{T}}{ds}$ es ortogonal a $\overrightarrow{T}(s)$.
Ahora, si dividimos $\frac{d \overrightarrow{T}}{ds}$ entre su curvatura $\kappa$ obtenemos un vector unitario que denotaremos como $\overrightarrow{N}(s)$ y que es ortogonal a $\overrightarrow{T}(s)$, como podemos ver en la .
Entonces, la definición del vector normal unitario estaría dada como sigue.
$\overrightarrow{N}(s) = \frac{1}{\kappa}\frac{d\overrightarrow{T}}{ds} = \frac{\overrightarrow{T}'(s)}{||\overrightarrow{T}'(s)||}$
Si calculamos el vector normal unitario de una curva definida por $\overrightarrow{r}(t)$ (con $t$ un parámetro arbitrario distinto al parámetro de arco) utilizando directamente la , primero tenemos que expresar la curva en términos de su parámetro de arco, sin embargo es posible calcularlo en términos del parámetro $t$ directamente utilizando la fórmula del .
$\overrightarrow{N}(t) =
\frac{\frac{d\overrightarrow{T}}{dt}}{||\frac{d\overrightarrow{T}}{dt}||} =
\frac{\overrightarrow{T}'(t)}{||\overrightarrow{T}'(t)||}$
Esta fórmula es obtenida al utilizar la y la regla de la cadena como veremos a continuación
Vector normal unitario $= \frac{\overrightarrow{T}'(s)}{||\overrightarrow{T}'(s)||} = \frac{\frac{d\overrightarrow{T}}{ds}}{||\frac{d\overrightarrow{T}}{ds}||}$
$= \frac{(\frac{d\overrightarrow{T}}{dt})(\frac{dt}{ds})}{||\frac{d\overrightarrow{T}}{dt}|| \cdot ||\frac{dt}{ds}||} = \frac{\frac{d\overrightarrow{T}}{dt}}{||\frac{d\overrightarrow{T}}{dt}||} = \frac{\overrightarrow{T}'(t)}{||\overrightarrow{T}'(t)||}$
Ejemplo: Determine el vector normal unitario de la hélice definida por $\overrightarrow{r}(t) = arccos(t)\overrightarrow{i} + arcsen(t)\overrightarrow{j} + bt\overrightarrow{k}$
Primero calculamos $\overrightarrow{T}(t)$
$\overrightarrow{r}'(t) = -arcsen(t)\overrightarrow{i} + arccos(t)\overrightarrow{j} + b\overrightarrow{k}$
$||\overrightarrow{r}'(t)|| = \sqrt{(-arcsen(t))^{2} + (arccos(t))^{2} + b^{2}} $
$= \sqrt{a^{2}sen^{2}(t) + a^{2}cos^{2}(t) + b^{2} } = \sqrt{a^{2}(sen^{2}(t) + cos^{2}(t)) + b^{2} }$
$ = \sqrt{a^{2}(1) + b^{2} }= \sqrt{a^{2} + b^{2}}$
$\overrightarrow{T}(t) = \frac{\overrightarrow{r}(t)}{||\overrightarrow{r}(t)||} = \frac{-arcsen(t)\overrightarrow{i} + arccos(t)\overrightarrow{j} + b\overrightarrow{k}}{\sqrt{a^{2} + b^{2}}}$
Ahora calculamos $\overrightarrow{N}(t)$
$\overrightarrow{T}'(t) = \frac{-arccos(t)}{\sqrt{a^{2}+b^{2}}}\overrightarrow{i}+ \frac{-arcsen(t)}{\sqrt{a^{2}+b^{2}}} \overrightarrow{j}$
$||\overrightarrow{T}'(t)|| = \sqrt{(\frac{-arccos(t)}{\sqrt{a^{2} + b^{2}}})^{2} + (\frac{-arcsen(t)}{\sqrt{a^{2} + b^{2}}})^{2}} = \sqrt{\frac{a^{2}cos^{2}(t)}{a^{2} + b^{2}} + \frac{a^{2}sen^{2}(t)}{a^{2} + b^{2}}} $
$=\sqrt{\frac{1}{a^{2} + b^{2}}(a^{2}(cos^{2}(t) + sen^{2}(t))} = \sqrt{\frac{a^{2}}{a^{2}+b^{2}}} = \frac{a}{\sqrt{a^{2}+b^{2}}}$
$\overrightarrow{N}(t) = \frac{\overrightarrow{T}'(t)}{||\overrightarrow{T}'(t)||} = \frac{\frac{-arccos(t)}{\sqrt{a^{2}+b^{2}}}\overrightarrow{i}}{\frac{a}{\sqrt{a^{2}+ b^{2}}}} + \frac{\frac{-arcsen(t)}{\sqrt{a^{2}+b^{2}}} \overrightarrow{j}}{\frac{a}{\sqrt{a^{2}+b^{2}}}}$
$= -cos(t)\overrightarrow{i} - sen(t)\overrightarrow{j}$
Por ultimo comprobemos que $\overrightarrow{T}(t) \cdot \overrightarrow{N}(t) = 0$
$(\frac{-arcsen(t)}{\sqrt{a^{2}+b^{2}}}\overrightarrow{i}, \frac{arccos(t)}{\sqrt{a^{2}+b^{2}}}\overrightarrow{j}, \frac{b}{\sqrt{a^{2}+b^{2}}}\overrightarrow{k}) \cdot (-cos(t)\overrightarrow{i}, -sen(t)\overrightarrow{j},0\overrightarrow{k})$
$= \frac{-arcsen(t)\cdot-cos(t)}{\sqrt{a^{2}+b^{2}}} + \frac{arccos(t)\cdot-sen(t)}{\sqrt{a^{2}+b^{2}}} + 0 $
$ = \frac{arcsen(t)\cdot cos(t) - arccos(t) \cdot sen(t) }{\sqrt{a^{2}+b^{2}}} $
$= \frac{a\cdot (sen(t)\cdot cos(t) - cos(t)\cdot sen(t))}{\sqrt{a^{2}+ b^{2}}} = \frac{a\cdot0}{\sqrt{a^{2}+b^{2}}} = \frac{0}{\sqrt{a^{2}+b^{2}}} = 0$
Que por la se cumple que $\overrightarrow{N}(t)$ y $\overrightarrow{T}(t)$ son ortogonales.
El vector binormal de una curva en el espacio es $\overrightarrow{B}(s) = \overrightarrow{T}(s)$ x $\overrightarrow{N}(s)$, y es un vector que es ortogonal tanto a $\overrightarrow{T}(s)$ como a $\overrightarrow{N}(s)$. En la podemos ver como el vector binormal de una hélice es ortogonal a los vectores normal y tangente.
Los vectores $\overrightarrow{T}(s), \overrightarrow{N}(s), \overrightarrow{B}(s)$ juegan un papel significativo en el cálculo de las trayectorias de partículas que se mueven en el espacio y se le llama marco de Frenet o marco TBN.
$\overrightarrow{B}(s) = \overrightarrow{T}(s)$ x $\overrightarrow{N}(s)$
Al igual que en el caso del vector normal, podemos calcular el vector binormal de una curva con algún parámetro $t$ arbitrario sin necesidad de aplicar directamente la definición si utilizamos la regla de la cadena, es decir
$\overrightarrow{B}(t) = \overrightarrow{T}(t) $ x $\overrightarrow{N}(t)$
Ejemplo: Determine el vector binormal unitario de la hélice definida por $\overrightarrow{r}(t) = arccos(t)\overrightarrow{i} + arcsen(t)\overrightarrow{j} + bt\overrightarrow{k}$
En el ejemplo anterior ya hicimos los cálculos para obtener los vectores $\overrightarrow{T}(t)$ y $\overrightarrow{N}(t)$ , donde
$\overrightarrow{T}(t) = \frac{-arcsen(t)\overrightarrow{i}}{\sqrt{a^{2}+b^{2}}} + \frac{arccos(t)\overrightarrow{j}}{\sqrt{a^{2}+b^{2}}} + \frac{b\overrightarrow{k}}{\sqrt{a^{2}+b^{2}}} $
$\overrightarrow{N}(t) = -cos(t)\overrightarrow{i} -sen(t)\overrightarrow{j}$
Utilizamos la fórmula del para obtener el vector $\overrightarrow{B}(t)$
$\overrightarrow{T}(t)$ x $\overrightarrow{N}(t) = \begin{bmatrix}{i}&{j}&{k}\\{\frac{-arcsen(t)\overrightarrow{i}}{\sqrt{a^{2}+b^{2}}}}&{\frac{arccos(t)\overrightarrow{j}}{\sqrt{a^{2}+b^{2}}}}&{\frac{b \overrightarrow{k}}{\sqrt{a^{2}+b^{2}}}}\\{-cos(t)\overrightarrow{i}}&{-sen(t)\overrightarrow{j} }&{0\overrightarrow{k} }\end{bmatrix}$
Que por la fórmula para calcular los determinantes en matrices $3$ x $3$ tenemos que:
$\left(\begin{vmatrix}{\frac{arccos(t)}{\sqrt{a^{2}+b^{2}}}}&{\frac{b}{\sqrt{a^{2}+b^{2}}}}\\{-sen(t)}&{0}\end{vmatrix}, - \begin{vmatrix}{\frac{-arcsen(t)}{\sqrt{a^{2}+b^{2}}}}&{\frac{b}{\sqrt{a^{2}+b^{2}}} }\\{-cos(t)}&{0}\end{vmatrix}, \begin{vmatrix}{\frac{-arcsen(t)}{\sqrt{a^{2}+b^{2}}}}&{\frac{arccos(t)}{\sqrt{a^{2}+b^{2}}}}\\{-cos(t)}&{-sen(t)}\end{vmatrix}\right)$
$(\frac{bsen(t)}{\sqrt{a^{2}+b^{2}}}, -\frac{bcos(t)}{\sqrt{a^{2}+b^{2}}},\frac{a}{\sqrt{a^{2}+b^{2}}} )$
Regresando a la definición del vector binormal, como $\overrightarrow{B}(s)$ es ortogonal al $\overrightarrow{N}(s)$ y $\overrightarrow{T}(s)$, por definición del producto cruz (ver sección 1.3.1) también es un vector unitario, es decir
$||\overrightarrow{B}(s)|| = ||\overrightarrow{T}(s)$ x $\overrightarrow{N}(s)|| = ||\overrightarrow{T}(s)|| \space ||\overrightarrow{N}(s)|| sen(\theta)$
Donde $\theta$ es el ángulo que hay entre $\overrightarrow{N}(s)$ y $\overrightarrow{T}(s)$. Al ser $\overrightarrow{N}(s)$ y $\overrightarrow{T}(s)$ ortogonales, el ángulo entre ellos es $90°$, o bien $\theta = \frac{\pi}{2}$, por lo tanto concluimos que
$||\overrightarrow{B}(s)|| = (1) (1) sen(\frac{\pi}{2}) = 1$
Ahora definiremos el concepto de torsión de una curva, la cual mide el cambio de dirección del vector binormal. Cuanto más rápido cambia, más rápido gira el vector binormal alrededor del vector tangente y más retorcida aparece la curva.
Entonces, veamos como se comporta $\frac{d\overrightarrow{b}}{ds}$ con respecto a $\overrightarrow{T}(s), \overrightarrow{N}(s)$ y $\overrightarrow{B}(s)$.
$\overrightarrow{a}(t) $ x $\frac{d\overrightarrow{b}}{dt} + \frac{d\overrightarrow{a}}{dt}$ x $\overrightarrow{b}(t)$
De la regla para derivar el producto cruz () tenemos que
$\frac{d\overrightarrow{B}}{ds} = \overrightarrow{N}(s)$ x $\frac{d\overrightarrow{T}}{ds} + \frac{d\overrightarrow{N}}{ds}$ x $\overrightarrow{T}(s)$
Como $\overrightarrow{N}(s)$ es la dirección de $\frac{d\overrightarrow{T}}{ds}$, entonces $\frac{d\overrightarrow{T}}{ds}$ x $\overrightarrow{N}(s) = 0$ y
$\frac{d\overrightarrow{B}}{ds} = 0 + \frac{d\overrightarrow{N}}{ds}$ x $\overrightarrow{T}(s)$
De aquí vemos que $\frac{d\overrightarrow{B}}{ds}$ es ortogonal a $\overrightarrow{T}(s)$, ya que el producto cruz es ortogonal a sus factores. Como $\frac{d\overrightarrow{B}}{ds}$ es también ortogonal a $\overrightarrow{B}(s)$, asumimos que $\frac{d\overrightarrow{B}}{ds}$ es ortogonal al plano de $\overrightarrow{B}(s)$ y $\overrightarrow{T}(s)$. Es decir, $\frac{d\overrightarrow{B}}{ds}$ es paralelo al vector $\overrightarrow{N}(s)$, de modo que $\frac{d\overrightarrow{B}}{ds}$ es múltiplo de $\overrightarrow{N}(s)$. En símbolos
$\frac{d\overrightarrow{B}}{ds} = -\tau \overrightarrow{N}(s)$
Donde el escalar $\tau$ es la torsión a lo largo de la curva. Observe que
$\frac{d\overrightarrow{B}}{ds} \cdot \overrightarrow{N}(s) = -\tau \overrightarrow{N}(s) \cdot \overrightarrow{N}(s) = -\tau(1) = -\tau$
De modo que
$\tau = -\frac{d\overrightarrow{B}}{ds} \cdot \overrightarrow{N}(s)$
$\tau = -\frac{d\overrightarrow{B}}{ds} \cdot \overrightarrow{N}(s) =
-\overrightarrow{B}'(s) \cdot \overrightarrow{N}(s)$
Entonces si consideramos la curva como la trayectoria de una partícula en movimiento, el valor de $\tau$ nos dice que tanto la trayectoria de un cuerpo da vueltas o sale del plano formado por $\overrightarrow{T}(s)$ y $\overrightarrow{N}(s)$.
Si queremos calcular la torsión de una curva con algún parámetro $t$ arbitrario sin calcular el parámetro de arco lo podemos hacer con la fórmula del .
$\tau = -\overrightarrow{B}'(t) \cdot \overrightarrow{N}(t) = \frac{\overrightarrow{r}(t) \cdot (\overrightarrow{r}'''(t) \times \overrightarrow{r}''(t))}{||\overrightarrow{r}'(t) \times \overrightarrow{r}''(t)||^{2}} $
$=
\frac{\begin{vmatrix}{x'(t)}&{y'(t)}&{z'(t)}\\{x''(t)}&{y''(t)}&{z''(t)}\\{x'''(t)}&{y'''(t)}&{z'''(t)}\end{vmatrix}}{||\overrightarrow{r}'(t)
\times \overrightarrow{r}''(t)||^{2}}$
Ejemplo: Determine la torsión de la hélice definida por $\overrightarrow{r}(t) = arccos(t)\overrightarrow{i} + arcsen(t)\overrightarrow{j} + bt\overrightarrow{k}$
Primero calculamos $\overrightarrow{r}'(t)$, $\overrightarrow{r}''(t)$ y $\overrightarrow{r}'''(t)$, donde
$\overrightarrow{r}'(t) = -arcsen(t)\overrightarrow{i} + arccos(t)\overrightarrow{j}+ b\overrightarrow{k}$
$\overrightarrow{r}''(t) = -arccos(t)\overrightarrow{i} -arcsen(t)\overrightarrow{j}+ 0{k}$
$\overrightarrow{r}'''(t) = arcsen(t)\overrightarrow{i} - arccos(t)\overrightarrow{j}+ 0{k}$
Calculamos $\overrightarrow{r}(t) \cdot (\overrightarrow{r}'''(t) \times \overrightarrow{r}''(t))$
$\begin{vmatrix}{x'(t)}&{y'(t)}&{z'(t)}\\{x''(t)}&{y''(t)}&{z''(t)}\\{x'''(t)}&{y'''(t)}&{z'''(t)}\end{vmatrix} $
$= b(a^{2}cos^{2}(t) + a^{2}sen^{2}(t)) = a^{2}b$
Ahora calculamos $||\overrightarrow{r}'(t) \times \overrightarrow{r}''(t)||^{2}$
$||(-arcsen(t),arccos(t),b) \times (-arccos(t), -arcsen(t),0)||^{2} $
$= (a\sqrt{a^{2} + b^{2}})^{2} = a^{2}(a^{2} + b^{2})$
Por lo tanto la torsión de $\overrightarrow{r}(t)$ es
$\tau = \frac{a^{2}b}{a^{2}(a^{2} + b^{2})} = \frac{b}{a^{2} + b^{2}}$
Como sabemos una función es la relación entre dos conjuntos donde a cada elemento del primer conjunto le corresponde un solo elemento del segundo. Por ejemplo la función $y = f(x)$ genera resultados dependiendo del valor que tome la variable $x$.
Al estudiar el mundo real, estas funciones describen fenómenos que dependen de una sola variable, por ejemplo, la posición de un objeto que se define por funciones que varían respecto del tiempo $t$. Sin embargo existen fenómenos cuyo comportamiento no depende de una única variable y son descritos por funciones reales de varias variables.
Las funciones reales de varias variables son funciones como cualquier otra, solo que están regidas por más de una variable independiente. La definición de estas funciones pueden deducirse fácilmente del caso de una variable como vemos en la .
$w = f(x_{1}, x_{2},...,x_{n})$
a cada elemento en $D$. El conjunto $D$ es el dominio de la función, mientras que el conjunto de valores $w$ es el rango de la función $f$. El símbolo $w$ es la variable dependiente de $f$ y se dice que $f$ es una función de las $n$ variables independientes $x_{1},x_{2},...,x_{n}$.
Para evaluar funciones definidas mediante formulas sustituimos los valores de las variables independientes en la formula y calculamos el valor de la variable dependiente. Por ejemplo al calcular el valor de $f(x,y) = x^{2} + y^{2}$ cuando $x = 3$ y $y = 2$ obtenemos lo siguiente:
$f(3,2) = 3^{2} + 2^{2} = 9 + 4 = 13$
Las funciones de varias variables también tienen un rango y un dominio. Usualmente para definir funciones de varias variables excluimos las entradas que conducen a números complejos o a una división entre cero. Por ejemplo, si tenemos que $f(x,y) = \sqrt{x-y}$, el valor de $x$ no puede ser mayor a $y$, o si $f(x,y) = \frac{x}{y}$, el valor de y no puede ser igual a $0$.
Entonces, decimos que el dominio de una función de varias variables es el conjunto más grande con el que al evaluar la función nos genera números reales (a menos que se especifique lo contrario).
Por otro lado, decimos que el rango de una función de varias variables es el conjunto de todos valores de salida que se pueden obtener al sustituir las variables independientes de la función en la fórmula.
Ejemplos
$$ \begin{array}{ccc} Función & Dominio & Rango \\ \hline ~w = \sqrt{9-x^{2}-y^{2}}~ & \{(x,y) \in ℝ^{2} | x^{2}+y^{2} \leq 9 \} & 0 \leq w \leq 3 \\ ~w = 1 + (x^{2} + y^{2})~ & \forall (x,y) \in ℝ^{2} & [1,\infty) \\ ~w = sen(xy)~ & \forall (x,y) \in ℝ^{2} & [-1, 1 ]\\ ~w = \sqrt{x^{2} + y^{2} + z^{2}}~ & \forall (x,y,z) \in ℝ^{3} & [0, \infty ) \\ \end {array} $$
Denotaremos al dominio como $Dom[f]$ y al rango como $Ran[f]$
Cuando se estudian funciones casi por impulso se tiende a graficarlas para observar su comportamiento y entenderlo con mayor claridad. Las funciones de varia variables no están exentas de esto, sin embargo no todas las funciones de varias variables se pueden graficar, y en realidad el número máximo de variables que podemos graficar son $3$. Esto se explica fácilmente ya que no podemos observar gráficamente más de $3$ dimensiones, es por ello que en esta sección se estudiarán más a fondo los casos particulares de funciones con $2$ y $3$ variables.
Hay dos formas comunes de graficar funciones con dos variables. La primera consiste en trazar las curvas de nivel en el dominio, donde $f$ asume un valor constante y la segunda consiste en trazar la superficie $z = f(x,y)$ en el espacio.
Por ejemplo, determinemos las curvas de nivel de la función $f(x,y) = 1 + (x^{2} + y^{2})$. Sea $c$ una constante en el rango de $f(x,y)$, entonces
$1 + (x^{2} + y^{2}) = c \Rightarrow x^{2} + y^{2} = c - 1$
Esta ecuación describe un círculo con centro en el origen cuyo radio es igual a $\sqrt{c-1}$.
Como el valor mínimo que podemos obtener de esta función es $1$ (cuando $x = y = 0$) y el valor máximo es $\infty$, entonces el rango de la función es $[1, \infty)$. Por lo tanto el valor de $c$ se encuentra en el rango $[1,\infty)$ y las curvas de nivel son las descritas por $x^{2} + y^{2} = c - 1$.
En la podemos observar las curvas de nivel cuando $c = 2,4,6$. Note que cuando $c = 1$ la curva de nivel es un círculo de radio $0$.
Como sabemos las gráficas de funciones con una sola variable son una curva $C$ con ecuación $y = f(x)$. En el caso de una función $f$ de dos variables es una superficie $S$ cuya ecuación es $z = f(x,y)$ y se define como sigue.
En la podemos ver que la gráfica de una función de dos variables es una superficie $S$ que está compuesta por todos los puntos $(x,y,z)$ en el espacio, cuando $z = f(x,y)$ y $(x,y)$ está en $D$.
La curva en el espacio donde el plano $z = c$ corta con la superficie $z = f(x,y)$ está formada por los puntos que representan el valor de la función $f(x,y) = c$.
A esta curva se le llama curva de contorno y se define como $f(x,y) = c$.
Si bien las curvas de contorno están definidas de la misma manera que las curvas de nivel, lo que las distingue es que las curvas de contorno tiene una elevación o altura con respecto a las curvas de nivel.
En la podemos ver como las curvas de contorno se forman al cortar el plano $z=c$ con la superficie $z = f(x,y)$. También observe como el contorno de nivel $f(x,y) = c$ tiene una elevación.
Como podemos ver en la las curvas de nivel son justamente las trazas de la gráfica de $f$ en el plano horizontal $z=c$ proyectadas en el plano $xy$.
Es decir, si dibujamos las curvas de nivel de una función con dos variables y las representamos como elevaciones de la superficie a la altura indicada, entonces podemos formar la gráfica de $f$. Un ejemplo común de las curvas de nivel son los mapas topográficos de regiones montañosas, donde las curvas de nivel son curvas de elevación constante por arriba del nivel del mar.
Una función de tres variables $f(x,y,z)$, es una regla que asigna a cada terna ordenada $(x,y,z)$ en un dominio $D \in ℝ^{3}$ un único valor real $w$. Como ya vimos, en el plano los puntos donde una función de dos variables tienen un valor constante $f(x,y) = c$ forman una curva (curva de nivel) en el dominio de la función. En el espacio los puntos donde una función de tres variables tienen un valor constante $f(x,y,z) = c$ forman una superficie en el dominio de la función. A estas superficies se les conoce como superficies de nivel y se definen de la siguiente manera.
Por ejemplo, determinemos las superficies de nivel de la función $f(x,y,z) = x^2+y^2+z^2$.
Las superficies de nivel son $x^2+y^2+z^2 = c$, donde $c \geq 0$. Esto forma una serie de esferas concéntricas con radio $\sqrt{c}$, cuyo centro se encuentra en el origen, como vemos en la figura.
Estas superficies sirven para ver cómo se comportan las funciones con tres variables, sin embargo a diferencia de las funciones con dos variables no hay forma en la que podamos trazar su gráfica, ya que esta consta del conjunto de puntos $(x,y,z,f(x,y,z))$ que se encuentran en un espacio de cuatro dimensiones, por lo que no podemos trazar en nuestro marco de referencia tridimensional.
Ya hemos definido las funciones de más de una variable y como graficarlas. En esta sección veremos cómo tomar el límite de una función de varias variables y lo que las diferencia de las funciones de una sola variable.
El concepto del limite es de gran importancia para entender el cálculo ya que es utilizado tanto en la teoría como en las aplicaciones. De manera intuitiva decimos que si los valores de una función $f(x)$ pueden hacerse arbitrariamente cercanos a un número único $L$, cuando $x$ se acerca a un número $a$ por ambos lados entonces el límite de $f(x)$ es $L$.
Para entender de mejor manera esto, consideremos la función $f(x) = x^{2}$ y un valor $a = 2$. Ahora tabulamos los valores de $f(x)$ cuando $x$ se aproxima a $2$ tanto por la izquierda como por la derecha.
$$ \begin{array}{cccc} x & f(x) & x & f(x) \\ \hline ~1.85~ &3.42 & 2.14& 4.57 \\ ~1.92~ & 3.68 & 2.07& 4.28 \\ ~1.97~ & 3.88 & 2.03& 4.12\\ ~1.99~ & 3.96 & 2.01& 4.04 \\ \end {array} $$
Como vemos, conforme $x$ se acerca al número $a=2$ por la izquierda $(x < a)$ y por la derecha $(x> a)$, los valores de la función se acercan al número $4$.
Matemáticamente decimos que el límite de $f(x) = x^{2}$ cuando $x$ tiende a $a = 2$ es $L = 4$ y simbólicamente lo expresamos como
$\lim\limits_{x \rightarrow 2} f(x) = 4 $
Ahora que hemos entendido intuitivamente los que es el límite de una función podemos expresarlo con más cuidado, de tal forma que obtenemos la siguiente definición
$\lim\limits_{x \rightarrow a} f(x) = L $
Como vimos en el ejemplo anterior podemos aproximar límites utilizando tablas, además si queremos apreciar de manera más visual los límites podemos dibujar la gráfica de la función como vemos en la .
Ya que tenemos la definición formal del límite enunciamos algunos de los teoremas más importantes de los límites que sirven de ayuda al calcular los límites a mano.
Límite de una constante.
$\lim\limits_{x \rightarrow a} f(x) = \lim\limits_{x \rightarrow a} c = c$
Límite identidad.
$\lim\limits_{x \rightarrow a} f(x) = \lim\limits_{x \rightarrow a} x = a$
Límite del producto entre una constante y una función.
$\lim\limits_{x \rightarrow a} c \cdot f(x) = c \cdot L$
Límite de una suma, diferencia, producto y cociente.
$\lim\limits_{x \rightarrow a} f(x) = L_{1}$ y $\lim\limits_{x \rightarrow a} g(x) = L_{2}$
Entonces
Límite de una potencia
$\lim\limits_{x \rightarrow a} f(x)^{n} = L^{n} $
Límite de una raíz
$\lim\limits_{x \rightarrow a} \sqrt[n]{f(x)} = \sqrt[n]{L}$
Ahora veamos algunos ejemplos de cómo calcular límites utilizando los teoremas anteriores.
Ejemplo 1: Calcule $\lim\limits_{x \rightarrow 1} \frac{x^{2}-1}{x + 1}$
Usando la ley de la suma
$\lim\limits_{x \rightarrow 1} x^{2} - 1 = 1^{2}-1=0$
$\lim\limits_{x \rightarrow 1} x + 1 = 1 + 1 = 2$
Usando la ley de la división
$\lim\limits_{x \rightarrow 1} \frac{x^{2}-1}{x + 1} = \frac{0}{2} = 0$
Ejemplo 2: Calcule $\lim\limits_{x \rightarrow 1} 5x \cdot (1+x)$
Usando la ley del producto
$\lim\limits_{x \rightarrow 1} 5x \cdot (1+x) = 5(1) \cdot (1+1) = 5 * 2 = 10$
Ejemplo 3: Calcule $\lim\limits_{x \rightarrow 5} \sqrt{x^{2}} \cdot (x-1)$
Usamos las leyes de la raíz y la multiplicación
$\lim\limits_{x \rightarrow 5} \sqrt{x^{2}} \cdot (x-1) = \sqrt{5^{2}} \cdot (5 - 1) = 5 \cdot 5 = 20 $
En la animación del primer ejemplo de la podemos ver que cuando $x$ se acerca a un número $a$ por ambos lados se aproxima a un número $L$. Sin embargo, una función puede no tener límite para todos los valores de $x$, es decir cuando no existe $\lim\limits_{x \rightarrow a} f(x) = L $ para todos los valores de $a$. En estos casos decimos que $\lim\limits_{x \rightarrow a} f(x)$ no existe.
Hay tres formas en las que podemos determinar que un límite no existe, las cuales se enuncian en el siguiente teorema:
Intuitivamente una función es continua si se puede dibujar su gráfica en un solo trazo. En particular, una función $f(x)$ es continua en un punto $x = a$ si se cumplen las tres condiciones de la siguiente definición.
En el caso de que el punto $x = a$ no cumpla con alguna de estas condiciones decimos que la función es discontinua en $a$.
Ejemplo: Estudiemos la continuidad de la función definida en secciones $f(x)$ en los punto $x = 1$ y $x = -2$
$f(x)= \left\{ \begin{array}{lcc} \frac{x^{2}-4}{x+2} & si & x \neq -2 \\ \\ -2 & si & x = -2 \\ \end{array} \right.$
Primero veamos si $f(x)$ cumple las condiciones de continuidad en $x = 1$
$f(1) = \frac{-3}{3} = -1$
$\lim\limits_{x \rightarrow 1} \frac{x^{2}-4}{x+2} = \frac{\lim\limits_{x \rightarrow 1} x^2 - 4}{\lim\limits_{x \rightarrow 1} x + 2} = \frac{-3}{3} = -1$
$f(1) = 1 = \lim\limits_{x \rightarrow 1} f(x)$
Como se cumplen las tres condiciones entonces la función es continua en $x = 1$. Ahora veamos qué pasa cuando $x = -2$.
$f(-2) = -2$
$\lim\limits_{x \rightarrow -2} \frac{x^{2}-4}{x+2} = \lim\limits_{x \rightarrow -2} \frac{(x-2)(x+2)}{x+2} = \lim\limits_{x \rightarrow -2} x-2 = -4$
$f(-2) = -2 \neq -4 = \lim\limits_{x \rightarrow -2} f(x)$
Como una de las reglas no se cumple decimos que la función es discontinua en $x = -2$.
Como ya vimos el límite de una función de una variable es
$\lim\limits_{x \rightarrow a} f(x) = L $
para toda $x \neq a$ en un intervalo abierto que contiene a $a$ y donde $L$ es un número real.
Ahora consideremos una función de dos variables $f(x,y)$, si los valores de $f(x,y)$ son arbitrariamente cercanos a un número real $L$ para todos los puntos $(x,y)$ suficientemente cercanos a un punto $(x_{0},y_{0})$, decimos que $f(x,y)$ tiende al límite $L$ cuando $(x,y)$ tiende a $(x_{0},y_{0})$.
Como vemos, esto es bastante similar a la definición intuitiva del límite en funciones con una variable que se explicó en la subsección anterior. Sin embargo, si el punto $(x_{0},y_{0})$ está en el interior del dominio de $f(x,y)$, el punto $(x,y)$ puede acercarse a $(x_{0},y_{0})$ desde cualquier dirección. Para entender mejor esto considere la siguiente definición
$\sqrt{(x-x_{0})^{2} + (y - y_{0})^{2}} < \delta$
La idea del disco $\delta$ aparece en la definición del límite en funciones con dos variables, donde si el radio es pequeño entonces todos los puntos $(x,y)$ en el disco $\delta$ están cercanos al punto $(x_{0},y_{0})$. Es por eso que decimos que la idea del límite en funciones con dos variables es similar a la idea del límite en funciones con una variable, con la diferencia de que en las funciones con dos variables nos podemos aproximar a un punto $(x_{0},y_{0})$ desde infinitas direcciones (nos podemos aproximar por todos los puntos que se encuentran en el disco $\delta$). De lo anterior obtenemos la siguiente definición.
$\lim\limits_{(x,y) \rightarrow (x_{0},y_{0})} f(x,y) = L $
si para cada número $\epsilon > 0$, existe un número $\delta > 0$ tal que, para todo $(x,y)$ en el dominio de $f(x,y)$ se cumple que
$|f(x,y) - L| < \epsilon$ cuando $0 < \sqrt{(x-x_{0})^{2}+(y-y_{0})^{2}} < \delta$
Esta definición dice que la distancia entre $f(x,y)$ y $L$ es arbitrariamente pequeña, siempre que la distancia de $(x,y)$ a $(x_{0},y_{0})$ se haga suficientemente pequeña pero no cero. Al igual que en las funciones de una variable podemos aproximar el valor del límite creando una tabla con puntos que se aproxime a $(x_{0},y_{0})$.
Por ejemplo si queremos calcular el límite en el punto $(1,1)$ para la función $4-x^2-y^2$ tendríamos la siguiente tabla:
$$ \begin{array}{cc} (x,y) & f(x,y,z) \\ \hline ~(1,0.93)~ & 1.46 \\ ~(1,0.95)~ & 1.44 \\ ~(1,0.97)~ & 1.43 \\ ~(1,0.99)~ & 1.41 \\ ~(0.99,1)~ & 1.41 \\ ~(1.01,1)~ & 1.40 \\ \end {array} $$
la cual nos da una aproximación de $1.41$. Esto significa que la diferencia entre $f(x,y)$ y $1.41$ será más pequeña cuando los $(x,y)$ estén más cerca de $(1,1)$. Esta tabla muestra evidencia de que el límite existe, pero no muestra que se cumple la definición. Para probarlo tenemos que considerar un valor $\epsilon$ y un valor $\delta$ tal que se cumple que
$|f(x,y)-L| < \epsilon$
Cuando
$0 < \sqrt{(x-x_{0})^{2}+(y-y_{0})^{2}} < \delta$
En la podemos ver gráficamente que el límite cuando $(x,y)$ se aproxima a $(x_{0},y_{0})$ es $L$, si para todo $\epsilon > 0$ existe un $\delta > 0$ tal que, si para todo $(x,y)$ que está en el dominio de $f(x,y)$ y se encuentra dentro del disco con centro en $(x_{0},y_{0})$ y radio $\delta$, entonces la imagen de $f(x,y)$ se encuentra entre los planos $(L+\epsilon,L-\epsilon)$.
Note que cuando el valor de $\delta$ se incrementa o disminuye, el valor de $\epsilon$ también lo hace si no se cumple que la imagen de todos los puntos dentro del disco de radio $\delta$ están dentro de los planos $(L+\epsilon,L-\epsilon)$, es decir cuando no se cumple $|f(x,y)-L| < \epsilon$.
Como vemos, calcular límites utilizando la definición, tablas y gráficas puede ser un poco laborioso, es por eso que usualmente se utilizan los teoremas que nos permiten calcular límites analíticamente. Estos teoremas son análogos a los teoremas de los límites de funciones con una variables y se enuncian a continuación.
Límite de una constante
$\lim\limits_{(x,y) \rightarrow (x_{0},y_{0})} f(x,y) = \lim\limits_{(x,y) \rightarrow (x_{0},y_{0})} c = c $
Leyes de identidad
$\lim\limits_{(x,y) \rightarrow (x_{0},y_{0})} x = x_{0}$
$\lim\limits_{(x,y) \rightarrow (x_{0},y_{0})} y = y_{0}$
Límite del producto entre una constante y una función de dos variables.
$\lim\limits_{(x,y) \rightarrow (x_{0},y_{0})} c \cdot f(x,y) = c \cdot L $
Límite de una potencia
$\lim\limits_{(x,y) \rightarrow (x_{0},y_{0})} f(x,y)^{n} = L^{n} $
Límite de una suma, diferencia, producto y cociente
$\lim\limits_{(x,y) \rightarrow (x_{0},y_{0})} f(x,y) = L_{1}$ y $\lim\limits_{(x,y) \rightarrow (x_{0},y_{0})} g(x,y) = L_{2} $
Entonces
Límite de una raíz
$\lim\limits_{(x,y) \rightarrow (x_{0},y_{0})} \sqrt[n]{f(x,y)} = \sqrt[n]{L}$
Hasta ahora solo se ha visto la definición del límite en funciones con dos variables, sin embargo, la definición del límite para funciones de más de dos variables se puede extender de la definición en funciones con dos variables, como vemos a continuación.
$\lim\limits_{(x_{1},x_{2},...,x_{n}) \rightarrow p} f(x_{1},x_{2},...,x_{n}) = L $
si para cada número $\epsilon > 0$, existe un número $\delta > 0$ tal que, para todo $(x_{1},x_{2},...,x_{n})$ en el dominio de $f(x_{1},x_{2},...,x_{n})$ se cumple que
$|f(x_{1},x_{2},...,x_{n}) - L| < \epsilon$ cuando $0 < ||(x_{1},x_{2},...,x_{n}) - p|| < \delta$
De la misma manera las leyes de los límites en funciones con más de dos variables son análogas a las leyes de funciones con una variable.
Como se dijo anteriormente calcular límites mediante tablas y graficando es poco eficiente, es por eso que la forma más adecuada de calcular los límites es utilizando las leyes de los límites, como vemos en los siguientes ejemplos.
Ejemplo 1: Calcule $\lim\limits_{(x,y) \rightarrow (1,2)} \frac{5x^{2}y}{x^{2}+y^{2}}$
Usando las leyes de suma y producto.
$\lim\limits_{(x,y) \rightarrow (1,2)} 5x^{2}y = 5\cdot(1)^{2}\cdot2 = 10$
$\lim\limits_{(x,y) \rightarrow (1,2)} x^{2} + y^{2} = 1^{2} + 2^{2} = 5$
Usando la ley de la división
$\lim\limits_{(x,y) \rightarrow (1,2)} \frac{5x^{2}y}{x^{2}+y^{2}} = \frac{10}{5} = 2$
Ejemplo 2: Calcule $\lim\limits_{(x,y,z) \rightarrow (2,1,-1)} 3x^{2}z+yx \cdot cos(\pi x - \pi z)$
Usando las leyes de suma y producto
$\lim\limits_{(x,y,z) \rightarrow (2,1,-1)} 3x^{2}z+yx \cdot cos(\pi x - \pi z) $
$= 3(2)^{2}(-1) + (1)(2) \cdot cos(2 \pi + \pi) = -12 + 2(-1) = -14$
Ejemplo 3: Calcule $\lim\limits_{(x,y) \rightarrow (1,1)} \frac{2x^{2} - xy -y^{2}}{x^{2} - y^{2}} $
Como el denominador tiende a $0$ cuando $(x,y) \rightarrow (1,1)$ no podemos utilizar la ley de la división. Es por eso que factorizamos tanto al numerador como al denominador, ya que de esa manera obtenemos una fracción a la cual le podemos calcular el límite.
$\lim\limits_{(x,y) \rightarrow (1,1)} \frac{2x^{2} - xy -y^{2}}{x^{2} - y^{2}} = \lim\limits_{(x,y) \rightarrow (1,1)} \frac{(2x+y)(x-y)}{(x-y)(x+y)} = \lim\limits_{(x,y) \rightarrow (1,1)} \frac{(2x+y)}{(x+y)} $
Ahora si podemos usar la ley de la división
$\lim\limits_{(x,y) \rightarrow (1,1)} 2x+y = 2(1) + 1 = 3$
$\lim\limits_{(x,y) \rightarrow (1,1)} x+y = 1+1 = 2$
$\Rightarrow \lim\limits_{(x,y) \rightarrow (1,1)} \frac{(2x+y)}{(x+y)} = \frac{3}{2}$
Al igual que en funciones con una variable hay ocasiones en las que el límite no existe, para explicarlo en funciones con varias variables de nueva cuenta se considerarán las funciones de dos variables.
Cuando nos aproximamos a un punto $(x_{0},y_{0})$ lo podemos hacer en todas la direcciones del plano. A veces, al calcular un límite cuando nos aproximamos a un punto $(x_{0},y_{0})$ por diferentes direcciones el resultado varía, cuando esto ocurre decimos que el límite no existe ya que el límite debe ser siempre el mismo, independientemente de la dirección en la que nos estemos aproximando.
Por ejemplo, consideremos el límite $\lim\limits_{(x,y) \rightarrow (0,0)} \frac{2xy}{3x^{2} + y^{2}} $. El dominio de la función $f(x,y) = \frac{2xy}{3x^{2} + y^{2}} $ son todos los puntos $(x,y)$ que se encuentran en el plano (excepto el punto $(0,0)$). Si nos aproximamos a $(0,0)$ por la dirección donde $y = 0$ obtenemos los siguiente
$f(x,0) = \frac{2x(0)}{3(x)^{2} + 0^{2}} = \frac{0}{3x^{2}} = 0$
Ahora, si nos aproximamos a $(0,0)$ por la dirección donde $y=x$ obtenemos lo siguiente
$f(x,x) = \frac{2x^{2}}{3(x)^{2} + x^{2}} = \frac{2x^{2}}{4x^{2}} = \frac{1}{2}$
Como vemos obtenemos dos valores distintos cuando nos aproximamos por direcciones distintas. Por lo tanto decimos que el límite no existe.
En la podemos ver que para la función $f(x,y) = \frac{2xy}{3x^{2}+y^{2}}$, si nos aproximamos al punto $(0,0)$ por la dirección donde $y = 0$ obtenemos un resultado diferente al que obtenemos cuando nos aproximamos por la dirección donde $y= x$.
Ya se ha definido la continuidad en un punto para funciones de una sola variable, la cual se basa en el límite de la función en dicho punto y debe cumplir tres condiciones (). Estas condiciones también son necesarias en funciones con varias variables y se generalizan como sigue.
Si el punto $(a_{1},a_{2},...,a_{n})$ no cumple con alguna de estas condiciones decimos que la función es discontinua en ese punto.
Ejemplo: Estudiemos la continuidad de la función $\frac{2xy}{3x^2+y^2}$ en los punto $(2,1)$ y $(0,0)$.
Primero vemos si $f(x,y)$ cumple las condiciones de continuidad en $(2,1)$.
$f(2,1) = \frac{4}{13}$
$\lim\limits_{(x,y) \rightarrow (2,1)} \frac{2xy}{3x^{2} + y^{2}} = \frac{\lim\limits_{(x,y) \rightarrow (2,1)} 2xy}{\lim\limits_{(x,y) \rightarrow (2,1)} 3x^{2} + y^{2}} = \frac{4}{13}$
$f(2,1) = \frac{4}{13} = \lim\limits_{(x,y) \rightarrow (2,1)} \frac{2xy}{3x^{2} + y^{2}}$
Como se cumplen las tres condiciones entonces la función es continua en el punto $(2,1)$. Ahora veamos que pasa en el punto $(0,0)$.
$f(0,0) = \frac{0}{0} = $ indefinido
Como no cumple con una condición decimos que la función es discontinua en el punto $(0,0)$.
En esta sección se explicará cómo definir las derivadas parciales de funciones de varias variables e interpretarlas geométricamente. Además se explicará cómo calcular aplicando las reglas para derivar funciones de una sola variable.
Para entender el concepto de derivada primero tenemos que comprender la idea intuitiva de la misma. Para eso podemos interpretar gráficamente la derivada de una función como la pendiente de una curva.
Comenzamos el estudio de la derivada revisando la noción de líneas secante y líneas tangentes. La pendiente de una recta secante a una función $y = f(x)$ en un punto $(a,f(x))$ se usa para estimar la tasa de cambio en relación con otra variable. Esta se puede obtener eligiendo un valor $x$ cerca de $a$ y trazando una línea a través de los puntos $(a,f(a))$ y $(x,f(x))$ como vemos en la . La cual viene dada por la ecuación:
$m_{sec} = \frac{f(x) - f(a)}{x-a}$
En el caso de la línea tangente no es tan directo. Supongamos que queremos hallar la tangente a una curva $y = f(x)$ en el punto $(a,f(a))$, lo que podemos hacer es aproximar la tangente por rectas secantes, en particular consideramos la recta secante que une el punto $(a,f(a))$ y $(a,f(x))$.
En la podemos ver que mientras más cerca estén los punto $(a,f(a))$,$(x,f(x))$ la secante va siendo una mejor aproximación de la tangente.
Lo que nos lleva a definir la tangente como la recta que pasa por el punto $(a,f(a))$ y cuya pendiente es el límite
$\lim\limits_{x \rightarrow a} \frac{f(x) - f(a)}{x-a}$
$m_{tan} = \lim\limits_{x \rightarrow a} \frac{f(x) - f(a)}{x-a}$
supuesto que dicho límite exista.
De manera equivalente se suele definir la línea tangente a $f(x)$ en $a$, como la línea que pasa a través del punto $(a,f(a))$ teniendo como pendiente
$m_{tan} = \lim\limits_{h \rightarrow 0} \frac{f(a+h) - f(a)}{h}$
Donde $h = x-a$.
La razón de cambio de una variable con respecto de otra es la magnitud de cambio de una variable por unidad de cambio de otra. En el caso de las funciones de una variable $f(x)$ o como se suele escribir $y = f(x)$ son funciones que relacionan una variable dependiente $y$ con otra variable independiente $x$. Si la variable independiente cambia de un valor inicial $a$ a otro $x$, la variable dependiente lo hace de $f(a)$ a $f(x)$.
En la vida diaria se determinan razones de cambio de diversas situaciones donde se estudia la variación de una cantidad que depende de otra.
Por ejemplo, si queremos obtener la velocidad promedio de un automóvil podemos definir una razón de cambio promedio de una función $y=f(x)$ con respecto a $x$ en el intervalo $[a,x]$ como:
Razón de cambio promedio = $\frac{distancia}{tiempo} = \frac{\varDelta y}{\varDelta x} = \frac{f(x) - f(a)}{x-a}$
Donde $a$ es menor a $x$ y $f(x) - f(a)$ es la distancia recorrida entre los instantes de tiempo $t = a , t = b$.
Como podemos apreciar, la razón de cambio promedio es igual a la definición de la recta secante del punto $(a,f(a))$ al punto $(x,f(x))$. Nota: Por convención para denotar cambios en variables se utiliza la letra griega $\varDelta$ es por eso que escribimos la razón de cambio promedio como $\frac{\varDelta y}{\varDelta x}$.
En algunos casos nos interesa considerar razones de cambio en intervalos más pequeños, es decir hacer $\varDelta x \rightarrow 0$, lo que es conocido como la razón de cambio instantánea de $y$ con respecto de $x$. Por ejemplo, si queremos calcular la velocidad de un automóvil en un instante de tiempo en concreto entonces calculamos la razón de cambio en un intervalo lo suficientemente pequeño como para decir que en ese intervalo la velocidad es constante, es decir calculamos el límite :
Razón de cambio instantánea = $\lim\limits_{x \rightarrow a} \frac{\varDelta y}{\varDelta x} = \lim\limits_{x \rightarrow a} \frac{f(x) - f(a)}{x-a}$
Como vemos, la razón de cambio instantánea es igual a la definición de la línea tangente a un punto. Este límite ocurre con tanta frecuencia que se le ha dado el nombre de derivada y se define como sigue.
$\lim\limits_{\varDelta x \rightarrow 0} \frac{\varDelta y}{\varDelta x} = \lim\limits_{x \rightarrow a} \frac{f(x) - f(a)}{x-a}$
o de manera equivalente
$\lim\limits_{\varDelta x \rightarrow 0} \frac{\varDelta y}{\varDelta x} = \lim\limits_{h \rightarrow 0} \frac{f(a+h) - f(a)}{h}$
Ejemplo: Para $f(x) = 3x^{2} - 4x$, calcule el valor de $f'(2)$.
Sustituimos los valores en la definición
$\lim\limits_{x \rightarrow 2} \frac{f(x) - f(2)}{x - 2} = \lim\limits_{x \rightarrow 2} \frac{(3x^{2} - 4x) - 4}{x - 2}$
$ = \lim\limits_{x \rightarrow 2} \frac{(x-2)(3x+2)}{x - 2}$
$ = \lim\limits_{x \rightarrow 2} (3x+2) = 3(2) + 2 = 8$
Utilizando la definición también podemos calcular la derivada de funciones definidas para todo valor de $x$ perteneciente a los reales. Por ejemplo, calculemos el límite de la función $f(x) = 3x^{2} - 4x$ que se vio en el ejemplo anterior, pero esta vez para todos los valores de $x$. Utilizamos la definición alternativa y tenemos que:
$f'(x) = \lim\limits_{h \rightarrow 0} \frac{f(x+h) - f(x)}{h} $
$= \lim\limits_{h \rightarrow 0} \frac{(3(x+h)^{2} - 4(x+h)) - (3x^{2} - 4x)}{h} $
$ = \lim\limits_{h \rightarrow 0} \frac{(3(x^{2} + 2xh + h^{2}) - 4x - 4h) - (3x^{2} - 4x)}{h}$
$=\lim\limits_{h \rightarrow 0} \frac{(3x^{2} + 6xh + 3h^{2} - 4x - 4h) - (3x^{2} - 4x)}{h}$
$= \lim\limits_{h \rightarrow 0} \frac{3x^{2} + 6xh + 3h^{2} - 4x - 4h - 3x^{2} + 4x}{h} $
$= \lim\limits_{h \rightarrow 0} \frac{3x^{2} + 6xh + 3h^{2} - 4x - 4h - 3x^{2} + 4x}{h} = \lim\limits_{h \rightarrow 0} \frac{6xh + 3h^{2} - 4h}{h}$
$= \lim\limits_{h \rightarrow 0} \frac{h(6x + 3h - 4)}{h} = \lim\limits_{h \rightarrow 0} 6x + 3h - 4 = 6x - 4$
Entonces $f'(x) = 6x - 4$. En el ejemplo anterior obtenemos que $f'(2) = 8$. Si sustituimos el $2$ en $f'(x) = 6(2) - 4 = 8$ obtenemos el mismo resultado.
Aunque podemos calcular todas las derivadas utilizando la definición como un límite, el proceso puede ser bastante tedioso como vimos en el ejemplo anterior, es por eso que existen reglas establecidas que sirven para el cálculo de las derivadas, las cuales nos permiten calcular la derivada de muchas funciones sin tener que calcular el límite. Esta reglas son conocidas como reglas de derivación y se enuncian en los siguientes teoremas.
Derivada de una constante
$f'(x) = \frac{dy}{dx}(c) =0 $
Donde $\frac{dy}{dx} = \lim\limits_{\varDelta x \rightarrow 0} \frac{\varDelta y}{\varDelta x}$ y es llamada notación de Leibniz.
Derivada de una función de grado $n$
$f'(x) = \frac{dy}{dx} (x^{n}) = nx^{n-1}$
Derivada de una constante por una función
$f'(x) =\frac{dy}{dx} (c\cdot f(x)) = c \cdot \frac{dy}{dx} (f(x))$
Derivadas de la suma y la diferencia de funciones
Derivada del producto de funciones
$f'(x) =\frac{dy}{dx} (f(x) \cdot g(x)) = \frac{dy}{dx} (f(x)) \cdot g(x) + \frac{dy}{dx} (g(x)) \cdot f(x)$
Derivada de la división de funciones
$f'(x) =\frac{dy}{dx} \left(\frac{f(x)}{g(x)}\right) = \frac{\frac{dy}{dx} (f(x)) \cdot g(x) - \frac{dy}{dx} (g(x)) \cdot f(x)}{(g(x))^{2}}$
Ya hemos visto como calcular derivadas en funciones con una variable, ahora veremos cómo calcularlas en funciones con varias variables, para eso primero explicaremos el caso particular de funciones con dos variables para después generalizar a $n$ variables.
Cuando se estudian las derivadas en funciones con una variable, hacemos la interpretación como la razón de cambio instantánea de $y$ con respecto de $x$, es decir $\frac{dy}{dx}$, lo que implica que $y$ es la variable dependiente y $x$ la independiente. En funciones con dos variables $z = f(x,y)$, $y$ y $x$ son las variables independientes y $z$ es la variable dependiente. Entonces para hacer la interpretación de la derivada en este tipo de funciones supongamos que solo hacemos variar a una de las variables independientes, digamos $x$, mientras mantenemos fija a $y$, digamos $y = b$, donde $b$ es una constante.
Lo que hacemos es considerar en realidad a una función de una variable $x$, a saber $g(x) = f(x,b)$. Ahora, si consideramos un valor $a$ y $g(x)$ tiene derivada $a$, entonces la denominamos derivada parcial de $f(x,b)$ con respecto de $x$ en el punto $(a,b)$ y la denotamos como $f_{x}(a,b)$ o bien $\frac{\partial f}{\partial x}$. Por consiguiente
$f_{x} (a,b) = g'(a)$ donde $g(x) = f(x,b)$
De acuerdo con la definición de la derivada tenemos
$g'(a)= \lim\limits_{h \rightarrow 0} \frac{g(a+h) - g(a)}{h} $
Por lo que $f_{x} (a,b) = g'(a)$ se transforma en
$\frac{\partial f}{\partial x} = f_{x} (a,b) = \lim\limits_{h \rightarrow 0} \frac{f(a+h,b) - f(a,b)}{h} $
De la misma manera, la derivada parcial de $f(x,y)$ con respecto a $y$ en el punto $(a,b)$, denotada como $f_{y}(a,b)$ o bien $\frac{\partial f}{\partial y}$, es
$\frac{\partial f}{\partial y} = f_{y} (a,b) = \lim\limits_{h \rightarrow 0} \frac{f(a,b + h) - f(a,b)}{h} $
Con estas ecuaciones podemos calcular las derivadas en un punto específico, pero si dejamos que $(a,b)$ varíen, entonces obtenemos la siguiente definición.
$\frac{\partial f}{\partial x} = f_{x} (x,y) = \lim\limits_{h \rightarrow 0} \frac{f(x+h,y) - f(x,y)}{h} $
Y la derivada parcial de $f(x,y)$ con respecto de $y$ es
$\frac{\partial f}{\partial y} = f_{y} (x,y) = \lim\limits_{h \rightarrow 0} \frac{f(x,y + h) - f(x,y)}{h} $
Ejemplo: Si $f(x,y) = x^{2} + y^{2} + 2y$, determine $f_{x}$ y $f_{y}$
Para calcular $f_{x}$ primero calculamos $f(x+h,y)$
$f(x+h,y) = (x+h)^{2} + y^{2} + 2y $
$= x^{2} + 2xh + h^{2} + y^{2} + 2y$
Aplicamos la definición
$f_{x} (x,y) = \lim\limits_{h \rightarrow 0} \frac{(x^{2} + 2xh + h^{2} + y^{2} + 2y)- (x^{2} + y^{2} + 2y)}{h}$
$\lim\limits_{h \rightarrow 0} \frac{x^{2} + 2xh + h^{2} + y^{2} + 2y- x^{2} - y^{2} - 2y}{h} = \lim\limits_{h \rightarrow 0} \frac{2xh + h^{2}}{h}$
$\lim\limits_{h \rightarrow 0} \frac{h(2x + h)}{h} = \lim\limits_{h \rightarrow 0} (2x + h) = 2x$
Para calcular $f_{y}$ primero calculamos $f(x,y+h)$
$f(x,y+h) = x^{2} + (y+h)^{2} + 2(y+h)$
$= x^{2} + y^{2} + 2yh + h^{2} + 2y + 2h$
Aplicamos la definición
$f_{y} (x,y) = \lim\limits_{h \rightarrow 0} \frac{(x^{2} + y^{2} + 2yh + h^{2} + 2y + 2h) - ( x^{2} + y^{2} + 2y)}{h} $
$= \lim\limits_{h \rightarrow 0} \frac{x^{2} + y^{2} + 2yh + h^{2} + 2y + 2h - x^{2} - y^{2} - 2y}{h}$
$= \lim\limits_{h \rightarrow 0} \frac{2yh + h^{2} + 2h}{h} = \lim\limits_{h \rightarrow 0} \frac{h(2y + h + 2)}{h}$
$= \lim\limits_{h \rightarrow 0} 2y + h + 2 = 2y + 2$
Para dar la interpretación geométrica de las derivadas parciales, recordemos que para la función $z = f(x,y)$ su gráfica es una superficie $S$. Si $f(x,y) = c$, entonces el punto $(x,y,c)$ está situado sobre la superficie $S$.
Si hacemos $y = b$, estamos enfocando nuestra atención en una curva que llamaremos curva $C_{1}$, en la cual el plano vertical $y = b$ interseca a $S$ (es decir $C_{1}$ es la traza de $S$ en el plano $y = b$). De la misma manera, el plano vertical $x = a$ interseca a $S$ en una curva $C_{2}$ como se observa en la
La curva $C_{1}$ es la gráfica de la curva $f(x,b)$ y la pendiente de su tangente $T_{1}$ es $f_{x}$. De igual manera para la curva $C_{2}$, la pendiente de su tangente es $f_{y}$. Por lo tanto, las derivadas parciales $f_{x}$ y $f_{y}$, se pueden interpretar de manera geométrica como las pendientes de las tangentes en el punto $(a,b,c)$ a las trazas de $C_{1}$ y $C_{2}$ de $S$ en los planos verticales $y = b$ y $x = a$.
Las definiciones de las derivadas en funciones con más de dos variables son análogas a las definiciones de las derivada en funciones con dos variables, en general:
$\frac{\partial f}{\partial x_{i}} = f_{x_{i}} (x_{1},x_{2},...,x_{n}) $
$ = \lim\limits_{h \rightarrow 0} \frac{f(x_{1},x_{2},...,x_{i-1},x_{i}+h,x_{i+1},...,x_{n}) - f(x_{1},...,x_{i},...,x_{n})}{h}$
Ya vimos como calcular derivadas parciales de una función con más de una variable utilizando la definición, ahora veremos cómo calcularlas utilizando las reglas de derivación en funciones con una variable. Como ya vimos, en las derivadas parciales lo que hacemos es mantener a todas la variables como constantes a excepción de una, por lo tanto estamos derivando con respecto de una sola variable, es por eso que podemos utilizar sin ningún problema las reglas de derivación de las funciones de una variable para calcular las derivadas de funciones de varias variables como vemos en los siguientes ejemplos
Ejemplo 1: Si $f(x,y) = x^{2} + y^{2} + 2y$, determine $f_{x}$ y $f_{y}$
$f_{x} (x,y) = \frac{d}{dx} (x^{2}) + \frac{d}{dx} (y^{2}) + \frac{d}{dx} (2y) $
$= 2x + 0 + 0 = 2x$
$f_{y} (x,y) = \frac{d}{dy} (x^{2}) + \frac{d}{dy} (y^{2}) + \frac{d}{dy} (2y) $
$= 0 + 2y + 2 =2y + 2$
Ese ejemplo es el mismo que hicimos aplicando la definición. Como vemos obtuvimos los mismo resultados y el procedimiento fue más sencillo.
Ejemplo 2: Si $f(x,y,z) = x^{2} + sen(y) + z^{3}$, determine $f_{x}$, $f_{y}$ y $f_{z}$
$f_{x} (x,y,z) = \frac{d}{dx} (x^{2}) + \frac{d}{dx} (sen(y)) + \frac{d}{dx} (z^{3}) $
$= 2x + 0+ 0 = 2x$
$f_{y} (x,y,z) = \frac{d}{dy} (x^{2}) + \frac{d}{dy} (sen(y)) + \frac{d}{dy} (z^{3}) $
$= 0 +cos(y) + 0 = cos(y)$
$f_{z} (x,y,z) = \frac{d}{dz} (x^{2}) + \frac{d}{dz} (sen(y)) + \frac{d}{dz} (z^{3}) $
$= 0 + 0 +3z^{2} = 3z^{2}$
En funciones con varias variables las derivadas de orden superior se producen al derivar $n$ veces una función. Por ejemplo, si derivamos una función $f(x,y)$ dos veces producimos derivadas de segundo orden. En principio hay cuatro ($2^{2}$) derivadas y se denotan como:
$\frac{\partial^{2}f}{\partial x^{2}} = \frac{\partial}{\partial x} \left(\frac{\partial f}{\partial x}\right)$ o bien $f_{xx}$
$\frac{\partial^{2}f}{\partial y^{2}} = \frac{\partial}{\partial y} \left(\frac{\partial f}{\partial y}\right)$ o bien $f_{yy}$
$\frac{\partial^{2}f}{\partial x \partial y} = \frac{\partial}{\partial x} \left(\frac{\partial f}{\partial y}\right)$ o bien $f_{yx}$
$\frac{\partial^{2}f}{\partial y \partial x} = \frac{\partial}{\partial y} \left(\frac{\partial f}{\partial x}\right)$ o bien $f_{xy}$
Por lo tanto, la notación $f_{xy}$ significa que primero se deriva con respecto de $x$ y después con respecto de $y$.
Ejemplo: Determine las derivadas de segundo orden de $f(x,y) = x^{3}y^{2} - 2y^{3}$.
Primero calculamos $\frac{\partial f}{\partial x}$ y $\frac{\partial f}{\partial y}$
$\frac{\partial f}{\partial x} = \frac{d}{dx} (x^{3}y^{2}) - \frac{d}{dx} (2y^{3}) = 3x^{2}y^{2} - 0 = 3x^{2}y^{2}$
$\frac{\partial f}{\partial y} = \frac{d}{dy} (x^{3}y^{2}) - \frac{d}{dy} (2y^{3}) = 2x^{3}y - 6y^{2}$
Ahora calculamos las derivadas de segundo orden
$f_{xx} = \frac{\partial}{\partial x} (3x^{2}y^{2}) = 6xy^{2}$
$f_{yx} = \frac{\partial}{\partial x} (2x^{3}y - 6y^{2}) = 6x^{2}y - 0 = 6x^{2}y$
$f_{xy} = \frac{\partial}{\partial y} (3x^{2}y^{2}) = 6x^{2}y$
$f_{yy} = \frac{\partial}{\partial y} (2x^{3}y - 6y^{2}) = 2x^{3} - 12y$
Las derivadas de tercer orden y de órdenes superiores se definen de manera análoga, por ejemplo:
$\frac{\partial^{3} f}{\partial x^{3}} = \frac{\partial}{\partial x} \left(\frac{\partial^{2} f}{\partial x^{2}}\right) = f_{xxx}$
$\frac{\partial^{3} f}{\partial x \partial y \partial x} = \frac{\partial}{\partial x} \left(\frac{\partial^{2} f}{\partial y \partial x}\right) = f_{xyx}$
Observemos del ejemplo anterior que $f_{xy} = f_{yx}$. Esto no es una coincidencia, se debe a que las derivadas combinadas $f_{xy}$ y $f_{yx}$ son iguales para la mayoría de las funciones que se utilizan en la práctica.
El siguiente teorema fue descubierto por el matemático Alexis Clairaut y dice que $f_{xy} = f_{yx}$ siempre que se cumplan ciertas condiciones.
$f_{xy} (a,b) = f_{yx} (a,b)$
Este teorema no se limita a derivadas de segundo orden, por ejemplo, mediante el teorema de Clairaut se puede demostrar que las derivadas de tercer orden $f_{xyy} = f_{xyx} = f_{yyx}$ si estas funciones son continuas.
Una ecuación diferencial parcial es una ecuación que involucra derivadas parciales de una función desconocida con dos o más variables independientes.
$\frac{\partial^{2} u}{\partial x^{2}} + \frac{\partial^{2} u }{\partial y^{2}} = 0$ o bien $u_{xx} + u_{yy} = 0$
llamada ecuación de Laplace, donde las soluciones de esta ecuación recibe el nombre de funciones armónicas, y desempeñan un papel importante en problemas como la conducción de calor, flujo de fluidos y potencial eléctrico. Como vemos, en esta ecuación la función desconocida $u$ tiene dos variables independientes $x$ e $y$.
Ejemplo: Compruebe que la función $u(x,t) = cos(x + at) + sen(x - at)$ satisface la ecuación de la onda dada por $u_{tt} = a^{2} \cdot u_{xx}$.
Primero calculamos $u_{x}$ y $u_{t}$
$u_{x} = -sen(x + at) + cos(x-at)$
$u_{t} = -sen(x + at) \cdot a + cos(x - at) \cdot a$
$ = -a \cdot sen(x+at) - a \cdot cos(x - at)$
Ahora $u_{xx}$ y $u_{tt}$
$u_{xx} = -cos(x+at) - sen(x-at)$
$u_{tt} = -a \cdot cos(x + at) \cdot a + a \cdot sen(x -at) \cdot -a$
$ = -a^{2} \cdot cos(x+at) - a^{2} \cdot sen(x -at)$
Comprobamos que $u_{tt} = a^{2} \cdot u_{xx}$
$a^{2} \cdot u_{xx} = a^{2} \cdot (-cos(x+at) - sen(x-at)) $
$= -a^{2} \cdot cos(x+at) - a^{2} \cdot sen(x-at) = u_{tt}$
De este modo $u$ satisface la ecuación de la onda.
En derivadas con una sola variable vimos que en el plano, una sola recta puede ser tangente a una curva en un punto. En el caso de funciones de dos variables $f(x,y)$, en lugar de una recta tangente podemos construir un plano tangente. Como sabemos, la gráfica de una función de dos variables es una superficie $S$, por lo cual está situada en un espacio de tres dimensiones. Entonces un punto que se encuentre sobre la superficie $S$ puede tener muchas rectas tangentes en diferentes direcciones. Si estas rectas se encuentran en el mismo plano, entonces determinan el plano tangente en ese punto.
Intuitivamente un plano tangente es una superficie lisa en un punto. Ahora que tenemos la idea de lo que es un plano tangente, veremos cómo podemos aproximarlo mediante una función lineal de dos variables.
Supongamos que tenemos una función de dos variables $z = f(x,y)$, donde las primeras derivadas de $f$ son continuas, y sea $P_{0} = (x_{0},y_{0},z_{0})$ un punto en la superficie $S$ que representa su gráfica. Si tomamos dos curvas $C_{1}$ y $C_{2}$ que intersecan a los planos verticales $y = y_{0}$ y $x = x_{0}$ en la superficie $S$.
Entonces, el punto $P_{0}$ se encuentra tanto en $C_{1}$ y $C_{2}$. Sean $T_{1}$ y $T_{2}$ las rectas tangentes a las curvas $C_{1}$ y $C_{2}$ en el punto $P_{0}$. Entonces el plano tangente a la superficie $S$ en el punto $P_{0}$ se define como el plano que contiene las rectas tangentes $T_{1}$ y $T_{2}$ como vemos en la .
Este es un caso particular pero si tomamos a cualquier curva $C$ que se encuentre en $S$ y pase por el punto $P$, entonces su tangente en $P$ también está en el plano tangente. Por lo tanto podemos pensar que el plano tangente a $S$ en $P$ consiste en todas las tangentes posibles a $P$ en curvas que intersecan a $S$ y pasen por $P$. Donde cualquier plano que pase por un punto $P(x_{0},y_{0},z_{0})$ tiene una ecuación de la forma
$A(x-x_{0}) + B(y - y_{0}) + C(z - z_{0}) = 0$
Esto quiere decir que a medida que ajustamos los valores de $A$ y $B$ (combinaciones lineales), esta ecuación nos dará varios planos que pasan por la gráfica de $f$ en el punto $(x_{0},y_{0})$, pero solo uno de ellos va a ser el plano tangente.
Si dividimos esa ecuación entre $C$ y hacemos $a = \frac{-A}{C}, b= \frac{-B}{C}$ la podemos reescribir como:
$\frac{A}{C}(x-x_{0}) + \frac{B}{C}(y - y_{0}) + (z - z_{0}) = 0$
$\Rightarrow \frac{A}{C}(x-x_{0}) + \frac{B}{C}(y - y_{0}) = -(z - z_{0})$
$\Rightarrow \frac{-A}{C}(x-x_{0}) + \frac{-B}{C}(y - y_{0}) = (z - z_{0})$
$\Rightarrow a(x-x_{0}) + b(y - y_{0}) = z - z_{0}$
Si esta ecuación representa al plano tangente en $P$, entonces su intersección en el plano $y=y_{0}$ debe ser la recta tangente $T_{1}$. Al hacer $y = y_{0}$ de la ecuación anterior obtenemos
$z-z_{0} = a(x-x_{0})$ donde $y = y_{0}$
e identificamos esta expresión como la ecuación de una recta con pendiente $a$. En particular la pendiente de la recta tangente $T_{1} $ es $f_{x}(x_{0},y_{0})$, por lo tanto $a = f_{x}(x_{0},y_{0})$. De manera similar la pendiente de la recta tangente $T_{2}$ es $f_{y}(x_{0},y_{0})$, entonces $b = f_{y}(x_{0},y_{0})$. De lo anterior podemos definir la ecuación para calcular un plano tangente.
$z = f(x_{0},y_{0}) + f_{x} (x_{0},y_{0})(x - x_{0}) + f_{y}(x_{0},y_{0})(y-y_{0})$
Esta definición nos dice que para que exista un plano tangente en un punto $P$, es suficiente que la función que define la superficie sea diferenciable en $P$. Intuitivamente que una función sea diferenciable quiere decir que es posible derivar la función al menos una vez y veremos su definición a profundidad más adelante.
Ejemplo: Calcule el plano tangente de la gráfica definida por $z = \sqrt{4-x^{2}-y^{2}}$, en el punto $(1,1,\sqrt{2})$.
Tenemos que $f(x,y) = \sqrt{4-x^{2}-y^{2}}$, entonces sus derivadas parciales son:
$f_{x} (x,y) = \frac{-x}{\sqrt{4-x^{2}-y^{2}}}$, entonces $f_{x}(1,1) = \frac{-1}{\sqrt{2}}$
$f_{y} (x,y) = \frac{-y}{\sqrt{4-x^{2}-y^{2}}}$, entonces $f_{y}(1,1) = \frac{-1}{\sqrt{2}}$
Ya calculamos $f_{x} (1,1) \simeq -0.71$ y $f_{y} (1,1) \simeq -0.71$. En la podemos comprobar que obtenemos un plano tangente al utilizar los valores de estas derivadas parciales en la función lineal de la .
Y de la ecuación del plano tangente tenemos que
$z = \frac{-1}{\sqrt{2}}(x-1) + \frac{-1}{\sqrt{2}}(y-1) + \sqrt{2}$
$\Rightarrow z = -\frac{x}{\sqrt{2}} + \frac{1}{\sqrt{2}} - \frac{y}{\sqrt{2}} + \frac{1}{\sqrt{2}} + \sqrt{2} $
$\Rightarrow z = -\frac{x}{\sqrt{2}} - \frac{y}{\sqrt{2}} + \frac{4}{\sqrt{2}}$.
En el ejemplo ya vimos que la ecuación del plano tangente de la función $f(x,y) = \sqrt{4-x^{2}-y^{2}}$, en el punto $(1,1,\sqrt{2})$ es $z = -\frac{x}{\sqrt{2}} - \frac{y}{\sqrt{2}} + \frac{4}{\sqrt{2}}$. Decimos que la función lineal de dos variables
$L(x,y) = -\frac{x}{\sqrt{2}} - \frac{y}{\sqrt{2}} + \frac{4}{\sqrt{2}}$
es una buena aproximación a $f(x,y)$ cuando $(x,y)$ está cerca de $(1,1)$. A la función $L$ se le conoce como linealización de $f(x,y)$ en $(1,1)$ y la aproximación $f(x,y) \simeq -\frac{x}{\sqrt{2}} - \frac{y}{\sqrt{2}} + \frac{4}{\sqrt{2}}$ recibe el nombre de aproximación lineal.
Por ejemplo, en el punto $(1.1,0.9)$ la aproximación lineal nos da
$f(1.1,0.9) \simeq -\frac{1.1}{\sqrt{2}} - \frac{0.9}{\sqrt{2}} + \frac{4}{\sqrt{2}} = 1.414$
que es muy cercano al valor de $f(1.1,0.9) = \sqrt{4-x^{2}-y^{2}} = 1.407$.
Mientras tomemos puntos más alejados de $(1,1)$ tendremos una peor aproximación. Por ejemplo si tomamos el punto $(1.5,0.5)$ tenemos que $L(1.5,0.5) = 1.41$ y $f(1.5,0.5) = 1.22$. La idea detrás del uso de aproximaciones lineales es que si hay un punto $(x_{0},y_{0})$ en el que se conoce el valor exacto de $f(x,y)$, entonces para puntos $(x,y)$ razonablemente cercanos a $(x_{0},y_{0})$, la aproximación lineal (es decir la ecuación del plano tangente) nos da un valor que también está a razonablemente cerca al valor de $f(x,y)$.
Cuando se trabaja con funciones de una sola variable $y = f(x)$, decimos que son diferenciables en el punto $x = a$ si $f'(a)$ existe. Además, si la función es diferenciable en un punto, decimos que su gráfica es suave en ese punto y una línea tangente está bien definida en ese punto.
En el caso de funciones con dos variables no es posible hacer una generalización directa a este razonamiento. La diferenciabilidad está relacionada con la idea de suavidad en un punto, donde se considera que la gráfica de una función $f(x,y)$ (que es una superficie) es suave en un punto $(x_{0},y_{0})$ si existe un plano tangente a la superficie en ese punto.
Para que exista un plano tangente en el punto $(x_{0},y_{0})$, las derivadas parciales de $f(x,y)$ deben existir en ese punto. Sin embargo esta no es una condición suficiente para la suavidad ya que pueden existir derivadas parciales en ese punto y, sin embargo, no hacerlo en alguna de las derivadas direccionales, es decir no ser continua.
Por ejemplo, si consideramos la función
$f(x,y)= \left\{ \begin{array}{lcc} \frac{3xy}{2x^2+y^2} & si & x \neq 0 \\ \\ 0 & si & x = 0 \\ \end{array} \right.$
podemos comprobar que existen sus derivadas parciales en el punto $(0,0)$ si aplicamos la definición.
$f_{x} (0,0) = \lim\limits_{h \rightarrow 0} \frac{f(0+h,y)- f(0,0)}{h} = \lim\limits_{h \rightarrow 0} \frac{\frac{3h\cdot 0}{2h^2 + 0^2}}{h}$
$= \lim\limits_{h \rightarrow 0} \frac{\frac{0}{2h^2}}{h} = \lim\limits_{h \rightarrow 0} \frac{0}{h} = \lim\limits_{h \rightarrow 0} 0 = 0$
Y de la misma manera $f_{y} (0,0) = 0$.
Entonces $f_{x}$ y $f_{y}$ existen en $(0,0)$, pero para comprobar que son continuas en ese punto debe cumplir las tres condiciones de la . En este caso podemos ver que no cumple con la condición 2, puesto que el límite
$\lim\limits_{(x,y) \rightarrow (0,0)} \frac{2xy}{3x^2+y^2}$
no existe. Recordemos que en funciones con dos variables un límite existe solo si es único, es decir, que sin importar por qué dirección nos aproximamos, el límite siempre debe ser el mismo. En este caso el límite no existe ya que si nos aproximamos a $(0,0)$ por la dirección donde $y = 0$ el resultado es $0$, mientras que si nos aproximamos por la dirección donde $y = x$ el resultado es $\frac{1}{2}$ como vimos en la .
De esta manera, una función de dos variables se puede comportar de manera errónea aún cuando las derivadas parciales existan. Para evitar este comportamiento, se plantea la idea de función diferenciable de dos variables.
En funciones con una variable $y = f(x)$ cuando $x$ pasa de $a$ a $a + \varDelta x$,el incremento en $y$ se define como
$\varDelta y = f(a+\varDelta x) - f(a)$
En este caso, si $f(x)$ es derivable en $a$, entonces
$\varDelta y = f'(a) \varDelta x + \epsilon \varDelta x$, donde $\epsilon \rightarrow 0$ cuando $\varDelta x \rightarrow 0$
Ahora, si consideramos una función de dos variables $f(x,y)$ y suponemos que $x$ pasa de $x_{0}$ a $x_{0} + \varDelta x$ y que $y$ pasa de $y_{0}$ a $y_{0} + \varDelta y$. Entonces el incremento en $z$ es
$\varDelta z = f(x_{0} + \varDelta x, y_{0} + \varDelta y) - f(x_{0},y_{0})$
que representa el cambio de valor de $f$ cuando $(x,y)$ pasa de $(x_{0},y_{0})$ a $(x_{0} + \varDelta x, y_{0} + \varDelta y)$. Entonces de manera análoga definimos la diferenciabilidad en funciones con dos variables como sigue
$\varDelta z = f_{x}(x_{0},y_{0}) \varDelta x + f_{y}(x_{0},y_{0}) \varDelta y + \epsilon_{1} \varDelta x + \epsilon_{2} \varDelta y$
Donde $\epsilon_{1}$ y $\epsilon_{2} \rightarrow 0$ cuando $(\varDelta x,\varDelta y) \rightarrow (0,0)$
La suma $\epsilon_{1} \varDelta x + \epsilon_{2} \varDelta y$ representa que tan cerca está el plano tangente a la superficie en una pequeña vecindad del punto $(x_{0},y_{0})$, es decir, cuando la linealización de $f$ en $(x_{0},y_{0})$ es una buena aproximación cuando $(x,y)$ se aproxima a $(x_{0},y_{0})$.
En algunas ocasiones es complicado aplicar directamente la definición para demostrar la diferenciabilidad de una función, pero el siguiente teorema proporciona una condición suficiente para determinar la diferenciabilidad.
Esto nos dice que una función de dos variables es continua en cada punto donde es diferenciable, por lo tanto, la diferenciabilidad implica continuidad.
La regla de la cadena en funciones con una variable nos dice que si $y = f(x)$ es una función derivable de $x$ y $x = g(t)$ es una función derivable de $t$, entonces $y$ es indirectamente una función derivable de $t$ y
$\frac{\partial y}{\partial t} = \frac{\partial y}{\partial x} \frac{\partial x}{\partial t}$
En el caso de funciones con varias variables, la regla de la cadena tiene varias formas. A continuación veremos los casos en funciones con dos variables para después generalizar a $n$ variables.
El primer caso se da cuando una función $z = f(x,y)$ y cada variable $x$ y $y$ es una función de la variable $t$ (es decir, $x=g(t)$ y $y=h(t)$ ), lo que significa que $z$ es indirectamente una función de $t$, $z = f(g(t),h(t)) $ y la regla de la cadena da una fórmula para derivar a $z$ como una función de $t$, como vemos en el siguiente teorema.
$\frac{\partial z}{\partial t} = \frac{\partial z}{\partial x} \frac{\partial x}{\partial t} + \frac{\partial z}{\partial y} \frac{\partial y}{\partial t}$
Ejemplo: Si $z=x-xy$, $x=t^{2}$ y $y=t^{2}-4t$, determine $\frac{dz}{dt}$.
La regla de la cadena nos da
$\frac{\partial z}{\partial t} = \frac{\partial z}{\partial x} \frac{\partial x}{\partial t} + \frac{\partial z}{\partial y} \frac{\partial y}{\partial t} = (1-y)(2t) + (-x)(2t-4)$
Sustituimos los valores de $x$ y $y$
$\frac{\partial z}{\partial t} = (1-(t^{2}-4t))(2t) + (-(t^{2}))(2t-4) $
$= 2t-2t^{3}+8t^{2} -2t^{3} + 4t^{2} = 2t+12t^{2}-4t^{3}$
Podemos comprobar que la fórmula de la regla de la cadena es correcta si calculamos directamente $\frac{\partial z}{\partial t}$ poniendo la función $z$ en términos de la variable $t$, es decir sustituyendo las funciones de $x$ y $y$ en $z$ como vemos a continuación.
$z=(t^{2}) - (t^{2} \cdot (t^{2}-4t)) = t^{2} + 4t^{3} - t^{4} $
Ahora calculamos la derivada de $z$ con respecto de $t$
$\frac{\partial z}{\partial t} = 2t + 12t^{2} - 4t^{3}$
y como vemos, obtenemos el mismo resultado que al aplicar la regla de la cadena.
El segundo caso se da cuando una función $z = f(x,y)$, y las variables $x$ y $y$ son funciones de dos variables $s$ y $t$ (es decir $x = g(s,t)$ y $y = h(s,t)$), lo que significa que $z$ es indirectamente una función de $s$ y $t$ y deseamos calcular $\frac{\partial z}{\partial s}$ y $\frac{\partial z}{\partial t}$.
Para calcular $\frac{\partial z}{\partial t}$ mantenemos fija a $s$ y calculamos la derivada de $z$ con respecto de $t$. Por lo tanto podemos aplicar el y obtener
$\frac{\partial z}{\partial s} = \frac{\partial z}{\partial x} \frac{\partial x}{\partial s} + \frac{\partial z}{\partial y} \frac{\partial y}{\partial s}$
De la misma manera para $\frac{\partial z}{\partial t}$ tenemos que
$\frac{\partial z}{\partial t} = \frac{\partial z}{\partial x} \frac{\partial x}{\partial t} + \frac{\partial z}{\partial y} \frac{\partial y}{\partial t}$
De lo anterior se sigue el siguiente teorema
$\frac{\partial z}{\partial s} = \frac{\partial z}{\partial x} \frac{\partial x}{\partial s} + \frac{\partial z}{\partial y} \frac{\partial y}{\partial s}$ y $\frac{\partial z}{\partial t} = \frac{\partial z}{\partial x} \frac{\partial x}{\partial t} + \frac{\partial z}{\partial y} \frac{\partial y}{\partial t}$
Ejemplo: Si $z=3x^{2} -2xy$, $x=3s+2t$ y $y=2st$, determine $\frac{dz}{ds}$ y $\frac{dz}{dt}$.
Aplicando la regla de la cadena obtenemos
$\frac{\partial z}{\partial s} = \frac{\partial z}{\partial x} \frac{\partial x}{\partial s} + \frac{\partial z}{\partial y} \frac{\partial y}{\partial s} = (6x-2y)(3)+ (-2x)(2t)$
$ = 18x-6y-4xt$
$\frac{\partial z}{\partial t} = \frac{\partial z}{\partial x} \frac{\partial x}{\partial t} + \frac{\partial z}{\partial y} \frac{\partial y}{\partial t} = (6x-2y)(2)+ (-2x)(2s)$
$ = 12x-4y-4xs$
Sustituimos los valores de $x$ y $y$
$18(3s+2t) - 6(2st) - 4(3s+2t)(t) = 54s+36t-12st-12st-8t^{2} $
$= 54s+36t-24st-8t^{2}$
$\frac{dz}{dt} = 12(3s+2t)-4(2st)-4(3s+2t)(s) = 36s+24t-8st-12s^{2}-8ts$
$ =36s+24t-16st-12s^{2}$
Al igual que en el ejemplo anterior podemos comprobar que la fórmula de la cadena es correcta si calculamos directamente $\frac{\partial z}{\partial s}$ y $\frac{\partial z}{\partial t}$ poniendo a $z$ en términos de las variables $s$ y $t$, esto sustituyendo las funciones de $x$ y $y$ en $z$ como sigue.
$z = 3(3s+2t)^{2} - (2(3s+2t)(2st)) $
$= 3(9s^{2}+12st+4t^{2}) - ((6s + 4t)(2st)) $
$= 27s^{2} +36st+12t^{2} - 12s^{2}t-8st^{2}$
Por último simplemente calculamos $\frac{dz}{ds}$ y $\frac{dz}{dt}$
$\frac{\partial z}{\partial s} = 54s + 36t - 24st -8t^{2} $
$\frac{\partial z}{\partial t} = -12s^{2} + 36s -16st +24t $
Como vemos obtenemos los mismos resultados. En este caso tenemos tres tipos de variables, $s$ y $t$ son variables independientes, $x$ y $y$ son variables intermedias y $z$ es la variable dependiente.
Observe como el tiene un término por cada variable intermedia y cada uno de estos términos es similar a la regla de la cadena en funciones con una sola variable.
Si consideramos el caso general donde una variable dependiente $u$ es función derivable de $n$ variables intermedias $x_{1},x_{2},...,x_{n}$, y cada una de estas es una función de $m$ variables independientes $t_{1},t_{2},...,t_{n}$, entonces $u$ es una función de $t_{1},t_{2},...,t_{n}$, es decir.
$\frac{\partial u}{\partial t_{i}} = \frac{\partial u}{\partial x_{1}} \frac{\partial x_{1}}{\partial t_{i}} + \frac{\partial u}{\partial x_{2}} \frac{\partial x_{2}}{\partial t_{i}} + \cdots + \frac{\partial u}{\partial x_{n}} \frac{\partial x_{n}}{\partial t_{i}}$
Para recordar la regla de la cadena puede ser útil dibujar un diagrama de árbol como el que se ve en la .
En términos generales, la variable $u$ que está hasta arriba es la variable dependiente, las que se encuentran un nivel abajo $(x_{1},x_{2},...,x_{n})$ son las variables intermedias y las hojas $(t_{1},t_{2},...,t_{n})$ son las variables independientes. Si queremos determinar la expresión de la regla de la cadena para la variable dependiente $u$ a las variables independientes $t_{i}$ (es decir $\frac{\partial u}{\partial t_{i}}$), dibujamos ramas desde la variable dependiente $u$ a las variables intermedias $x_{i}$ para indicar que $u$ es función de $x_{1},x_{2},...,x_{n}$.
Luego dibujamos ramas de las variables intermedias $x_{i}$ a las variables independientes $t_{i}$.
Cada rama que va de $x_{i}$ a $t_{i}$ representa la derivada parcial $\frac{\partial x_{i}}{\partial t_{i}}$. Entonces para determinar $\frac{\partial u}{\partial t_{i}}$ calculamos el producto de las derivadas parciales de las trayectorias que van de $u$ a $t_{i}$ y luego sumamos los productos.
Ejemplo: Exprese la regla de la cadena en el caso donde $u = f(x_{1},x_{2},x_{3})$ y $x_{1} = x_{1}(t_{1},t_{2}), x_{2} = x_{2}(t_{1},t_{2})$ y $x_{1} = x_{3}(t_{1},t_{2})$.
Como podemos ver tenemos tres variables intermedias y dos variables independientes, por lo que nos interesa conocer las expresiones de $\frac{\partial u}{\partial t_{1}} $ y $\frac{\partial u}{\partial t_{2}}$.
Para $\frac{\partial u}{\partial t_{1}}$ trazamos todas las trayectoria de $u$ a $t_{1}$, en este caso tenemos tres, que son: $u \rightarrow x_{1} \rightarrow t_{1} $, $u \rightarrow x_{2} \rightarrow t_{1} $ y $u \rightarrow x_{3} \rightarrow t_{1} $. Ahora multiplicamos las derivadas de las trayectorias, es decir $\frac{\partial u}{\partial x_{1}} \frac{\partial x_{1}}{t_{1}}$, $\frac{\partial u}{\partial x_{2}} \frac{\partial x_{2}}{t_{1}}$ y $\frac{\partial u}{\partial x_{3}} \frac{\partial x_{3}}{t_{1}}$. Por último sumamos los productos y obtenemos
$\frac{\partial u}{\partial t_{1}} = \frac{\partial u}{\partial x_{1}} \frac{\partial x_{1}}{t_{1}} + \frac{\partial u}{\partial x_{2}} \frac{\partial x_{2}}{t_{1}} + \frac{\partial u}{\partial x_{3}} \frac{\partial x_{3}}{t_{1}}$
Hacemos lo mismo para $\frac{\partial u}{\partial t_{2}}$ y obtenemos
$\frac{\partial u}{\partial t_{2}} = \frac{\partial u}{\partial x_{1}} \frac{\partial x_{1}}{t_{2}} + \frac{\partial u}{\partial x_{2}} \frac{\partial x_{2}}{t_{2}} + \frac{\partial u}{\partial x_{3}} \frac{\partial x_{3}}{t_{2}}$
Ya se han definido las derivadas parciales en funciones con varias variables. Por ejemplo, si tomamos una función $z = f(x,y)$, sabemos que tiene dos derivadas parciales $f_{x}$ y $f_{y}$. Estas derivadas corresponden a cada una de las variables independientes de la función (en este caso $x$ y $y$), y pueden interpretarse como pendientes de una recta tangente paralela al eje $x$ o $y$.
Equivalentemente, $f_{x}$ es la razón de cambio de la función en la dirección del vector unitario $\overrightarrow{i}$ y $f_{y}$ es la razón de cambio en la dirección del vector unitario $\overrightarrow{j}$, es decir $f_{x}$ es la pendiente de una recta tangente paralela al eje $x$ que pasa en un punto de la gráfica de $f(x,y)$ y $f_{y}$ es la pendiente de una recta tangente paralela al eje $y$.
Ahora, si consideramos el caso donde una recta tangente no es paralela a ningún eje, es necesario definir un nuevo tipo de derivada que nos permita calcular la razón de cambio de $z = f(x,y)$ en una dirección arbitraria, lo que viene siendo la derivada direccional.
Recordemos que para una función de dos variables $z = f(x,y)$ sus derivadas parciales se definen como
$\frac{\partial f}{\partial x} = f_{x} (x_{0},y_{0}) = \lim\limits_{h \rightarrow 0} \frac{f(x_{0}+h,y_{0}) - f(x_{0},y_{0})}{h} $
$\frac{\partial f}{\partial y} = f_{y} (x_{0},y_{0}) = \lim\limits_{h \rightarrow 0} \frac{f(x_{0},y_{0}+h) - f(x_{0},y_{0})}{h} $
y representan las razones de cambio de $z$ en las direcciones $x$ y $y$, o bien, la razón de cambio en las direcciones de los vectores unitarios $\overrightarrow{i}$ y $\overrightarrow{j}$.
Supongamos que queremos encontrar la razón de cambio de $z$ en $(x_{0},y_{0})$ en la dirección de un vector unitario $\overrightarrow{u} = a \overrightarrow{i} + b \overrightarrow{j}$. Para eso consideremos la superficie $S$ que representa la gráfica de $f$ y un punto $P(x_{0},y_{0},z_{0})$ que se encuentre sobre la superficie $S$. El plano vertical que pasa por $P$ en la dirección de $\overrightarrow{u}$ interseca a $S$ en una curva $C$ y la pendiente de la recta tangente $T$ a $C$ en el punto $P$ es la razón de cambio de $f$ en la dirección de $\overrightarrow{u}$. En la podemos ver la representación gráfica de la razón de cambio en la dirección de $u$.
Al variar $u$, se obtienen las razones con las que cambia $f$ con respecto a la distancia, al pasar por $P$ en distintas direcciones. Definamos esa idea con mayor precisión. Si $Q(x,y,z)$ es otro punto sobre la curva que se interseca en el plano vertical que pasa por $P$ en la dirección de $u$, y $P'$, $Q'$ son las proyecciones de $P'$ y $Q'$ sobre el plano $xy$, entonces
$\overrightarrow{P'Q'} = h\overrightarrow{u} = h a\overrightarrow{i} + h b\overrightarrow{j}$
Para algún $h$. Por lo tanto, $x-x_{0} = h a$, $y-y_{0} = h b$, por lo que $x = x_{0} + h a$, $y = y_{0} + h b$ y
$\frac{\varDelta z}{h} = \frac{f(x_{0} + h a, y_{0} + h b) - f(x_{0},y_{0})}{h}$
Si tomamos el límite cuando $h$ tiende a $0$, obtenemos la razón de cambio de $z$ con respecto a la distancia en la dirección de $\overrightarrow{u}$, que es llamada derivada direccional de $f$ en la dirección de $\overrightarrow{u}$.
$D_{u} f(x_{0},y_{0}) = \lim\limits_{h \rightarrow 0} \frac{f(x_{0} + h a, y_{0} + h b) - f(x_{0},y_{0})}{h}$
Además, si el vector unitario $\overrightarrow{u}$ forma un ángulo $\theta$ con el eje positivo $x$ entonces podemos escribir $\overrightarrow{u} = cos(\theta) \overrightarrow{i} + sen(\theta) \overrightarrow{j}$ y la fórmula de la se transforma en
$D_{u} f(x_{0},y_{0}) = \lim\limits_{h \rightarrow 0} \frac{f(x_{0} + h cos(\theta), y_{0} + h sen(\theta)) - f(x_{0},y_{0})}{h}$
Ejemplo: Sea $\theta = arccos \left(\frac{4}{5}\right)$, calcule la derivada direccional $D_{u} f(x,y)$ de $f(x,y) = x^{2}+2y^{2}$ en la dirección del vector unitario $\overrightarrow{u} = cos(\theta) \overrightarrow{i} + sen(\theta) \overrightarrow{j}$. ¿Cuál es el resultado de $D_{u}(2,2)?$
Primero calculamos $cos(\theta)$ y $sen(\theta)$ (en radianes), en este caso
$cos \left(arccos(\frac{4}{5})\right) = \frac{4}{5}$ y $sen \left(arccos(\frac{4}{5}) \right) = \frac{3}{5}$
Usando $f(x,y) $, calculamos $f(x_{0} + h cos(\theta), y_{0} + h sen(\theta)):$
$f(x_{0} + h cos(\theta), y_{0} + h sen(\theta)) = (x_{0} + h cos(\theta))^{2} + 2(y_{0} + h sen(\theta))^{2}$
$= x^{2}+2xh cos(\theta) + h^{2} cos^{2}(\theta) + 2y^{2} + 4yh sen(\theta) + 2h^{2} sen^{2}(\theta)$
$= x^{2}+2xh \left(\frac{4}{5}\right) + h^{2} \left(\frac{16}{25}\right) + 2y^{2} + 4yh \left(\frac{3}{5}\right) + 2h^{2} \left(\frac{9}{25}\right) $
$= x^{2}+ \left(\frac{8xh}{5}\right) + \left(\frac{16h^{2}}{25}\right) + 2y^{2} + \left(\frac{12yh}{5}\right) + \left(\frac{18h^{2}}{25}\right) $
$= x^{2}+ \left(\frac{8xh}{5}\right) + \left(\frac{34h^{2}}{25}\right) + 2y^{2} + \left(\frac{12yh}{5}\right) $
Sustituimos esta expresión en la fórmula de la
$D_{u} f(x_{0},y_{0}) = \lim\limits_{h \rightarrow 0} \frac{f(x_{0} + h cos(\theta), y_{0} + h sen(\theta)) - f(x_{0},y_{0})}{h}$
$ = \lim\limits_{h \rightarrow 0} \frac{(x^{2}+ \left(\frac{8xh}{5}\right) + \left(\frac{34h^{2}}{25}\right) + 2y^{2} + \left(\frac{12yh}{5}\right)) - (x^{2} + 2y^{2})}{h}$
$= \lim\limits_{h \rightarrow 0} \frac{x^{2}+ \left(\frac{8xh}{5}\right) + \left(\frac{34h^{2}}{25}\right) + 2y^{2} + \left(\frac{12yh}{5}\right) - x^{2} - 2y^{2}}{h}$
$= \lim\limits_{h \rightarrow 0} \frac{\left(\frac{8xh}{5}\right) + \left(\frac{34h^{2}}{25}\right) + \left(\frac{12yh}{5}\right) }{h}$
$= \lim\limits_{h \rightarrow 0} \left(\frac{8x}{5}\right) + \left(\frac{34h}{25}\right) + \left(\frac{12y}{5}\right)$
$= \frac{8x + 12y}{5}$
Por último calculamos $D_{u} f(2,2)$ sustituyendo los valores de $x$ y $y$
$D_{u} f(1,1) = \frac{8(2) + 12(2)}{5} = \frac{40}{5} = 8 $
Otra manera de calcular las derivadas direccionales es utilizando derivadas parciales como se describe en el siguiente teorema.
$D_{u} f(x,y) = f_{x}(x,y) a + f_{y}(x,y) b$
De igual manera, si el vector unitario $\overrightarrow{u}$ forma un ángulo $\theta$ con el eje positivo $x$ entonces podemos escribir la fórmula del como sigue
$D_{u} f(x,y) = f_{x}(x,y) cos(\theta) + f_{y}(x,y) sen(\theta)$
Ejemplo: Sea $\theta = arccos \left(\frac{4}{5}\right)$, calcule la derivada direccional $D_{u} f(x,y)$ de $f(x,y) = x^{2}+2y^{2}$ en la dirección del vector unitario $\overrightarrow{u} = cos(\theta) \overrightarrow{i} + sen(\theta) \overrightarrow{j}$. ¿Cuál es el resultado de $D_{u}(2,2)?$.
Primero calculamos $cos(\theta)$ y $sen(\theta)$ (en radianes), en este caso
$cos \left(arccos(\frac{4}{5})\right) = \frac{4}{5}$ y $sen \left(arccos(\frac{4}{5}) \right) = \frac{3}{5}$
Calculamos las derivadas parciales $f_{x}$, $f_{y}$
$f_{x} = 2x$ y $f_{y} = 4y$
$D_{u} f(x,y) = 2x \left(\frac{4}{5} \right) + 4y \left(\frac{3}{5} \right) = \left(\frac{8x}{5} \right) + \left(\frac{12y}{5} \right)$
Por último calculamos $D_{u} f(2,2)$ sustituyendo los valores de $x$ y $y$
$ \left(\frac{8(2)}{5} \right) + \left(\frac{12(2)}{5} \right) = \left(\frac{16}{5} \right) + \left(\frac{24}{5} \right) = 8$
Este fue el mismo ejemplo que se calculó utilizando la , como vemos obtuvimos el mismo resultado realizando menos pasos.
En general, la derivada direccional de una función de $n$ variables $f(x_{1},x_{2},...,x_{n})$ en la dirección del vector $\overrightarrow{u} = (u_{1},u_{2},...,u_{n})$ es la función definida por el límite
$D_{u} f(x_{1},x_{2},...,x_{n}) = \lim\limits_{h \rightarrow 0} \frac{f(x_{1}+h) - f(\overrightarrow{x})}{h}$
y podemos calcularla utilizando derivadas parciales con la fórmula
$D_{u} f(x_{1},x_{2},...,x_{n}) = f_{x_{1}}(x_{1},x_{2},...,x_{n}) u_{1} + f_{x_{2}}(x_{1},x_{2},...,x_{n}) u_{2} + \cdots + f_{x_{n}}(x_{1},x_{2},...,x_{n}) u_{n}$
Ahora supongamos que se tiene una función de varias variables $f$. Si consideramos todas las derivadas direccionales posibles de $f$ en un punto, estamos obteniendo las razones de cambio que hay en todas las direcciones posibles en ese punto. Lo que nos hace preguntarnos, ¿en qué dirección $f$ cambia más rápido? y ¿cuál es la razón de cambio máxima y mínima? Estas preguntas se pueden responder con un vector llamado vector gradiente, ya que tiene propiedades muy importantes que nos permiten calcular el sentido de crecimiento o decremento de una función en un punto como veremos a continuación.
La fórmula del puede escribirse como el producto interno de dos vectores. Si definimos el primer vector como $\nabla f(x,y) = f_{x}(x,y)\overrightarrow{i} + f_{y}(x,y)\overrightarrow{j}$ y el segundo vector como $\overrightarrow{u} = cos(\theta)\overrightarrow{i} + sen(\theta)\overrightarrow{j}$ tenemos que
$D_{u} f(x,y) = f_{x}(x,y) cos(\theta) + f_{y}(x,y) sen(\theta)$
$= (f_{x}(x,y) ,f_{y}(x,y)) \cdot (cos(\theta),sen(\theta)) = \nabla f(x,y) \cdot \overrightarrow{u}$
El primer vector $\nabla f(x,y)$ es conocido como el vector gradiente de la función $f$ y nos indica el sentido de crecimiento más rápido de una función en un punto dado. En funciones con dos variables se define como sigue:
$\nabla f(x,y) = (f_{x}(x,y),f_{y}(x,y)) = \frac{\partial f}{\partial x} \overrightarrow{i} + \frac{\partial f}{\partial y} \overrightarrow{j}$
En el siguiente ejemplo se ve cómo podemos calcular la derivada direccional utilizando el vector gradiente.
Ejemplo: Calcule la derivada direccional $D_{u} f(x,y)$ de la función $f(x,y) = 2x^{2} + y^{3}$ en la dirección del vector $\overrightarrow{v} = 2\overrightarrow{i} + 2\overrightarrow{j}$ en el punto $(2,1)$ utilizando el vector gradiente.
Primero calculamos el vector gradiente en el punto $(2,1)$
$\nabla f(x,y) = \frac{\partial f}{\partial x} \overrightarrow{i} + \frac{\partial f}{\partial y} \overrightarrow{j} = 4x \overrightarrow{i} + 3y^{2} \overrightarrow{j} $
$\nabla f(2,1) = 4(2) \overrightarrow{i} + 3(2)^{2} \overrightarrow{j} = 8 \overrightarrow{i} + 3 \overrightarrow{j} $
Notemos que $\overrightarrow{v}$ no es un vector unitario, así que utilizamos su norma para calcular un vector unitario $\overrightarrow{u}$ con su misma dirección
$||\overrightarrow{v}|| = \sqrt{2^{2} + 2^{2}} = \sqrt{8}$
$\Rightarrow \overrightarrow{u} = \frac{2}{\sqrt{8}} \overrightarrow{i} + \frac{2}{\sqrt{8}} \overrightarrow{j}$
Por último calculamos la derivada direccional de $f$ en la dirección de $\overrightarrow{u}$ utilizando el vector gradiente
$D_{u} f(2,1) = \nabla f(2,2) \cdot \overrightarrow{u} = (4\overrightarrow{i} + 3\overrightarrow{j}) \cdot (\frac{2}{\sqrt{8}} \overrightarrow{i} + \frac{2}{\sqrt{8}} \overrightarrow{j})$
$= \frac{4\cdot 2 + 3\cdot 2}{\sqrt{8}} = \frac{14}{\sqrt{8}}$
Como se dijo anteriormente, el vector gradiente nos indica la dirección en la que la función crece más rápidamente en un punto. Por lo tanto la derivada direccional tiene su valor máximo en la dirección del vector gradiente y tiene la particularidad de que coincide con su módulo. A esta propiedad se le conoce como derivada direccional máxima y se explica de la siguiente manera.
Si tomamos la fórmula de la derivada direccional en funciones con dos variables $D_{u} f(x,y) = \nabla f(x,y) \cdot \overrightarrow{u}$ y la definición del producto interno de dos vectores () $\overrightarrow{a} \cdot \overrightarrow{b} = ||\overrightarrow{a}|| \space ||\overrightarrow{b}|| \space cos(\alpha)$, donde $\alpha$ es el ángulo entre los dos vectores, tenemos lo siguiente
$D_{u} f(x,y) = \nabla f(x,y) \cdot \overrightarrow{u} = ||\nabla f(x,y)|| \space || \overrightarrow{u}|| \space cos(\alpha) $
$= ||\nabla f(x,y)|| \space cos(\alpha)$
Donde ||$\overrightarrow{u}$|| lo podemos omitir de la expresión ya que por definición la norma de un vector unitario siempre es $1$. Por lo tanto la derivada direccional máxima de un punto evaluado en un punto es igual a la magnitud del gradiente multiplicado por $cos(\alpha)$.
Recordemos que $cos(\theta)$ varía de $-1$ a $1$. En particular, si $\theta = 0$, entonces $cos(\theta) = 1$ y tanto $\nabla f(x,y)$ como $\overrightarrow{u}$ apuntan hacia la misma dirección. Si $\theta = \pi$, entonces $cos(\theta) = -1$ y $\nabla f(x,y)$ apunta en dirección opuesta a $\overrightarrow{u}$. Si $\nabla f(x,y) = 0$, entonces $D_{u} f(x,y) = \nabla f(x,y) \cdot \overrightarrow{u} = 0$ para algún vector unitario $\overrightarrow{u}$.
Estos tres casos describen la derivada direccional máxima, mínima y nula como vemos en el siguiente teorema.
Estas propiedades sirven para cualquier función con más de dos variables y la generalización es análoga.
Ejemplo: Calcule la máxima y mínima derivada direccional de la función $f(x,y) = 4x^{2} + y^{2}$ en el punto $(2,2)$.
Primero calculamos el vector gradiente de $f$ en el punto $(2,2)$.
$\nabla f(2,2) = 8(2)\overrightarrow{i}+ 2(2)\overrightarrow{j}= 16\overrightarrow{i}+ 4\overrightarrow{j}$
Ahora calculamos la norma del vector obtenido
$||\nabla f(2,2)|| = \sqrt{16^{2} + 4^{2}} = \sqrt{256 + 16} = \sqrt{272}$
Entonces $\sqrt{272}$ es la derivada direccional máxima y por la propiedad 3 del la derivada direccional mínima es $-\sqrt{272}$
Como ya vimos, el gradiente de una función de varias variables $f$ denotada como $\nabla f$, es el conjunto de todas las derivadas parciales de $f$ en forma de un vector. Esto significa que $\nabla f$ es una función vectorial, lo que quiere decir que lo podemos visualizar como un campo vectorial (expresión que asocia un vector a cada punto) el cual es comúnmente llamado campo gradiente de $f$.
Supongamos que tenemos la función de dos variables $f(x,y) = x^2-y^2$. El gradiente es igual a
$\nabla f(x,y) = 2x \overrightarrow{i} + 2y \overrightarrow{j}$
lo que convierte a cada punto de entrada $(x_{0},y_{0})$ en un vector como vemos en la .
Ahora, si recordamos las curvas de nivel, estas también se dibujan en el espacio de entrada de una función $f$, lo que nos hace preguntarnos, ¿qué pasa si el campo gradiente de una función $f$ se coloca sobre el mapa de curvas de nivel que le corresponden a $f$?
Si nuevamente tomamos como ejemplo la función $f(x,y) = x^2-y^2$ y dibujamos sus curvas de nivel podemos notar que cada vector es ortogonal a la curva de nivel que toca. Esta propiedad se explica con el siguiente análisis.
Si una función diferenciable $f(x,y)$ tienen un valor constante $c$ a lo largo de una curva parametrizada $\overrightarrow{r} = g(t) \overrightarrow{i} + h(t) \overrightarrow{j}$, para alguna variable $t$, haciendo que la curva sea una curva de nivel, entonces $f(g(t),h(t)) = c$. Al derivar ambos lados de esta ecuación con respecto de $t$ tenemos lo siguiente:
$\frac{d}{dt} (g(t),h(t)) = \frac{d}{dt} c$
Aplicando la regla de la cadena
$\frac{\partial f}{\partial x} \frac{dg}{dt} + \frac{\partial f}{\partial y} \frac{dh}{dt}= 0$
$ \Rightarrow \left(\frac{\partial f}{\partial x} \overrightarrow{i} + \frac{\partial f}{\partial y} \overrightarrow{j} \right) \cdot \left(\frac{d g}{d t} \overrightarrow{i} + \frac{d h}{d t} \overrightarrow{j} \right) = 0$
$\Rightarrow \nabla f(x,y) \cdot (g'(t),h'(t)) = 0$
Como el producto interno de estos vectores es igual a cero, significa que son ortogonales (), además, el segundo vector es tangente a la curva de nivel (ya que es la derivada de la curva de nivel dada por $\overrightarrow{r}$ ), lo que implica que el vector gradiente es ortogonal a la curva de nivel.
En la podemos ver que dado un punto, el gradiente es ortogonal a la curva de nivel donde se encuentra.
Ahora veamos un ejemplo donde se calcula el vector tangente.
Ejemplo: Calcule el vector tangente a la curva de nivel en el punto $(1,1)$ de la función $f(x,y) = xy+x^{2} $.
Primero calculamos el gradiente
$f_{x} = y + 2x $ y $f_{y} = x$
$\nabla f(x,y) = (y + 2x) \overrightarrow{i} + x \overrightarrow{j}$
Evaluamos en el punto $(1,1)$
$\nabla f(1,1) = (1 + 2(1)) \overrightarrow{i} + 1 \overrightarrow{j} = 3 \overrightarrow{i} + 1 \overrightarrow{j}$
Este vector es ortogonal a la curva de nivel en el punto $(1,1)$. Para obtener el vector tangente invertimos sus componentes y multiplicamos el primero por $-1$.
Vector tangente = $ -1(1) \overrightarrow{i} + 3 \overrightarrow{j} = -1 \overrightarrow{i} + 3 \overrightarrow{j}$
Y al dibujarlo en el plano $xy$ obtenemos el vector con origen en $(1,1)$ y punto final en $(1-1,1+3) = (0,4)$.
Por último, en la podemos apreciar que en efecto, el vector gradiente siempre apunta hacia la dirección de la gráfica donde la pendiente se incrementa más rápido.
Cuando es complicado trabajar con una función, es común tratar de encontrar una función más sencilla que de cierta manera aproxime a la función inicial. Como ya vimos, es posible aproximar una función de dos variables $f(x,y)$ utilizando una función lineal, es decir por medio de la ecuación de su plano tangente.
La ecuación del plano tangente no es otra cosa que el polinomio de Taylor de primer grado para $f$ en $(x,y)$. Esta aproximación puede ser lo bastante buena, sin embargo es posible mejorarla utilizando una función de grado mayor, en particular utilizando un polinomio de Taylor de grado $n$ para $f$ en $(x,y)$ como veremos en esta sección.
La idea para aproximar una función de una variable $f(x)$ es tomar un valor $a$ de tal forma que $f(a)$ es conocido y a partir de este construir un polinomio de grado $n$ denotado como $P_{n}(x)$, cuya gráfica pase por el punto $(a,f(a))$ y aproxime bien la gráfica de la función, en otras palabras intentar hacer $f(x) = P_{n}(x)$.
Si consideramos $x=a$ y el polinomio de grado $n$
$P_{n}(x) =a_{0} + a_{1}(x-a)+a_{2}(x-a)^{2}+a_{3}(x-a)^{3} + \cdots + a_{n}(x-a)^{n}$
$\Rightarrow P_{n}(a) = a_{0} + a_{1}(0)+a_{2}(0)^{2}+ a_{3}(0) + \cdots +a_{n}(0)^{n} = a_{0}$
Si derivamos $P_{n}(x)$ y sustituimos $x=a$ obtenemos
$P_{n}'(x) = a_{1} + 2a_{2}(x-a) + 3a_{3}(x-a)^{2} + \cdots +na_{n}(x-a)^{n-1}$
$\Rightarrow P_{n}'(a) = a_{1} + 2a_{2}(0) + 3a_{3}(0) + \cdots +na_{n}(0)^{n-1} = a_{1}$
Si derivamos $P_{n}'(x)$ y sustituimos $x=a$ obtenemos
$P_{n}''(x) = 2a_{2} + 6a_{3}(x-a) + \cdots +n(n-1) a_{n}(x-a)^{n-2}$
$\Rightarrow P_{n}''(x) = 2a_{2} + 6a_{3}(0) + \cdots +n(n-1) a_{n}(0)^{n-2} = 2a_{2}$
$\Rightarrow P_{n}''(a) = a_{2} \Rightarrow a_{2} = \frac{P_{a}''(x)}{2}$
Si continuamos haciendo el mismo procedimiento hasta no poder hacerlo más tenemos que
$P_{n}^{'n}(a) = n(n-1)(n-2) \cdots 2a_{n} \Rightarrow a_{n} = \frac{P_{n}^{'n}(a)}{n(n-1)(n-2) \cdots 2 \cdot 1}$
Por lo tanto podemos escribir el polinomio como
$P_{n}(x) = P_{n}(a) + \frac{P_{n}'(a)}{1!}(x-a) + \frac{P_{n}''(a)}{2!}(x-a)^{2} + \frac{P_{n}^{'n}(a)}{n!} (x-a)^{2} $
Que puede generalizarse en funciones con una variable como vemos en la siguiente definición.
$P_{n}(x) = f(a) + \frac{f'(a)}{1!}(x-a) + \frac{f''(a)}{2!}(x-a)^{2} + \frac{f^{'n}(a)}{n!} (x-a)^{n}$
Es llamado polinomio de grado $n$ para $f$ en $a$.
Ejemplo: Encuentre polinomio de grado $2$ de la aproximación de Taylor para la función $f(x) = 2x^3-x$ en el punto $a=2$
En este caso se pide el polinomio de grado $2$, por lo que haremos la primera y segunda derivada de $f(x)$.
$f'(x) = 6x^2 - 1$
$f''(x) = 12x $
Sustituimos $a=2$ en $f(x)$, $f'(x)$ y $f''(x)$.
$f(2) = 2(2)^{3} - 2 = 14$
$f'(2) = 6(2)^{2}- 1 = 23$
$f''(2) = 12(2) = 24$
Ya que tenemos el valor de las derivadas en el punto $a=2$, lo sustituimos en el polinomio de Taylor de grado $2$ para $f(x)$.
$P_{2}(2) \simeq 14 + 23(x-2) + \frac{24}{2}(x-2)^{2} $
$= 14 + 23x - 46 + 12x^2-48x+48$
$= 12x^2-25x+16$
Comparamos el resultado de la aproximación con el de la función original en el punto $a=2$.
$f(2) = 2(2)^{3} - 2 = 16-2=14$
$P_{2}(2) = 12(2)^2-25(2)+16 = 48 - 50 +16 = 14 $
Como vemos la aproximación en este caso es exacta en el punto $a=2$. Hay que tomar en cuenta que la aproximación va a ser menos precisa cuanto más alejados estemos del punto que tomamos para hacer los cálculos. Por ejemplo, si evaluamos la aproximación en $a=3$ notamos que hay una diferencia significativa en los resultados del polinomio y la función original.
$f(1) = 2(3)^{3} - 3 = 51$
$P_{2}(3) = 12(3)^2-25(3)+16 = 48 - 50 +16 = 49 $
En la podemos ver gráficamente la aproximación de funciones por el polinomio de Taylor.
Ahora veamos cómo aproximar funciones de varias variables utilizando el polinomio de Taylor. Al igual que en secciones anteriores primero se verá la definición en funciones con dos variables para después generalizarse a $n$ variables.
Ya vimos que en funciones con dos variables $f(x,y)$, la mejor aproximación lineal de $f$ en un punto $(x_{0},y_{0})$ está dada por su plano tangente, es decir
$f(x,y) \simeq f(x_{0},y_{0}) + f_{x}(x_{0},y_{0})(x-x_{0}) + f_{y}(x_{0},y_{0})(y-y_{0})$
Si generalizamos la definición del polinomio de Taylor () a funciones con dos variables tenemos que acompañar a cada variable con su derivada parcial. Por ejemplo, el polinomio de grado uno vendría dado por
$P_{1}(x,y) = f(x_{0},y_{0}) + \frac{f_{x}(x_{0},y_{0})}{1!}(x-x_{0}) + \frac{f_{y}(x_{0},y_{0})}{1!}(y-y_{0})$
Como podemos notar, la ecuación del plano tangente en funciones con dos variables es igual a la ecuación del Polinomio de Taylor de grado uno. Por lo general esta es una buena aproximación, sin embargo podemos mejorarla incrementando el grado del polinomio, es decir utilizando un polinomio de Taylor de grado $n$.
Al igual que en funciones con una variable necesitaremos que $f(x,y)$ pueda derivarse $n$ veces, para ello $f$ debe tener derivadas de orden superior. Por ejemplo, si queremos hacer una aproximación cuadrática, utilizamos el polinomio de Taylor de grado dos y necesitamos que $f$ tenga derivadas de orden dos, es decir que existan $f_{xx}$, $f_{yy}$, $f_{xy}$ y $f_{yx}$. En este caso el polinomio de grado dos estaría dado por
$P_{2}(x,y) = f(x_{0},y_{0}) + \frac{f_{x}(x_{0},y_{0})}{1!}(x-x_{0}) + \frac{f_{y}(x_{0},y_{0})}{1!}(y-y_{0}) + $
$+ \frac{f_{xx}(a,b)}{2!}(x-x_{0})^{2}+f_{xy}(x_{0},y_{0})(x-x_{0})(y-y_{0}) + \frac{f_{yy}}{2!}(y-y_{0})^{2}$
Nota: Como las derivadas parciales cruzadas $f_{xy}$ y $f_{yx}$ son iguales (), las combinamos en un solo término.
$P_{2}(x,y) = f(x_{0},y_{0}) + \frac{f_{x}(x_{0},y_{0})}{1!}(x-x_{0}) + \frac{f_{y}(x_{0},y_{0})}{1!}(y-y_{0}) + $
$+ \frac{f_{xx}(a,b)}{2!}(x-x_{0})^{2}+f_{xy}(x_{0},y_{0})(x-x_{0})(y-y_{0}) + \frac{f_{yy}}{2!}(y-y_{0})^{2}$
Ejemplo: Encuentre el polinomio de grado $2$ de la aproximación de Taylor para la función $f(x,y) = sen(x)+sen(y)$ en el punto $(1,2)$.
Primero evaluamos la función en el punto $(1,2)$
$f(1,2) \simeq 0.84 + 0.90 \simeq 1.75$
Ahora calculamos las derivadas parciales de primer y segundo orden:
$f_{x}(1,2) = cos(x) \simeq 0.54$
$f_{xx}(1,2) = -sen(x) \simeq -0.84$
$f_{y}(1,2) = cos(y) \simeq -0.41$
$f_{yy}(1,2) = -sen(y) = -0.90$
$f_{xy}(1,2) = 0$
Sustituimos lo obtenido en la fórmula de la definición y simplificamos.
$P_{2}(x,y) =1.75 + 0.54(x-1) - 0.41(y-2) - \frac{0.84}{2}(x-1)^{2} + 0(x-1)(y-2) -\frac{0.90}{2}(y-2)^{2} $
$=1.75 + 0.54x - 0.54 - 0.41y + 0.82 - 0.42(x^2-2x +1) - 0.45(y^2-4y+4)$
$= 1.75 + 0.54x - 0.54 - 0.41y + 0.82 - 0.42x^2 + 0.84x - 0.42 - 0.45y^2 + 1.8y + 1.8$
$= -0.19 + 1.38x + 1.39y - 0.42x^2 - 0.45y^2 $
Comparamos el resultado de la aproximación con el de la función original en el punto $(1,2)$
$f(1,2) \simeq 0.84 + 0.90 \simeq 1.75$
$P_{2}(1,2) = -0.19 + 1.38(1) + 1.39(2) - 0.42(1)^2 - 0.45(2)^2 \simeq 1.75$
Como vemos con la aproximación se obtiene el valor exacto de la función (redondeado a 2 décimas), evaluada en el punto $(1,2)$, pero como pasa en funciones con una variable esta aproximación empeora mientras más nos alejemos del punto tomado para obtener el polinomio. Por ejemplo, si utilizamos el polinomio para aproximar el valor de la función en el punto $(0.5,2.5)$ tenemos que
$f(0.5,2.5) = 0.47 + 0.59 \simeq 1.06$
$P_{2}(0.5,2.5) = -0.19 + 1.38(0.5) + 1.39(2.5) - 0.42(0.5)^2 - 0.45(2.5)^2 \simeq 1.05 $
Lo cual nos da un resultado más alejado al valor de la función.
Si utilizáramos sólo la aproximación lineal (polinomio de Taylor de grado $1$) podemos notar que la aproximación es peor aún
$L(x,y) = 1.75 + 0.54(x-1) - 0.41(y-2) = 2.03 + 0.54x - 0.41y$
$L(0.5,2.5) = 2.03 + 0.54(0.5) - 0.41(2.5) = 1.27 $
En general mientras más alto sea el grado del polinomio mejor será la aproximación alrededor del punto tomado como podemos apreciar en la figura.
Si queremos utilizar un polinomio de grado mayor a $2$ en funciones con dos variables podemos calcular el patrón que nos permita que todas las derivadas parciales del polinomio sean iguales a las derivadas parciales de la función en el punto $(x_{0},y_{0})$. Si asumimos que al calcular el polinomio de Taylor grado $n$ de una función $f(x,y)$ existen derivadas parciales de orden $n$, entonces este patrón se define de la siguiente manera.
$P_{n}(x,y)= \displaystyle\sum_{i=0}^n \displaystyle\sum_{j=0}^{n-i} \frac{f_{x^{i}y^{j}}(x_{0},y_{0})}{i!j!}(x-x_{0})^{i}(y-y_{0})^{j}$
Podemos verificar que en efecto obtenemos el polinomio de Taylor de grado $2$ utilizando la definición. Donde los índices en cada iteración en la suma se actualizan de la siguiente manera:
$i=0, j=0$
$i=0, j=1$
$i=0, j=2$
$i=1, j=0$
$i=1, j=1$
$i=2, j=0$
Note que el valor de $j$ inicia en $0$ e incrementa hasta $2-i$.
$P_{2}(x,y)= \displaystyle\sum_{i=0}^2 \displaystyle\sum_{j=0}^{2-i}(x-x_{0})^{i}(y-y_{0})^{j} $
$= \frac{f(x_{0},y_{0})}{0!0!} (x-x_{0})^{0}(y-y_{0})^{0} + \frac{f_{y}(x_{0},y_{0})}{0!1!} (x-x_{0})^{0}(y-y_{0})^{1} + \frac{f_{yy}(x_{0},y_{0})}{0!2!} (x-x_{0})^{0}(y-y_{0})^{2} + \frac{f_{x}(x_{0},y_{0})}{1!0!} (x-x_{0})^{1}(y-y_{0})^{0} + \frac{f_{xy}(x_{0},y_{0})}{1!1!} (x-x_{0})^{1}(y-y_{0})^{1} + \frac{f_{xx}(x_{0},y_{0})}{2!0!} (x-x_{0})^{2}(y-y_{0})^{0}$
$= f(x_{0},y_{0})+f_{y}(x_{0},y_{0})(y-y_{0}) + \frac{f_{yy}(x_{0},y_{0})}{2!}(y-y_{0})^{2} + f_{x}(x_{0},y_{0})(x-x_{0}) + f_{xy}(x_{0},y_{0}) (x-x_{0})(y-y_{0}) + \frac{f_{xx}(x_{0},y_{0})}{2!}(x-x_{0})^{2}$
En general, para cualquier función de $n$ variables tenemos la siguiente expresión.
$P_{n}(\overrightarrow{x}) = f(\overrightarrow{a}) + \frac{\Delta f(\overrightarrow{a})}{1!} \cdot (\overrightarrow{x}-\overrightarrow{a})+\frac{\Delta^{2}f(\overrightarrow{a})}{2!} \cdot (\overrightarrow{x}-\overrightarrow{a})^{2} + \cdots + \frac{\Delta^{n}f(\overrightarrow{a})}{n!} \cdot (\overrightarrow{x}-\overrightarrow{a})^{n} $
Donde $\Delta^{n}f(\overrightarrow{a})$ es una matriz que contiene todas las derivadas parciales de orden $n$ de la función en $\overrightarrow{a} $ y es llamada matriz Hessiana.
$\Delta^2f(x_{1},x_{2},...,x_{n}) = \begin{bmatrix}{f_{x_{1}x_{1}}}&{f_{x_{1}x_{2}}}&{\cdots}&{f_{x_{1}x_{n}}}\\{f_{x_{2}x_{1}}}&{f_{x_{2}x_{2}}}&{\cdots}&{f_{x_{2}x_{n}}}\\{\vdots}&{\vdots}&{}&{\vdots}\\{f_{x_{n}x_{1}}}&{f_{x_{n}x_{2}}}&{\cdots}&{f_{x_{n}x_{n}}}\end{bmatrix}$
Aunque la definición de matriz Hessiana solo considera las derivadas de orden 2 se puede hacer la analogía a órdenes superiores. Esto es debido a que es poco común utilizar un matriz con derivadas parciales de orden 3 o mayor.
Por ejemplo, la matriz Hessiana $\Delta^{2}f(x_{0},y_{0},z_{0})$ en un punto $(x_{0},y_{0},z_{0})$, de una función $f(x,y,z)$ es:
$\begin{bmatrix}{f_{xx}(x_{0},y_{0},z_{0})}&{f_{xy}(x_{0},y_{0},z_{0})}&{f_{xz}(x_{0},y_{0},z_{0})}\\{f_{yx}(x_{0},y_{0},z_{0})}&{f_{yy}(x_{0},y_{0},z_{0})}&{f_{yz}(x_{0},y_{0},z_{0})}\\{f_{zx}(x_{0},y_{0},z_{0})}&{f_{zy}(x_{0},y_{0},z_{0})}&{f_{zz}(x_{0},y_{0},z_{0})}\end{bmatrix}$
En funciones de una variable, un punto crítico es cualquier valor en el dominio donde la función no es diferenciable o cuando su valor es cero y se define de la siguiente manera.
Gráficamente un punto crítico no admite una tangente o la tangente es una línea horizontal o vertical como vemos en la .
Ejemplo 1: Encuentre los puntos críticos de la función $f(x) = x^3+2x^2+1$ definido en la región $ [-5,5]$ del plano $xy$.
Calculamos $f'(x)$
$f'(x) = 3x^2+4x = x(3x+4)$
Como $f(x)$ está definida en todos los reales tenemos que buscar los valores donde $f'(x) = 0$. Para esta función ocurre cuando $x=0$ y $x=-\frac{4}{3}$, por lo tanto la función tiene dos puntos críticos en la región del plano $[-5,5]$.
Ejemplo 2: Encuentre los puntos críticos de la función $f(x) = x^3+6x^2+12x+8$ definido en la región $ [-5,5]$ del plano $xy$.
Calculamos $f'(x)$
$f'(x) = 3x^2 + 12x + 12 = 3(x+2)^2$
En este caso solo se cumple que $f'(x) = 0$ cuando $x=-2$, por lo tanto la función tiene un único punto crítico en la región del plano $[-5,5]$.
En la podemos comprobar que la línea tangente es horizontal en los puntos críticos para ambos casos.
Ya vimos que en funciones con una variable los puntos críticos ocurren cuando la derivada de la función es igual a cero o no existe. En funciones con varias variables la idea es la misma con excepción de que ahora se trabajan con derivadas parciales. De este modo, la definición se puede generalizar de manera directa como sigue.
En funciones con dos variables la interpretación geométrica de los puntos críticos es similar a la que se tiene en funciones con una variable, solo que en este caso en lugar de que se encuentre una línea tangente horizontal en el punto crítico, se encuentra un plano tangente horizontal como podemos apreciar en la .
Ejemplo 1: Calcule los puntos críticos de la función $f(x,y) = sen(x) + cos(y)$ definida en la región $xy$ con dimensión $4$ x $4$.
Calculamos $f_{x}$ y $f_{y}$
$f_{x} = cos(x)$ y $f_{y} = -sen(y)$
Para que $cos(x) = 0$ el valor de $x$ debe ser $\frac{\pi}{2}$ o $-\frac{\pi}{2}$ y para que $-sen(y) = 0$ el valor de $y$ debe ser $\pi$, $-\pi$ o $0$, entonces los puntos críticos de la función se dan en $(-\frac{\pi}{2},-\pi)$, $(-\frac{\pi}{2},0)$, $(-\frac{\pi}{2},\pi)$, $(\frac{\pi}{2},-\pi)$, $(\frac{\pi}{2},0)$ y $(\frac{\pi}{2},\pi)$. En el ejemplo 1 de la podemos ver que en todos esos puntos el plano tangente es horizontal.
Ejemplo 2: Calcule los puntos críticos de la función $f(x,y) = x^4+y^4-4xy+1$ definida en la región $xy$ con dimensión $2$ x $2$.
Calculamos $f_{x}$ y $f_{y}$
$f_{x} = 4x^3-4y = 4(x^3-y)$ y $f_{y} = 4y^3-4x= 4(y^3-x)$
Para que $4(x^3-y) = 0$ los valores de $x$ y $y$ deben ser $x=-1$, $y=-1$ o $x=0$, $y=0$ o $y=1,x=1$, y para que $4(y^3-x) = 0$ de igual manera los valores de $x$ y $y$ deben ser $x=-1$, $y=-1$ o $x=0$, $y=0$ o $y=1,x=1$. Por último las combinaciones de valores que hacen que $4(x^3-y) = 4(y^3-x) = 0$ son en los puntos críticos $(-1,-1)$, $(0,0)$ y $(1,1)$.
El propósito principal de hallar los puntos críticos es localizar los máximos y mínimos de una función, ya que estos proporcionan información relevante que sirven en muchas ciencias para realizar optimizaciones o programación matemática, la cual nos permite seleccionar el mejor elemento dentro de un conjunto según nuestras necesidades. Por ahora se definirán los máximos y mínimos locales de una función, pero más adelante veremos los que son los máximos y mínimos absolutos.
Comúnmente cuando una función tiene un mínimo o un máximo local se dice que la función tiene un extremo local. Los cuales cumplen con una propiedad muy interesante la cual nos dice que si una función tiene un extremo local en un punto $x=a$, entonces el punto $a$ es un punto crítico.
En la podemos ver gráficamente que los extremos locales se encuentran en los puntos donde la función es más alta o baja dentro de un pequeño intervalo. Observe como todos los extremos locales se encuentran en puntos críticos. Esta propiedad se deduce del Teorema de Fermat, la cual dice lo siguiente:
Este teorema es llamado criterio de la primera derivada y nos sirve para identificar con mayor facilidad extremos locales a partir del cálculo de puntos críticos.
Es importante notar que aunque un extremo local siempre se encuentra donde hay un punto crítico, un punto crítico no siempre se encuentra donde hay un extremo local, esto es debido a que los puntos críticos no siempre nos dan los puntos más altos o más bajos de una región, es decir, cuando los puntos críticos son puntos de inflexión (puntos donde la función cambia de concavidad), por ejemplo, si graficamos la función $x^3$ en la vemos que tiene un punto crítico en el origen que a su vez es un punto de inflexión por lo que no es un extremo local.
Entonces para poder hallar los extremos locales por medio de los puntos críticos utilizamos el teorema llamado el criterio de la segunda derivada que dice lo siguiente:
Ejemplo 1: Determine si los puntos críticos de la función $f(x) = x^3+2x^2+1$ definidos en la región $ [-5,5]$ del plano $xy$ son extremos locales utilizando el criterio de la segunda derivada.
Anteriormente se había calculado $f'(x) = 3x^2+4x$ y que los puntos críticos de esta función se dan en $x=0$ y $x=-\frac{4}{3}$. Ahora comprobamos si son extremos locales.
$f''(x) = 6x+4$
Para $x=0$, $f''(0) = 6(0)+4 = 4$. Como $f(a)>0$ entonces es un mínimo local.
Para $x=-\frac{4}{3}$, $f''(0) = 6(-\frac{4}{3})+4 = -8+4=-4$. Como $f(a)< 0$ entonces es un máximo local.
Por lo tanto los dos puntos críticos de la función en el intervalo $[-5,5]$ son extremos locales.
Cuando un punto $x=a$ cumple alguna de las desigualdades de la para todos los puntos donde está definida una función y no solo en los puntos cercanos decimos que $f$ tiene un extremo absoluto (máximo absoluto o mínimo absoluto) en $x=a$, es decir:
Una función no siempre tiene extremos absolutos es por eso que antes de realizar cálculos es recomendable determinar si es que existen. El siguiente teorema conocido como teorema del valor extremo nos da las condiciones suficientes para garantizar esto.
Entonces si nos tomamos un intervalo continuo en $f$ sabemos que existen extremos absolutos y la forma de hallarlos es realizando los pasos del siguiente teorema.
Ejemplo: Calcula los extremos absolutos de la función $f(x) = x^3-3x^2+1$. En el intervalo cerrado y acotado $-\frac{1}{2} \leq x \leq 3.1$.
Como $f$ es continua en $-\frac{1}{2} \leq x \leq 4$ empleamos el procedimiento del . Primero calculamos los puntos críticos.
$f'(x) = 3x^2 - 6x = 3(x^2-2x)$
$f'(x) = 0$ solo ocurre cuando $x=0$ y $x=2$ por lo tanto tiene dos puntos críticos. Calculamos sus valores en $f$.
$f(0) = 0^3-3(0)^2+1 = 1$ y $f(2) = 2^3 - 3(2)^2 + 1 = -3$
Ahora calculamos los valores de $f$ en la frontera del intervalo $-\frac{1}{2} \leq x \leq 3.1$, es decir en $x=-\frac{1}{2}$ y $x=3.1$.
$f(-\frac{1}{2}) = (-\frac{1}{2})^3 - 3(-\frac{1}{2})^2 + 1 = -\frac{1}{8} - \frac{3}{4} + 1= \frac{1}{8}$
$f(3.1) = 3.1^3 - 3(3.1)^2 + 1 \simeq 1.9 $
Comparando todos los valores que obtuvimos concluimos que el máximo absoluto en $-1 \leq x \leq \frac{1}{2}$ se da en el punto frontera $x=3.1$ y el mínimo absoluto en el punto interior $x=2$. Si graficamos la función sobre el intervalo continuo $-\frac{1}{2} \leq x \leq 3.1$ en la es fácil ver que los extremos absolutos se dan en esos puntos.
Al igual que en funciones con una variable, encontrar los puntos críticos nos facilitan la búsqueda de valores extremos. En este caso, dichos valores extremos (máximos y mínimos locales) se definen como sigue.
Máximo local: Si $f(a_{1},a_{2},...,a_{n}) \geq f(x_{1},x_{2},...,x_{n})$ para todos los puntos del dominio $(x_{1},x_{2},...,x_{n})$ en un disco abierto con centro en $(a_{1},a_{2},...,a_{n})$
Mínimo local: Si $f(a_{1},a_{2},...,a_{n}) \leq f(x_{1},x_{2},...,x_{n})$ para todos los puntos del dominio $(x_{1},x_{2},...,x_{n})$ en un disco abierto con centro en $(a_{1},a_{2},...,a_{n})$
Es decir, un extremo local es un punto que es más alto o bajo en comparación con los puntos más cercanos como podemos ver en el ejemplo de la .
Y como en funciones con una variable, para encontrar los extremos locales analíticamente utilizamos el criterio de la primera derivada, la cual dice que:
Este teorema nos dice que los únicos puntos donde la función $f(x_{1},x_{2},...,x_{n})$ tiene extremos locales están en puntos críticos. Sin embargo, es importante notar que esto no quiere decir que siempre vamos a encontrar extremos locales en todos los puntos críticos, por ejemplo, si graficamos la función $f(x)=x^4+y^4-4xy+1$ en la obtenemos los puntos críticos $(-1,-1),(1,1)$ y $(0,0)$, y es fácil ver que los puntos $(-1,-1)$ y $(1,1)$ son mínimos locales, mientras que en el caso del punto $(0,0)$ no es así, ya que tiene tanto puntos más bajos como más altos a su alrededor.
Esto ocurre ya que al igual que en funciones con una variable, un punto crítico podría ser un punto de inflexión, solo que en este caso se da lo que se conoce como puntos silla.
En pocas palabras un punto silla es un punto crítico que no es un extremo local, y al igual que en funciones con una variable podemos identificarlos al criterio de la segunda derivada que se define como sigue en funciones con dos variables.
$D = D(a,b) = f_{xx}(a,b)f_{yy}(a,b) - [f_{xy}(a,b)]^{2}$
Nota 1: Si se presenta el caso donde $D=0$, el teorema no nos da información y ese punto podría ser cualquiera de los tres casos por lo que se tendría que buscar otra manera de determinarlo.
Nota 2: La expresión $f_{xx}(a,b)f_{yy}(a,b) - [f_{xy}(a,b)]^{2}$ se conoce como discriminante o Hessiano de $f$ y también puede escribirse como el determinante:
$D = \begin{vmatrix} f_{xx}(a,b) & f_{xy}(a,b) \\ f_{yx}(a,b) & f_{yy}(a,b) \end{vmatrix}$
Lo que nos dice el teorema es que si el discriminante es positivo en el punto $(a,b)$ la gráfica se curva hacia abajo si $f_{xx} < 0$, por lo que $(a,b)$ es un mínimo local y hacia arriba si $f_{xx}> 0$, por lo que $(a,b)$ es un máximo local. Generalmente el caso donde el discriminante es negativo quiere decir que la gráfica se curva hacia arriba en algunas direcciones y hacia abajo en otras, por lo que $(a,b)$ es un punto silla.
En la podemos ver gráficamente varios ejemplos de este criterio.
Ejemplo: Determine si los puntos críticos de la función $f(x,y) = x^4+y^4-4xy+1$ definida en la región $xy$ con dimensión $2$ x $2$ son extremos locales utilizando criterio de la segunda derivada.
Anteriormente ya se calcularon las primeras derivadas parciales y los puntos críticos de $f$, donde:
$f_{x} = 4x^3-4y = 4(x^3-y)$ y $f_{y} = 4y^3-4x= 4(y^3-x)$
Y los puntos críticos son $(-1,-1)$, $(0,0)$ y $(1,1)$
Ahora calculamos las derivadas de orden 2
$f_{xx} = 12x^{2}$, $f_{yy}= 12y^{2}$ y $f_{xy} = f_{yx} = -4$
Calculamos el discriminante en los puntos críticos, primero para el punto crítico $(-1,-1)$
$D(-1,-1) = \begin{vmatrix} 12(-1)^{2} & -4 \\ -4 & 12(-1)^{2} \end{vmatrix} = 12\cdot 12 - (-4\cdot -4) $
$= 144 - 16 = 128$
Como $D > 0$ y $f_{xx}(-1,-1) >0$ entonces $(-1,-1)$ es un punto mínimo local.
Ahora para el punto crítico $(0,0)$
$D(0,0) = \begin{vmatrix} 12(0)^{2} & -4 \\ -4 & 12(0)^{2} \end{vmatrix} = 0 \cdot 0 - (-4\cdot -4) = -16$
Como $D < 0$ entonces $(0,0)$ es un punto silla.
Por último, para el punto crítico $(1,1)$
$D(1,1) = \begin{vmatrix} 12(1)^{2} & -4 \\ -4 & 12(1)^{2} \end{vmatrix} = 12\cdot 12 - (-4\cdot -4)$
$= 144 - 16 = 128$
Como $D > 0$ y $f_{xx}(1,1) >0$ entonces $(1,1)$ es un punto mínimo local.
Ya vimos que los extremos locales de una función son los valores más grandes y más pequeños dentro de un disco con centro en un punto. Decimos que los extremos absolutos son los valores más grandes y pequeños en todo el dominio de $f$ y se definen de la siguiente manera:
Una función no siempre tiene extremos absolutos, es por eso que primero es necesario saber si es que existen. Gracias al teorema del valor extremo podemos determinar si en una región acotada de la función hay extremos absolutos, el cual dice lo siguiente.
Por tanto, si sabemos que en un conjunto cerrado la función es continua, eso significa que existen extremos absolutos, ahora solo faltaría saber como encontrarlos. Esto se lleva a cabo siguiendo los pasos del siguiente teorema.
Ejemplo: Determine los extremos absolutos de la función $f(x,y) = x^2+y^2-xy+x+y$ sobre el triángulo $R$ definida por las condiciones $x\leq 0, \space y \leq 0$ y $x + y \geq -3$.
Como $f$ es polinomial entonces es continua sobre el triángulo cerrado y acotado $R$, por lo que existen tanto un mínimo absoluto como un máximo absoluto es esa región por el .
1- Calculamos los puntos críticos en el interior de $R$, esto ocurre cuando
$f_{x} = 2x+1-y = 0$ y $f_{y} = 2y+1-x = 0$
De modo que el único punto crítico es $(-1,-1)$ y es fácil comprobar que se encuentra en $R$. Donde $f(-1,-1) = -1$.
2- Ahora calculamos los valores extremos de la frontera de $R$, es decir la región sobre la cual $f$ se convierte en una función de una variable. En la podemos ver que el triángulo $R$ esta compuesto por 3 segmentos $L_{1}, L_{2}$ y $L_{3}$. Sobre $L_{1}$ (segmento conectado por $(-3,0),(0,0)$) tenemos que $y=0$ y
$z = x^2+x \space \space \space-3 \leq x \leq 0 $
Calculamos los valores extremos en la región $-3 \leq x \leq 0$ .
$z' = 2x + 1 = 0 \Rightarrow x = -\frac{1}{2}$
Obtenemos un punto crítico con valor $z(-\frac{1}{2}) = \left(-\frac{1}{2} \right)^{2} + \left(-\frac{1}{2} \right) = \frac{1}{4} - \frac{1}{2} = -\frac{1}{4}$. Ahora evaluamos la función en los extremos de la región $-3 \leq x \leq 0$ , es decir
$z(-3) = (-3)^2 + (-3) = 9 - 3 = 6$ y $z(0) = 0^2 + 0 = 0$
De esto tenemos que el valor máximo en $-3 \leq x \leq 0$ se da en $f(-3,0)=6$ y el valor mínimo en $-3 \leq x \leq 0$ se da en $f(-\frac{1}{2},0) = -\frac{1}{4}$.
Sobre $L_{2}$ (segmento conectado por $(0,0),(0,-3)$) tenemos que $x=0$ y
$z = y^2+y \space \space \space -3 \leq y \leq 0 $
Calculamos los extremos locales en la región $-3 \leq y \leq 0$
$z' = 2y + 1 = 0 \Rightarrow y = -\frac{1}{2}$
Obtenemos un punto crítico con valor $z(-\frac{1}{2}) = \left(-\frac{1}{2} \right)^{2} + \left(-\frac{1}{2} \right) = \frac{1}{4} - \frac{1}{2} = -\frac{1}{4}$. Ahora evaluamos la función en los extremos de la región $-3 \leq y \leq 0$ , es decir
$z(-3) = (-3)^2 + (-3) = 9 - 3 = 6$ y $z(0) = 0^2 + 0 = 0$
De esto tenemos que valor máximo en $-3 \leq y \leq 0$ se da en $f(0,-3)=6$ y el valor mínimo en $-3 \leq y \leq 0$ se da en $f(0,-\frac{1}{2}) = -\frac{1}{4}$.
Sobre $L_{3}$ (segmento conectado por $(-3,0),(0,-3)$) tenemos que $x + y = -3 \Rightarrow y = -3 - x$ y
$z = x^2 + (-3-x)^2 - x(-3-x) + x + (-3-x) $
$= 3x^2+9x+6 \space \space \space -3 \leq x \leq 0$
Calculamos los extremos locales en la región $-3 \leq y \leq 0$
$z' = 6x+9 = 0 \Rightarrow x = -\frac{9}{6} = -\frac{3}{2}$
Obtenemos un punto crítico con valor $z(-\frac{3}{2}) = 3\left(-\frac{3}{2} \right)^{2} + 9\left(-\frac{3}{2} \right) + 6 = \frac{27}{4} - \frac{54}{4} + \frac{24}{4} = -\frac{3}{4}$ . Ahora evaluamos la función en los extremos de la región $-3 \leq x \leq 0$ , es decir
$z(-3) = 3(-3)^2 + 9(-3) + 6 = 27 - 27 + 6 $
$= 6$ y $z(0) = 3(0)^2 + 9(0) + 6 = 6$
De esto tenemos que el valor máximo en $-3 \leq x \leq 0$ se da en $f(-3,0) = f(0,-3) = 6$ y el valor mínimo en $-3 \leq y \leq 0$ se da en $(-\frac{3}{2},-\frac{3}{2}) = -\frac{3}{4}$.
3- Comparando todos los extremos locales y concluimos que el máximo absoluto se da en los puntos frontera $(0,-3), (-3,0)$ con valor $6$ y el mínimo absoluto en el punto interior $(-1,-1)$ con valor $-1$.
En la podemos ver gráficamente un ejemplo donde mediante este método podemos encontrar los valores más grandes y pequeños en una región acotada.
Como hemos visto, obtener los extremos en funciones con varias variables se hace de manera similar que en funciones de una variable. Sin embargo, en funciones con varias variables podemos lidiar con condiciones o restricciones adicionales.
Hasta ahora solo hemos visto cómo obtener extremos de una función sin restricción alguna, así que ahora veremos cómo encontrar los extremos de una función, de manera que estos cumplan con determinadas condiciones (restricciones o ligas duras). Para ello se utilizara un poderoso método llamado: método de los multiplicadores de Lagrange, llamado así en honor al matemático Joshep Louis Lagrange, el cual será explicado a continuación.
Como ya se mencionó, este método sirve para encontrar los extremos de una función de $n$ variables $f(a_{1},a_{2},...,a_{n})$, cuando está sujeta a alguna restricción $g(a_{1},a_{2},...,a_{n})$. La restricción $g$ también es una función de $n$ variables con el mismo espacio de entrada que $f$ y se tiene que ver de la siguiente manera:
$g(a_{1},a_{2},...,a_{n}) = c$
donde $c$ es alguna constante. Para entender este método consideremos una función particular de dos variables $f(x,y) = 4-x^2-y^2$ y la restricción $g(x,y) = x+y=2$, si graficamos ambas funciones podemos ver que $g$ es una línea proyectada sobre la superficie de $f$ ().
Entonces, si queremos encontrar los extremos en la restricción, tenemos que encontrar el puntos más bajo y el punto más alto en la línea proyectada por $g$. En nuestro ejemplo se ve claramente que el punto $(1,1)$ es un máximo ya que es el punto más alto que se encuentra en $g$.
Ahora, si retomamos el ejemplo anterior y dibujamos las curvas de nivel de $f$ y la curva de nivel $g = c$ sobre el plano $xy$, como se ve en la , podemos notar que la curva de nivel de $g = c$ es tangente a alguna curva de nivel de $f$. Para nuestro ejemplo particular esto ocurre en la curva de nivel $f(x,y)=2$.
Que es justamente la curva de nivel que pasa por el punto $(1,1)$ la cual ya habíamos visto es el punto máximo de la restricción.
Lo que quiere decir que en los puntos donde la curva $g = c$ es tangente a alguna curva de nivel de $f$ se encuentran los extremos de $f$ restringida a $g$ y es justamente lo que se busca calcular con el método de Lagrange.
Para explicar analíticamente que las curvas de nivel de $f$ y $g=c$ son tangentes consideremos los gradientes de $f$ y $g =c$, ahora recordemos que el gradiente de $f$ evaluado en algún punto $(x_{0}, y_{0})$
siempre da un vector ortogonal a la curva de nivel que pasa por ese punto (). Esto significa que cuando las curvas de nivel de $f$ y $g=c$ son tangentes en un punto $P = (x_{0},y_{0})$, sus vectores gradientes se alinean, es decir deben de apuntar en la misma dirección (o en la opuesta) como se ve en la .
Si dos vectores apuntan en la misma dirección (o en la opuesta), entonces uno debe de ser un múltiplo del otro, es decir
$\varDelta f = \lambda \cdot \varDelta g$
donde $\lambda$ es llamado múltiplo de Lagrange. Entonces el procedimiento del método de Lagrange se basa en la ecuación anterior y se define como sigue.
$\varDelta f = \lambda \cdot \varDelta g$ y $g(a_{1},a_{2},...,a_{n}) = c $.
Si se reescribe la ecuación vectorial $\varDelta f = \lambda \cdot \varDelta g$ en términos de sus componentes, las ecuaciones del paso 1 se transforman en:
$ (f_{a_{1}},f_{a_{2}},...,f_{a_{n}}) = \lambda \cdot (g_{a_{1}},g_{a_{2}},...,g_{a_{n}})$
$\Rightarrow f_{a_{1}} = \lambda \cdot g_{a_{1}}, f_{a_{2}} = \lambda \cdot g_{a_{n}},..., f_{a_{n}} = \lambda \cdot g_{a_{2}} $
y $g(a_{1},a_{2},...,a_{n}) = c $
Lo que podemos ver como un sistema de ecuaciones con $n+1$ incógnitas ($a_{1},a_{2},...,a_{n}$ y $\lambda$), es decir:
$ \begin{dcases} f_{a_{1}} = \lambda \cdot g_{a_{1}} \\ f_{a_{2}} = \lambda \cdot g_{a_{2}} \\ \vdots \\ f_{a_{n}} = \lambda \cdot g_{a_{n}} \\ g(a_{1},a_{2},...,a_{n}) = c \end{dcases}$
donde los resultados del mismo son los puntos que utilizaremos para encontrar el máximo y el mínimo como se describe en el paso 2 del método.
Nota: En algunos caso solo se obtiene un punto al resolver el sistema, entonces para determinar si es un máximo o un mínimo se utiliza el criterio de la segunda derivada como se explica en el ejemplo 1.
Ejemplo 1: Encuentre los extremos de la función $f(x,y,z) = 2x^2+y^2+3z^2$ sujeta a la función $g(x,y,z) = 2x - 3y - 4z = 49$.
Calculamos la primera derivada parcial de las funciones $f$ y $g$.
$f_{x} = 4x$ , $f_{y} = 2y$ , $f_{z} = 6z$ , $g_{x} = 2$, $g_{y} = -3$ y $g_{z} = -4$
Escribimos el sistema de ecuaciones a partir de los componentes de la ecuación vectorial $\varDelta f = \lambda \cdot \varDelta g$ y resolvemos.
$ \begin{dcases} 4x = 2\lambda \\ 2y = -3\lambda \\ 6z = -4\lambda \\ 2x - 3y - 4z = 49 \end{dcases}$
Resolvemos el sistema de ecuaciones con alguno de los métodos explicados en la sección 1.7, en este caso se utilizará el método de sustitución. Elegimos la primera ecuación y resolvemos para $x$.
$x = \frac{\lambda}{2}$
Sustituimos el valor de $x$ en el resto de ecuaciones y actualizamos el sistema.
$ \begin{dcases} 2y = -3\lambda \\ 6z = -4\lambda \\ \lambda - 3y - 4z = 49 \end{dcases}$
Elegimos la primera ecuación y resolvemos para $y$.
$y = -\frac{3\lambda}{2}$
Sustituimos el valor de $y$ en el resto de ecuaciones y actualizamos el sistema.
$ \begin{dcases} 6z = -4\lambda \\ \frac{11\lambda}{2} - 4z = 49 \end{dcases}$
Elegimos la primera ecuación y resolvemos para $z$.
$z = -\frac{2\lambda}{3}$
Sustituimos el valor de $z$ en el resto de ecuaciones y actualizamos el sistema.
$ \begin{dcases} \frac{49\lambda}{6} = 49 \end{dcases}$
Resolvemos la ultima ecuación para $\lambda$.
$\lambda = \frac{49}{49} \cdot 6 = 6$
Obtenemos los valores de $x,y$ y $z$.
$x = \frac{\lambda}{2} \Rightarrow x = \frac{6}{2} = 3$
$y = -\frac{3\lambda}{2} \Rightarrow y = -\frac{18}{2} = -9$
$z = -\frac{2\lambda}{3} \Rightarrow z = -\frac{12}{3} = -4 $
Evaluamos los puntos obtenidos en $f$, en este caso solo se obtuvo el punto $(3,-9,-4)$.
$f(3,-9,-4) = 2(3)^2+(-9)^2+3(-4)^2 = 2(9) + 81 + 3(16) = 18+81+48=147$
Como podemos ver obtuvimos un resultado único al resolver el sistema (es decir solo un punto) esto quiere decir que la función $f$ sujeta a la restricción $g$ solo tiene un máximo o un mínimo.
Es importante mencionar que en estos casos no podemos decir arbitrariamente si es un mínimo o un máximo el punto obtenido.
Esto es debido a que en problemas del mundo real por naturaleza debe ser uno en concreto. Entonces para determinarlo aplicamos el criterio de la segunda derivada ().
De acuerdo al teorema de la segunda derivada primero calculamos el discriminante o hessiano de $f$, para eso calculamos las derivadas de segundo orden de $f$ en el punto $(3,-9,-4)$.
$f_{xx}(3,-9,-4) = 4 , f_{xy}(3,-9,-4) = 0, f_{xz}(3,-9,-4) = 0, $
$f_{yx}(3,-9,-4) = 0, f_{yy}(3,-9,-4) = 2, f_{yz}(3,-9,-4) = 0$
$f_{zx}(3,-9,-4) = 0 , f_{zy}(3,-9,-4) = 0, f_{zz}(3,-9,-4) = 6$
$D = \begin{vmatrix} f_{xx} & f_{xy} & f_{xz} \\ f_{yx} & f_{yy} & f_{yz} \\ f_{zx} & f_{zy} & f_{zz} \end{vmatrix} = \begin{vmatrix} 4 & 0 & 0 \\ 0 & 2 & 0 \\ 0 & 0 & 6 \end{vmatrix}$
$ = 4 \cdot (2\cdot 6 - (0 \cdot 0)) - 0 \cdot (0 \cdot 6 - (0 \cdot 0 )) + 0 \cdot (0 \cdot 0 - (2 \cdot 0)) $
$= 48$
Como $f_{xx} > 0$ y $D > 0$, por el criterio de la segunda derivada entonces el punto $(3,-9,-4)$ es un mínimo.
Ejemplo 2: Encuentre los extremos de la función $f(x,y) = 2xy$, sujeta a la restricción $g(x,y) = \frac{x^2}{3}+\frac{y^2}{4} = 1$.
Calculamos la primera derivada parcial de las funciones $f$ y $g$.
$f_{x} = 2y$ , $f_{y} = 2x$, $g_{x} = \frac{2x}{3}$ y $g_{y} = \frac{y}{2}$
Escribimos el sistema de ecuaciones a partir de los componentes de la ecuación vectorial $\varDelta f = \lambda \cdot \varDelta g$ y resolvemos.
$ \begin{dcases} 2y = \frac{2x\lambda}{3} \\ 2x = \frac{y\lambda}{2} \\ \frac{x^2}{3}+\frac{y^2}{4} = 1 \end{dcases}$
Resolvemos el sistema de ecuaciones, en este caso se utilizará el método de sustitución. Elegimos la primera ecuación y resolvemos para $\lambda$.
$2y = \frac{2x\lambda}{3} \Rightarrow 2x\lambda = 6y \Rightarrow x\lambda = 3y \Rightarrow \lambda = \frac{3y}{x}$
Sustituimos el valor de $\lambda$ en el resto de ecuaciones y actualizamos el sistema.
$ \begin{dcases} 2x = \frac{y\cdot (\frac{3y}{x})}{2} \\ \frac{x^2}{3}+\frac{y^2}{4} = 1 \end{dcases}$
Elegimos la primera ecuación y resolvemos para $x$.
$ 2x = \frac{y\cdot (\frac{3y}{x})}{2} \Rightarrow 2x = \frac{3y^2}{2x} \Rightarrow 4x^2 = 3y^2 \Rightarrow x^2 = \frac{3y^2}{4}$
Sustituimos el valor de $x$ en el resto de ecuaciones y actualizamos el sistema.
$ \begin{dcases} \frac{\frac{3y^2}{4}}{3}+\frac{y^2}{4} = 1 \end{dcases}$
Resolvemos la última ecuación para $y$.
$\frac{\frac{3y^2}{4}}{3}+\frac{y^2}{4} = 1 \Rightarrow \frac{y^2}{4} + \frac{y^2}{4} = 1 \Rightarrow \frac{2y^2}{4} = 1$
$2y^2 = 4 \Rightarrow y^2 = 2$
En este caso hay dos soluciones para $y$, es decir:
$y_{1} = \sqrt{2}$ y $y_{2} = -\sqrt{2}$
Obtenemos los valores de $x$. En el caso de $x$ obtenemos 2 soluciones reales:
$x^2 = \frac{3y^2}{4}$
$ \Rightarrow x_{1} = \sqrt{\frac{3(\sqrt{2})^2}{4}} \Rightarrow x_{1} = \sqrt{\frac{3(2)}{4}} \Rightarrow = \sqrt{\frac{3}{2}} \simeq 1.22 $
$ \Rightarrow x_{2} = -\sqrt{\frac{3(\sqrt{2})^2}{4}} \Rightarrow x_{1} = -\sqrt{\frac{3(2)}{4}} \Rightarrow = -\sqrt{\frac{3}{2}} \simeq -1.22 $
Entonces encontramos 4 puntos posibles, $(1.22,\sqrt{2}), (1.22,-\sqrt{2}),(-1.22,\sqrt{2})$ , $(-1.22,-\sqrt{2})$ y los evaluamos en la función
$f(1.22,\sqrt{2}) = 2(1.22)(\sqrt{2}) \simeq 3.45$
$f(1.22,-\sqrt{2}) = 2(1.22)(-\sqrt{2}) \simeq -3.45$
$f(-1.22,\sqrt{2}) = 2(-1.22)(\sqrt{2}) \simeq -3.45$
$f(-1.22,-\sqrt{2}) = 2(-1.22)(-\sqrt{2}) \simeq 3.45$
Por último obtenemos los valores de los multiplicadores de Lagrange de las soluciones. Dado de $\lambda = \frac{3y}{x}$, entonces:
Para el punto $(1.22,\sqrt{2})$ tenemos que $\lambda = 3.47$
Para el punto $(1.22,-\sqrt{2})$ tenemos que $\lambda = -3.47$
Para el punto $(-1.22,\sqrt{2})$ tenemos que $\lambda = -3.47$
Para el punto $(-1.22,-\sqrt{2})$ tenemos que $\lambda = 3.47$
Por lo que concluimos que los puntos $(1.22,\sqrt{2}), (-1.22,-\sqrt{2})$ son los máximos de $f$ sujeto a $g$ y los puntos $(1.22,-\sqrt{2}),(-1.22,\sqrt{2})$ son los mínimos de $f$ sujeto a $g$.
En la podemos ver gráficamente que en efecto estos puntos son los extremos de $f$ sujeto a $g$ graficando la superficie de $f$, la restricción $g(x,y)=1$ y la curva de nivel $f(x,y) = 3.45$. En la se puede ver que la curva de nivel $g(x,y)=1$ es tangente a los 4 puntos obtenidos y que se cumple que $\varDelta f = \lambda \cdot \varDelta g$. Si se quiere comprobar analíticamente simplemente se utiliza el criterio de la segunda derivada.
El método de Lagrange también puede ser utilizado para calcular los extremos de una función $f(a_{1},a_{2},...,a_{n})$ sujeta a dos restricciones $g(a_{1},a_{2},...,a_{n})=c$ y $h(a_{1},a_{2},...,a_{n})=d$. En este caso se consideran dos multiplicadores de Lagrange $\lambda_{1}$ y $\lambda_{2}$ de tal manera que el sistema de ecuaciones a resolver para encontrar los extremos está dado a partir de los componente de la ecuación vectorial $\varDelta f = \lambda_{1} \cdot \varDelta g + \lambda_{2} \varDelta h$, es decir:
$ \begin{dcases} f_{a_{1}} = \lambda \cdot g_{a_{1}} + \lambda \cdot h_{a_{1}} \\ f_{a_{2}} = \lambda \cdot g_{a_{2}} + \lambda \cdot h_{a_{2}} \\ \vdots \\ f_{a_{n}} = \lambda \cdot g_{a_{n}}+ \lambda \cdot h_{a_{n}} \\ g(a_{1},a_{2},...,a_{n}) = c \\ h(a_{1},a_{2},...,a_{n}) = d \end{dcases}$
Ejemplo: Encuentre los extremos de la función $f(x,y,z) = x+y$ sujeta a las funciones $g(x,y,z) = x^2+z^2=4$ y $h(x,y,z) = 2x-3y+z=6$.
Calculamos la primera derivada parcial de las funciones $f$, $g$ y $h$.
$f_{x} = 1$ , $f_{y} = 1$, $f_{z} = 0$ , $g_{x} = 2x$, $g_{y} = 0 $ y $g_{z} = 2z$
$h_{x} = 2$, $h_{y} = -3$, $h_{z} = 1$
Escribimos el sistema de ecuaciones a partir de los componentes de la ecuación vectorial $\varDelta f = \lambda_{1} \cdot \varDelta g + \lambda_{2} \cdot \varDelta h$ y resolvemos.
$ \begin{dcases} 1 = 2x\lambda_{1} + 2\lambda_{2} \\ 1 = -3\lambda_{2} \\ 0 = 2z\lambda_{1} + \lambda_{2} \\ x^2+z^2=4 \\ 2x-3y+z=6 \end{dcases}$
En este caso se utilizara el método de sustitución. Elegimos la segunda ecuación y resolvemos para $\lambda_{2}$.
$\lambda_{2}= -\frac{1}{3}$
Sustituimos el valor de $\lambda_{2}$ en el resto de ecuaciones y actualizamos el sistema.
$ \begin{dcases} 1 = 2x\lambda_{1} - \frac{2}{3} \\ 0 = 2z\lambda_{1} - \frac{1}{3} \\ x^2+z^2=4 \\ 2x-3y+z=6 \end{dcases}$
Elegimos la segunda ecuación y resolvemos para $\lambda_{1}$.
$-2z\lambda_{1} = -\frac{1}{3} \Rightarrow \lambda_{1} = \frac{1}{6z}$
Sustituimos el valor de $\lambda_{1}$ en el resto de ecuaciones y actualizamos el sistema.
$ \begin{dcases} 1 = \frac{x}{3z} - \frac{2}{3} \\ x^2+z^2=4 \\ 2x-3y+z=6 \end{dcases}$
Elegimos la primera ecuación y resolvemos para $x$.
$\frac{5}{3} = \frac{x}{3z} \Rightarrow 5z = x$
Sustituimos el valor de $x$ en el resto de ecuaciones y actualizamos el sistema.
$ \begin{dcases} 25z^2 + z^2=4 \\ 11z-3y=6 \end{dcases}$
Elegimos la primera ecuación y resolvemos para $z$.
$26z^2 = 4 \Rightarrow z^2 = \frac{4}{26} \Rightarrow z = \pm \frac{2}{\sqrt{26}}$
Sustituimos el valor de $z$ en la última ecuación (primero para la solución positiva de $z$).
$ \begin{dcases} \frac{22}{\sqrt{26}}-3y=6 \end{dcases}$
Por último obtenemos los valores de $y$ y $x$.
$3y = -6 + \frac{22}{\sqrt{26}} \Rightarrow y = -2 + \frac{22}{3\cdot\sqrt{26}}$
$x=5z \Rightarrow x = \frac{10}{\sqrt{26}}$
Entonces el primer punto obtenido es $(\frac{10}{\sqrt{26}}, -2 + \frac{22}{3\cdot\sqrt{26}},\frac{2}{\sqrt{26}} )$
Al sustituir la solución negativa obtenemos el segundo punto $(-\frac{10}{\sqrt{26}}, -2 - \frac{22}{3\cdot \sqrt{26}},-\frac{2}{\sqrt{26}} )$
Evaluamos los dos puntos obtenidos en $f$.
$f(\frac{10}{\sqrt{26}}, -2 + \frac{22}{3\cdot\sqrt{26}},\frac{2}{\sqrt{26}} ) = \frac{10}{\sqrt{26}} -2 + \frac{22}{3\cdot\sqrt{26}} \simeq 1.39$
$f(-\frac{10}{\sqrt{26}}, -2 - \frac{22}{3\cdot\sqrt{26}},\frac{2}{\sqrt{26}} ) = \frac{10}{\sqrt{26}} -2 + \frac{22}{3\cdot\sqrt{26}} \simeq -5.39$.
Por lo tanto se concluye que el máximo es el punto $(\frac{10}{\sqrt{26}}, -2 + \frac{22}{3\cdot\sqrt{26}},\frac{2}{\sqrt{26}} )$ y el mínimo el punto $(-\frac{10}{\sqrt{26}}, -2 - \frac{22}{3\cdot\sqrt{26}},\frac{2}{\sqrt{26}} )$.
Una matriz es una colección ordenada de números colocados en filas y columnas, por ejemplo:
$A = \begin{bmatrix}{2}&{1}&{4}\\{1}&{1}&{3}\\{0}&{2}&{-1}\end{bmatrix}$
Si la matriz tiene $m$ filas y $n$ columnas decimos que es una matriz de dimensión $m$ x $n$, en caso de que $m = n$ decimos que es una matriz cuadrada o de “orden” $m$, por ejemplo la matriz $A$ es de orden 3.
Ahora definiremos lo que es el determinante de una matriz, el cual es un número real asociado a una matriz $n$ x $n$ (matriz cuadrada).
Nota: No se puede calcular el determinante de una matriz que no sea cuadrada.
Si $A = \begin{bmatrix}{a}&{b}\\{c}&{d}\end{bmatrix}$, entonces $||A|| = \begin{vmatrix}{a}&{b}\\{c}&{d}\end{vmatrix}= ad - bc$.
En el caso de matrices $3$ x $3$ hacemos uso de la definición de determinante en matrices $2$ x $2$.
Si $A = \begin{bmatrix}{a}&{b}&{c}\\{d}&{e}&{f}\\{g}&{h}&{i}\end{bmatrix}$, entonces $||A|| = \begin{vmatrix}{a}&{b}&{c}\\{d}&{e}&{f}\\{g}&{h}&{i}\end{vmatrix}$
$= a\begin{vmatrix}{e}&{f}\\{h}&{i}\end{vmatrix} - b\begin{vmatrix}{d}&{f}\\{g}&{i}\end{vmatrix} + c\begin{vmatrix}{d}&{e}\\{g}&{h}\end{vmatrix} $
$= a(ei-fh)-b(di-fg)+c(dh-eg)$
En la se muestran los pasos para calcular el determinante de una matriz $3$ x $3$.
Derivada de una constante
$ k' = 0$
$ 5' = 0$
Derivada de una potencia
$ (x^{k})' = k \cdot x^{k-1} $
$ (x^{4})' = 4x^{3}$
Derivada de una constante por una función
$k \cdot f(x) = k \cdot f(x)'$
$ 3x' = 3 $
Derivada de una suma (o resta)
$ (f(x) \pm g(x))' = f'(x) \pm g'(x)$
$(7x^{2} + 2x^{3})' = 14x + 6x^{2} $
Derivada de un producto
$(f(x) \cdot g(x))' = f(x)' \cdot g(x) + f(x) \cdot g'(x)$
$(x^{3} \cdot x)' = 3x^{2} \cdot x + 1 \cdot x^{3} = 4x^{3} $
Derivada de un cociente
$ \left(\frac{f(x)}{g(x)} \right)' = \frac{f'(x) \cdot g(x) - f(x) \cdot g'(x)}{g(x)^{2}}$
$\left(\frac{x}{x^{2}} \right)' = \frac{1 \cdot x^{2} - 2x \cdot x}{(x^{2})^{2}} = -\frac{1}{x^{2}}$
Otras derivadas elementales
$sen(x)' = cos(x)$
$cos(x)' = -sen(x)$
$tan(x)' = sec^{2}(x)$
$sec(x)' = sec(x)\cdot tan(x)$
$cot(x)' = -csc^{2}(x)$
$csc(x)' = -csc(x)\cdot cot(x)$
$ e^{x}'' = e^{x} $
$ln \space x' = \frac{1}{x}$
Integral de una constante
$\displaystyle\int k dx = kx + C $
$\displaystyle\int 5 dx = 5x + C $
Integral de una potencia
$\displaystyle\int x^{k} dx = \frac{x^{k+1}}{k+1} + C$
$\displaystyle\int x^{2} dx = \frac{x^{3}}{3} + C$
Integral de una constante por una función
$\displaystyle\int c f(x) dx = c \displaystyle\int f(x) dx $
$\displaystyle\int 2 x^{2} dx = 2 \cdot \frac{x^{3}}{3} = \frac{2x^{3}}{3} + C $
Integral de una suma (o resta)
$\displaystyle\int f(x) \pm g(x) dx = \displaystyle\int f(x) dx \pm \displaystyle\int g(x)$
$\displaystyle\int x^{2} + x^{3} dx = \frac{x^{3}}{3} + \frac{x^{4}}{4} + C$
Otras integrales elementales
$\displaystyle\int sen(x) dx = -cos(x) + C$
$\displaystyle\int cos(x) dx = sen(x) + C$
$\displaystyle\int tan(x) dx = ln|sec(x)| + C$
$\displaystyle\int cot(x) dx= ln|sen(x)| + C$
$\displaystyle\int sec(x) dx= ln|sec(x) + tan(x)| + C$
$\displaystyle\int csc(x) dx= ln|csc(x) - cot(x)| + C$
$\displaystyle\int e^{x} dx= e^{x} + C$