Sally ist ein Werkzeug, um eine Menge von Strings auf eine Menge von Vektoren abzubilden. Diese Abbildung wird als Einbettung bezeichnet und ermöglicht es, Techniken von maschinellem Lernen und Data-Mining auf die Analyse von String-Daten anzuwenden. Sie kann mit Daten wie Textdokumenten, DNA-Sequenzen oder Logdateien angewandt werden. Es wird das Vektorraum- oder das Bag-of-Words-Modell verwendet. Strings werden durch eine Menge von Features charakterisiert, wobei jedes Feature mit einer Dimension des Vektorraums assoziiert ist. Die Vorkommen der Features in jedem String können gezählt werden. Alternativ können binäre oder TF-IDF-Werte berechnet werden. Vektoren können in einfachem Text, LibSVM- oder Matlab-Format ausgegeben werden. (non)