analyze german text data -凯发k8网页登录
this example shows how to import, prepare, and analyze german text data using a topic model.
german text data can be large and can contain lots of noise that negatively affects statistical analysis. for example, the text data can contain the following:
variations in word forms. for example, „rot“, „rote“, and „roten“.
words that add noise. for example, stop words such as „der“, „die“, and „das“.
punctuation and special characters.
these word clouds illustrate word frequency analysis applied to some raw text data and a preprocessed version of the same text data.
this example first shows how to import and prepare german text data, and then it shows how to analyze the text data using a latent dirichlet allocation (lda) model. an lda model is a topic model that discovers underlying topics in a collection of documents and infers the word probabilities in topics. use these steps in preparing the text data and fitting the model:
import the text data from a csv file and extract the relevant data.
prepare the text data for analysis using standard preprocessing techniques.
fit a topic model and visualize the results.
import data
download the data vorhaben.csv
from . this file can change over time, so the results in the example can vary.
use detectimportoptions
to determine the format of the csv file and set the text type to string. set the 'encoding'
option to 'iso-8859-15'
. read the data using the readtable
function and view the first few rows.
filename = "vorhaben.csv"; options = detectimportoptions(filename,'texttype','string','encoding','iso-8859-15'); data = readtable(filename,options); head(data)
ans=8×19 table
titel adresse aktuellerbearbeitungsstand ansprechpartnerin_ansprechpartner artderb_rgerbeteiligung beschreibungdesverfahrensbzw_begr_ndung_wennkeineb_rgerb inhaltlichebeschreibungundzielsetzung kategorie kostenb_rgerbeteiligung_soweitbezifferbar_ kostendesgesamtvorhabens letzterpolitischerbeschlusszumvorhaben_projekt n_chsteschritte_geplanterzeitpunktderumsetzung latitude longitude schwerpunktm__igbetroffenethemen stadtbezirk voraussichtlichebearbeitungsdauer vorhabennummer weitereinformationen
_________________________________________________________________________________________________________________ ___________________________________________________________________ ____________________________________________________________________________________________________________________________________________________________________________________________________ _______________________________________________________________________________________________________________________________________________________________________________________________________________________________ ________________________________________ __________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________ _________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________ _________ _______________________________________________________________________________ __________________________________________________________________________________________________________________________________________________________________________________________________________________________ ___________________________________________________________________________________________ __________________________________________________________________________________________________________ ________ _________ ________________________________ _______________________ _________________________________ ______________ ______________________________
"bauleitplanverfahren zur aufstellung des vorhabenbezogenen↵bebauungsplans nr. 6620-1 ?bundeskanzlerplatz?↵" "bundeskanzlerplatz 2-10, 53113 bonn" "die offenlage hat stattgefunden. die politische beratung und der satzungsbeschlusses sind erfolgt. dsn: 1810045↵" "hr. koch, tel. 0228-77 2205, amt 61-4,↵ email: rainer.koch@bonn.de↵" "standardisiertes beteiligungsverfahren" "der bebauungsplanentwurf wird mit der begründung und den vorliegenden umweltbezogenen stellungnahmen und gutachten für die dauer eines monats öffentlich ausgelegt. parallel hierzu werden die planunterlagen im internet zur einsichtnahme bereitgestellt. ort und dauer der auslegung sowie angaben dazu, welche arten umweltbezogener informationen verfügbar sind, werden mindestens eine woche vorher ortsüblich bekanntgemacht. die abgegebenen stellungnahmen werden durch die verwaltung geprüft und den zuständigen politischen gremien mit einem abwägungsvorschlag der verwaltung zur beratung und beschlussfassung vorgelegt. das ergebnis wird den verfassern/verfasserinnen der stellungnahmen mitgeteilt.↵" "für das gebiet zwischen reuterstraße, bundeskanzlerplatz, willy-brandt-allee, eduard-pflüger-straße und straßburger weg ist der bebauungsplan nr. 6620-1 aufzustellen, mit dem ziel, nach abriss des bonn-centers ein gebäudeensemble aus einem bürohochhaus mit maximal 28 geschossen und zwei weiteren 6 ? 7 geschossigen bürogebäuden zu realisieren.↵" "" "nur interne kosten↵" "-↵" "bezirksvertretung bonn 21.04.2015 drucksachennummer 1511116eb6↵" "-↵" 50.719 7.1169 "" "bonn" "beendet↵" 1.612e 06 "-↵"
"bauleitplanverfahren zur aufstellung des vorhabenbezogenen↵bebauungsplans nr. 6522-1 "didinkirica"" "graurheindorfer straße 2-16, 53117 bonn" "vorhaben beendet↵" "hr. koch, tel. 0228-77 2205,↵amt 61-4↵e-mail: rainer.koch@bonn.de↵" "standardisiertes beteiligungsverfahren" "der bebauungsplanentwurf wird mit der begründung und den vorliegenden umweltbezogenen stellungnahmen und gutachten für die dauer eines monats öffentlich ausgelegt. parallel hierzu werden die planunterlagen im internet zur einsichtnahme bereitgestellt. ort und dauer der auslegung sowie angaben dazu, welche arten umweltbezogener informationen verfügbar sind, werden mindestens eine woche vorher ortsüblich bekanntgemacht. die abgegebenen stellungnahmen werden durch die verwaltung geprüft und den zuständigen politischen gremien mit einem abwägungsvorschlag der verwaltung zur beratung und beschlussfassung vorgelegt. das ergebnis wird den verfassern/verfasserinnen der stellungnahmen mitgeteilt.↵" "für den vorhabenbezogenen bebauungsplan nr. 6522-1 ?didinkirica? der bundesstadt bonn, stadtbezirk bonn, ortsteil bonn-castell, an der graurheindorfer straße 2-16 und der straße rosental ist ein bebauungsplan aufzustellen mit der zielsetzung, wohnungsbau mit insgesamt rund 55 wohneinheiten zu schaffen.↵" "" "nur interne kosten↵" "-↵" "bv bonn: 01.12.2015/planungsausschuss 09.12.2015 drucksachennummer 1513541 sowie 1711124↵" "-↵" 50.742 7.0973 "" "bonn" "ca. 1 jahr↵" 1.612e 06 "-↵"
"bauleitplanverfahren zur aufstellung des bebauungsplans↵nr. 7621-56 ?sebastianstraße?↵" "sebastianstraße 180-182, 53115 bonn" "die bekanntmachung des bebauungsplanes gemäß § 10 baugb ist im amtsblatt nr.25 der bundesstadt bonn, am 23.05.2018 erfolgt. der bebauungsplan ist somit in kraft getreten.↵" "hr. koch, tel. 0228-77 2205, amt 61-4,↵ email: rainer.koch@bonn.de↵" "standardisiertes beteiligungsverfahren" "der bebauungsplanentwurf wird mit der begründung und den vorliegenden umweltbezogenen stellungnahmen und gutachten für die dauer eines monats öffentlich ausgelegt. parallel hierzu werden die planunterlagen im internet zur einsichtnahme bereitgestellt. ort und dauer der auslegung sowie angaben dazu, welche arten umweltbezogener informationen verfügbar sind, werden mindestens eine woche vorher ortsüblich bekanntgemacht. die abgegebenen stellungnahmen werden durch die verwaltung geprüft und den zuständigen politischen gremien mit einem abwägungsvorschlag der verwaltung zur beratung und beschlussfassung vorgelegt. das ergebnis wird den verfassern/verfasserinnen der stellungnahmen mitgeteilt.↵" "für das gebiet zwischen alfred-bucherer-straße, sebastianstraße und dem fußweg zwischen röckumstraße und endenicher allee ist der bebauungsplan nr. 7621-56 aufzustellen, mit dem ziel, das grundstück für wohnbauzwecke zu entwickeln unter besonderer berücksichtigung altengerechter wohnformen und pflege.↵" "" "nur interne kosten↵" "-↵" "bezirksvertretung bonn 01.03.2016, drucksachennummer 1610497b3↵" "-↵" 50.724 7.0779 "" "bonn" "beendet↵" 1.612e 06 "-↵"
"epicuro - european partnership for innovative cities within and urban resilience outlook" "" "die einzelnen aktivitäten des projekts wurden in einem abschlussbericht beschrieben. dieser abschlussbericht wurde veröffentlicht und ist u.a. auf der städtischen website www.bonn.de aufrufbar.↵" "referat stadtförderung, lutz udally, tel. 0228?77 4007,↵email: lutz.udally@bonn.de, ↵koordinierungsstelle bürgerbeteiligung, dirk lahmann, tel. 0228 -77 4974,↵email: buergerbeteiligung@bonn.de↵" "komplexes beteiligungsverfahren" "lokale akteure sowie aus dem zufallspanel der bürgerbeteiligung an der themenstellung interessierte bürgerinnen und bürger wurden eingeladen, sich an der konferenz zu beteiligen.↵" "in den vergangenen jahren führte der klimawandel zu einer vielzahl von folgen für die umwelt, die wirtschaft und die menschen. städte und gemeinden sind aufgefordert sich diesen folgen anzupassen und auf mögliche zukünftige szenarios, bezogen auf den klimawandel, vorzubereiten. um diesen anpassungsprozess zu fördern, unterstützt die eu kommission aktivitäten in den eu-mitgliedsstaaten, um europas ?klima-resilienz? zu stärken und die kapazitäten, auf die folgen des klimawandels reagieren zu können, auszubauen. epicuro bildet ein netzwerk aus 11 europäischen kommunen und öffentlichen institutionen, das zwei jahre lang gemeinsam an dem ziel arbeitet, strategien für die urbane resilienz zu entwickeln und zu fördern. dabei liegt ein besonderer schwerpunkt auf der einbindung von bürgerinnen und bürgern, die unmittelbar an den projektaktivitäten teilnehmen.↵" "" "nur interne kosten↵" "keine, da das projekt durch eu-fördermittel finanziert wird.↵" "-↵" "-↵" nan nan "" "bonn, gesamtstädtisch" "im märz 2018 beendet.↵" 1.701e 06 "-↵"
"bauleitplanverfahren zur aufstellung des bebauungsplanes nr. 6719-3 "schwimmbad wasserland"" "christian-miesen-straße" "der bebauungsplan wurde im zeitraum vom 19.07.2018 bis zum 20.08.2018 öffentlich ausgelegt.↵" "fr. müller, tel. 0228-77 4473,↵ amt 61-22 ,↵email: bettina.mueller@bonn.de↵" "standardisiertes beteiligungsverfahren" "öffentlicher aushang der planung für zwei wochen im stadthaus und durchführung einer bürgerinformationsveranstaltung zum vorhaben und der weiteren verfahrensschritte vor ort.↵" "schaffung von planungsrecht für den bau eines neuen familien-, schul- und sportschwimmbades auf den flächen nördlich des heizkraftwerkes in bonn-dottendorf.↵" "" "vom vorhabenträger zu tragen.↵" "aktuell nicht bezifferbar↵" "beschluss des rates vom 22.09.2016 (ds-nr. 1612541 eb5) sowie 1710085↵" "das vorhaben wird aufgrund des erfolgreichen bürgerentscheids vom 04.08.2018 nicht durchgeführt.↵" 50.707 7.1217 "" "bonn" "bis anfang 2018↵" 1.701e 06 "-↵"
"bürgerbeteiligung an der konzepterstellung für den neubau eines schwimmbades in bonn-dottendorf" "christian-miesen-straße" "in einem bürgerbescheid haben sich die bonnerinnen und bonner gegen einen neubau entschieden. das vorhaben ist damit abgeschlossen.↵" "stadtwerke bonn ? energie und wasser, peter weckenbrock, tel. 0228-7111, email: kontakt@unserneuesschwimmbad.de; ↵koordinierungsstelle bürgerbeteiligung dirk lahmann, tel. 0228-77 4974,↵email: buergerbeteiligung@bonn.de↵" "komplexes beteiligungsverfahren" "im folgenden wird exemplarisch der prozess des nächsten schrittes ?dialog architektur? erläutert: auf der basis der ergebnisse des architekturwettbewerbs werden die arbeiten in einem größeren raum über längere zeit (2-4 wochen) öffentlich ausgestellt. die beteiligung erfolgt in form eines dialogs zwischen den planenden architekten und der interessierten öffentlichkeit. diese wird über die medien informiert und eingeladen. an dem beteiligungstermin werden zunächst das wettbewerbsverfahren sowie alle platzierten planungen vorgestellt. die gründe für die festlegung der rangfolge der arbeiten werden erläutert und die planungen detailliert vorgestellt. die erörterung der architektur wird in kleineren gruppen fortgesetzt. die anregungen und hinweise werden festgehalten und ausgewertet. abschließend werden sie im plenum unter beteiligung des architekten erörtert. die ergebnisse des dialogs werden dem planungsteam für die weitere bearbeitung übergeben. die resultate des dialogs sowie daraus folgende anpassungen der planung werden auf der homepage veröffentlicht. die weitere ausgestaltung des prozesses der beteiligung wird im laufe der projektentwicklung schrittweise ausgearbeitet.↵" "für die begleitende bürgerbeteiligung bei der konzepterstellung für das neue schwimmbad soll es zu folgenden themen eine beteiligung geben: dialog architektur, schule und sportbad, barrierefreiheit, sauna / wellness / spa, rutschen / attraktionen, erschließung sowie dem betrieb. der erste schritt der beteiligung, die ?bürgerwerkstatt im zelt? hat bereits im november 2016 stattgefunden. die weiteren schritte der bürgerbeteiligung erfolgen zeitlich nach dem bürgerentscheid zum erhalt/weiterbetrieb des kurfürstenbades.↵" "" "kann noch nicht beziffert werden↵" "kann noch nicht beziffert werden↵" "ds-nr. 1613528aa4 sowie 1713161↵" "-↵" 50.707 7.1217 "" "bonn" "-↵" 1.701e 06 "www.unserneuesschwimmbad.de↵"
"integriertes handlungskonzept grüne infrastruktur (inhk gi) zur↵zukünftigen freiraumsicherung im bonner norden↵" "siedlungsränder nördlich beuel, bonn; gebietskulisse des grünen c" "der zugrunde liegende förderantrag wurde abgelehnt. für die maßnahmen aus dem ihk gi werden interkommunal in den kommenden jahren umsetzungsmöglichkeiten erarbeitet.↵" "hr. michels, tel. 0228-77 4401, e-mail: jonas.michels@bonn.de↵" "komplexes beteiligungsverfahren" "im rahmen des förderaufrufes wird ein komplexes beteiligungsverfahren gefordert. dieses wird mit der erstellung des ihk durchgeführt und steht kurz vor dem abschluss.↵" "in der gebietskulisse des grünen c sollen die freiräume auch zukünftig im sinne von naherholung, landwirtschaft und naturschutz gesichert und weiterentwickelt werden. hierzu ist ein interkommunales integriertes handlungskonzept (inhk) notwendig, welches die zukünftige weiterentwicklung der freiräume regelt.aufbauend auf dem inhk wurden über die landesförderung "grüne infrastruktur" förderanträge zur umsetzung gestellt.↵" "" "nicht einzeln erfasst: im gesamtvolumen der erstellung des ihks eingebettet.↵" "das ihk gi enthält über 20 maßnahmen in allen acht teilnehmenden kommunen mit einem interkommunalen gesamtfinanzrahmen von 6,15 mio. ?. der finanzrahmen für die maßnahmen der bundesstadt bonn beträgt rund 447.850 ?.↵" "ds-nr. 1710990, 1811383↵" "zum jeweiligen sachstand informiert die verwaltung und wird entsprechende beschlussvorlagen erarbeiten.↵" nan nan "" "beuel" "ca. 5 jahre↵" 1.612e 06 "-↵"
"verlängerung des teufelsbachweges bis zur l 83n" "teufelsbachweg zwischen am weidenbach und l 83n" "die vorplanung wird erarbeitet.↵" "fr. schneider, tel. 0228-77 4481,↵amt 61-32 ,↵email: ulrike.schneider@bonn.de↵" "standardisiertes beteiligungsverfahren" "es ist eine bürgerversammlung vorgesehen. die bürgerversammlung stellt eine wichtige möglichkeit zur beteiligung der bürger dar. das unmittelbar ziel ist, die kommunikation zu verbessern und die förderung von transparenz bei öffentlichen belangen. insofern trägt die diskursive versammlung mittelfristig zur konfliktprävention bei.↵" "zur entlastung von pützchen/bechlinghoven vor durchgangsverkehr und in verbindung mit der geplanten anschlussstelle maarstraße bzw. schließung der anschlussstelle pützchen ist vorgesehen, den teufelsbachweg bis zur l 83n zu verlängern und als umgehungsstraße auszubauen. somit hätte man eine durchgängige verbindungsstraße zwischen pützchens chaussee und l 83n.↵" "" "-↵" "-↵" "-↵" "verwaltungsinterne abstimmung der planung, ca. im jahr 2020↵" 50.742 7.1614 "" "beuel" "-↵" 1.701e 06 "-↵"
extract the text data from the variable inhaltlichebeschreibungundzielsetzung
(the description of the content and the goal).
textdata = data.inhaltlichebeschreibungundzielsetzung;
visualize the text data in a word cloud.
figure wordcloud(textdata);
tokenize text data
create an array of tokenized documents using the tokenizeddocument
function.
documents = tokenizeddocument(textdata); documents(1:10)
ans = 10×1 tokenizeddocument: 50 tokens: für das gebiet zwischen reuterstraße , bundeskanzlerplatz , willy-brandt-allee , eduard-pflüger-straße und straßburger weg ist der bebauungsplan nr . 6620-1 aufzustellen , mit dem ziel , nach abriss des bonn-centers ein gebäudeensemble aus einem bürohochhaus mit maximal 28 geschossen und zwei weiteren 6 ? 7 geschossigen bürogebäuden zu realisieren . 46 tokens: für den vorhabenbezogenen bebauungsplan nr . 6522-1 ? didinkirica ? der bundesstadt bonn , stadtbezirk bonn , ortsteil bonn-castell , an der graurheindorfer straße 2-16 und der straße rosental ist ein bebauungsplan aufzustellen mit der zielsetzung , wohnungsbau mit insgesamt rund 55 wohneinheiten zu schaffen . 41 tokens: für das gebiet zwischen alfred-bucherer-straße , sebastianstraße und dem fußweg zwischen röckumstraße und endenicher allee ist der bebauungsplan nr . 7621-56 aufzustellen , mit dem ziel , das grundstück für wohnbauzwecke zu entwickeln unter besonderer berücksichtigung altengerechter wohnformen und pflege . 134 tokens: in den vergangenen jahren führte der klimawandel zu einer vielzahl von folgen für die umwelt , die wirtschaft und die menschen . städte und gemeinden sind aufgefordert sich diesen folgen anzupassen und auf mögliche zukünftige szenarios , bezogen auf den klimawandel , vorzubereiten . um diesen anpassungsprozess zu fördern , unterstützt die eu kommission aktivitäten in den eu-mitgliedsstaaten , um europas ? klima-resilienz ? zu stärken und die kapazitäten , auf die folgen des klimawandels reagieren zu können , auszubauen . epicuro bildet ein netzwerk aus 11 europäischen kommunen und öffentlichen institutionen , das zwei jahre lang gemeinsam an dem ziel arbeitet , strategien für die urbane resilienz zu entwickeln und zu fördern . dabei liegt ein besonderer schwerpunkt auf der einbindung von bürgerinnen und bürgern , die unmittelbar an den projektaktivitäten teilnehmen . 24 tokens: schaffung von planungsrecht für den bau eines neuen familien - , schul - und sportschwimmbades auf den flächen nördlich des heizkraftwerkes in bonn-dottendorf . 80 tokens: für die begleitende bürgerbeteiligung bei der konzepterstellung für das neue schwimmbad soll es zu folgenden themen eine beteiligung geben : dialog architektur , schule und sportbad , barrierefreiheit , sauna / wellness / spa , rutschen / attraktionen , erschließung sowie dem betrieb . der erste schritt der beteiligung , die ? bürgerwerkstatt im zelt ? hat bereits im november 2016 stattgefunden . die weiteren schritte der bürgerbeteiligung erfolgen zeitlich nach dem bürgerentscheid zum erhalt / weiterbetrieb des kurfürstenbades . 60 tokens: in der gebietskulisse des grünen c sollen die freiräume auch zukünftig im sinne von naherholung , landwirtschaft und naturschutz gesichert und weiterentwickelt werden . hierzu ist ein interkommunales integriertes handlungskonzept ( inhk ) notwendig , welches die zukünftige weiterentwicklung der freiräume regelt . aufbauend auf dem inhk wurden über die landesförderung " grüne infrastruktur " förderanträge zur umsetzung gestellt . 51 tokens: zur entlastung von pützchen / bechlinghoven vor durchgangsverkehr und in verbindung mit der geplanten anschlussstelle maarstraße bzw . schließung der anschlussstelle pützchen ist vorgesehen , den teufelsbachweg bis zur l 83n zu verlängern und als umgehungsstraße auszubauen . somit hätte man eine durchgängige verbindungsstraße zwischen pützchens chaussee und l 83n . 29 tokens: für das areal der ehemaligen landwirtschaftskammer sowie einer angrenzenden städtischen fläche im stadtbezirk beuel , ortsteil hoholz-roleber soll die möglichkeit einer umnutzung der landwirtschaftlichen flächen für wohnnutzung geprüft werden 37 tokens: für das areal herbert-rabius-straße im stadtbezirk beuel , ortsteil beuel-mitte soll der vorhabenbezogene bebauungsplan nr . 6722-2 aufgestellt werden , mit dem ziel , hier planungsrecht für die errichtung eines büro - und verwaltungsgebäudes zu schaffen .
get part-of-speech tags
add the part of speech details using the addpartofspeechdetails
function.
documents = addpartofspeechdetails(documents);
get the token details and then view the details of the first few tokens.
tdetails = tokendetails(documents); head(tdetails)
ans=8×7 table
token documentnumber sentencenumber linenumber type language partofspeech
____________________ ______________ ______________ __________ ___________ ________ ____________
"für" 1 1 1 letters de adposition
"das" 1 1 1 letters de determiner
"gebiet" 1 1 1 letters de noun
"zwischen" 1 1 1 letters de adposition
"reuterstraße" 1 1 1 letters de proper-noun
"," 1 1 1 punctuation de punctuation
"bundeskanzlerplatz" 1 1 1 letters de noun
"," 1 1 1 punctuation de punctuation
the partofspeech
variable in the table contains the part-of-speech tags of the tokens. create word clouds of all the nouns and adjectives, respectively.
figure idx = tdetails.partofspeech == "noun"; tokens = tdetails.token(idx); subplot(1,2,1) wordcloud(tokens); title("nouns") idx = tdetails.partofspeech == "adjective"; tokens = tdetails.token(idx); subplot(1,2,2) wordcloud(tokens); title("adjectives")
prepare text data for analysis
tokenize the text using tokenizeddocument
and view the first few documents.
documentsraw = tokenizeddocument(textdata); documents = documentsraw; documents(1:10)
ans = 10×1 tokenizeddocument: 50 tokens: für das gebiet zwischen reuterstraße , bundeskanzlerplatz , willy-brandt-allee , eduard-pflüger-straße und straßburger weg ist der bebauungsplan nr . 6620-1 aufzustellen , mit dem ziel , nach abriss des bonn-centers ein gebäudeensemble aus einem bürohochhaus mit maximal 28 geschossen und zwei weiteren 6 ? 7 geschossigen bürogebäuden zu realisieren . 46 tokens: für den vorhabenbezogenen bebauungsplan nr . 6522-1 ? didinkirica ? der bundesstadt bonn , stadtbezirk bonn , ortsteil bonn-castell , an der graurheindorfer straße 2-16 und der straße rosental ist ein bebauungsplan aufzustellen mit der zielsetzung , wohnungsbau mit insgesamt rund 55 wohneinheiten zu schaffen . 41 tokens: für das gebiet zwischen alfred-bucherer-straße , sebastianstraße und dem fußweg zwischen röckumstraße und endenicher allee ist der bebauungsplan nr . 7621-56 aufzustellen , mit dem ziel , das grundstück für wohnbauzwecke zu entwickeln unter besonderer berücksichtigung altengerechter wohnformen und pflege . 134 tokens: in den vergangenen jahren führte der klimawandel zu einer vielzahl von folgen für die umwelt , die wirtschaft und die menschen . städte und gemeinden sind aufgefordert sich diesen folgen anzupassen und auf mögliche zukünftige szenarios , bezogen auf den klimawandel , vorzubereiten . um diesen anpassungsprozess zu fördern , unterstützt die eu kommission aktivitäten in den eu-mitgliedsstaaten , um europas ? klima-resilienz ? zu stärken und die kapazitäten , auf die folgen des klimawandels reagieren zu können , auszubauen . epicuro bildet ein netzwerk aus 11 europäischen kommunen und öffentlichen institutionen , das zwei jahre lang gemeinsam an dem ziel arbeitet , strategien für die urbane resilienz zu entwickeln und zu fördern . dabei liegt ein besonderer schwerpunkt auf der einbindung von bürgerinnen und bürgern , die unmittelbar an den projektaktivitäten teilnehmen . 24 tokens: schaffung von planungsrecht für den bau eines neuen familien - , schul - und sportschwimmbades auf den flächen nördlich des heizkraftwerkes in bonn-dottendorf . 80 tokens: für die begleitende bürgerbeteiligung bei der konzepterstellung für das neue schwimmbad soll es zu folgenden themen eine beteiligung geben : dialog architektur , schule und sportbad , barrierefreiheit , sauna / wellness / spa , rutschen / attraktionen , erschließung sowie dem betrieb . der erste schritt der beteiligung , die ? bürgerwerkstatt im zelt ? hat bereits im november 2016 stattgefunden . die weiteren schritte der bürgerbeteiligung erfolgen zeitlich nach dem bürgerentscheid zum erhalt / weiterbetrieb des kurfürstenbades . 60 tokens: in der gebietskulisse des grünen c sollen die freiräume auch zukünftig im sinne von naherholung , landwirtschaft und naturschutz gesichert und weiterentwickelt werden . hierzu ist ein interkommunales integriertes handlungskonzept ( inhk ) notwendig , welches die zukünftige weiterentwicklung der freiräume regelt . aufbauend auf dem inhk wurden über die landesförderung " grüne infrastruktur " förderanträge zur umsetzung gestellt . 51 tokens: zur entlastung von pützchen / bechlinghoven vor durchgangsverkehr und in verbindung mit der geplanten anschlussstelle maarstraße bzw . schließung der anschlussstelle pützchen ist vorgesehen , den teufelsbachweg bis zur l 83n zu verlängern und als umgehungsstraße auszubauen . somit hätte man eine durchgängige verbindungsstraße zwischen pützchens chaussee und l 83n . 29 tokens: für das areal der ehemaligen landwirtschaftskammer sowie einer angrenzenden städtischen fläche im stadtbezirk beuel , ortsteil hoholz-roleber soll die möglichkeit einer umnutzung der landwirtschaftlichen flächen für wohnnutzung geprüft werden 37 tokens: für das areal herbert-rabius-straße im stadtbezirk beuel , ortsteil beuel-mitte soll der vorhabenbezogene bebauungsplan nr . 6722-2 aufgestellt werden , mit dem ziel , hier planungsrecht für die errichtung eines büro - und verwaltungsgebäudes zu schaffen .
replace common phrases (n-grams) with a single token and remove the stop words.
old = ["bad" "godesberg"]; new = "bad godesberg"; documents = replacengrams(documents,old,new); documents = removestopwords(documents); documents(1:10)
ans = 10×1 tokenizeddocument: 35 tokens: gebiet zwischen reuterstraße , bundeskanzlerplatz , willy-brandt-allee , eduard-pflüger-straße straßburger weg bebauungsplan nr . 6620-1 aufzustellen , ziel , abriss bonn-centers gebäudeensemble bürohochhaus maximal 28 geschossen zwei weiteren 6 ? 7 geschossigen bürogebäuden realisieren . 33 tokens: vorhabenbezogenen bebauungsplan nr . 6522-1 ? didinkirica ? bundesstadt bonn , stadtbezirk bonn , ortsteil bonn-castell , graurheindorfer straße 2-16 straße rosental bebauungsplan aufzustellen zielsetzung , wohnungsbau insgesamt rund 55 wohneinheiten schaffen . 27 tokens: gebiet zwischen alfred-bucherer-straße , sebastianstraße fußweg zwischen röckumstraße endenicher allee bebauungsplan nr . 7621-56 aufzustellen , ziel , grundstück wohnbauzwecke entwickeln besonderer berücksichtigung altengerechter wohnformen pflege . 81 tokens: vergangenen jahren führte klimawandel vielzahl folgen umwelt , wirtschaft menschen . städte gemeinden aufgefordert folgen anzupassen mögliche zukünftige szenarios , bezogen klimawandel , vorzubereiten . anpassungsprozess fördern , unterstützt eu kommission aktivitäten eu-mitgliedsstaaten , europas ? klima-resilienz ? stärken kapazitäten , folgen klimawandels reagieren , auszubauen . epicuro bildet netzwerk 11 europäischen kommunen öffentlichen institutionen , zwei jahre lang gemeinsam ziel arbeitet , strategien urbane resilienz entwickeln fördern . dabei liegt besonderer schwerpunkt einbindung bürgerinnen bürgern , unmittelbar projektaktivitäten teilnehmen . 15 tokens: schaffung planungsrecht bau neuen familien - , schul - sportschwimmbades flächen nördlich heizkraftwerkes bonn-dottendorf . 57 tokens: begleitende bürgerbeteiligung konzepterstellung neue schwimmbad soll folgenden themen beteiligung geben : dialog architektur , schule sportbad , barrierefreiheit , sauna / wellness / spa , rutschen / attraktionen , erschließung sowie betrieb . erste schritt beteiligung , ? bürgerwerkstatt zelt ? bereits november 2016 stattgefunden . weiteren schritte bürgerbeteiligung erfolgen zeitlich bürgerentscheid erhalt / weiterbetrieb kurfürstenbades . 40 tokens: gebietskulisse grünen c sollen freiräume zukünftig sinne naherholung , landwirtschaft naturschutz gesichert weiterentwickelt . hierzu interkommunales integriertes handlungskonzept ( inhk ) notwendig , zukünftige weiterentwicklung freiräume regelt . aufbauend inhk wurden landesförderung " grüne infrastruktur " förderanträge umsetzung gestellt . 32 tokens: entlastung pützchen / bechlinghoven durchgangsverkehr verbindung geplanten anschlussstelle maarstraße bzw . schließung anschlussstelle pützchen vorgesehen , teufelsbachweg l 83n verlängern umgehungsstraße auszubauen . somit durchgängige verbindungsstraße zwischen pützchens chaussee l 83n . 19 tokens: areal ehemaligen landwirtschaftskammer sowie angrenzenden städtischen fläche stadtbezirk beuel , ortsteil hoholz-roleber soll möglichkeit umnutzung landwirtschaftlichen flächen wohnnutzung geprüft 25 tokens: areal herbert-rabius-straße stadtbezirk beuel , ortsteil beuel-mitte soll vorhabenbezogene bebauungsplan nr . 6722-2 aufgestellt , ziel , hier planungsrecht errichtung büro - verwaltungsgebäudes schaffen .
normalize the text using the normalizewords
function.
documents = normalizewords(documents); documents(1:10)
ans = 10×1 tokenizeddocument: 35 tokens: gebiet zwisch reuterstrass , bundeskanzlerplatz , willy-brandt-alle , eduard-pfluger-strass strassburg weg bebauungsplan nr . 6620-1 aufzustell , ziel , abriss bonn-cent gebaudeensembl burohochhaus maximal 28 geschoss zwei weit 6 ? 7 geschoss burogebaud realisi . 33 tokens: vorhabenbezog bebauungsplan nr . 6522-1 ? didinkirica ? bundesstadt bonn , stadtbezirk bonn , ortsteil bonn-castell , graurheindorf strass 2-16 strass rosental bebauungsplan aufzustell zielsetz , wohnungsbau insgesamt rund 55 wohnein schaff . 27 tokens: gebiet zwisch alfred-bucherer-strass , sebastianstrass fussweg zwisch rockumstrass endenich alle bebauungsplan nr . 7621-56 aufzustell , ziel , grundstuck wohnbauzweck entwickeln besond berucksicht altengerecht wohnform pfleg . 81 tokens: vergang jahr fuhrt klimawandel vielzahl folg umwelt , wirtschaft mensch . stadt gemeind aufgefordert folg anzupass moglich zukunft szenarios , bezog klimawandel , vorzubereit . anpassungsprozess ford , unterstutzt eu kommission aktivitat eu-mitgliedsstaat , europas ? klima-resilienz ? stark kapazitat , folg klimawandel reagi , auszubau . epicuro bildet netzwerk 11 europa kommun offent institution , zwei jahr lang gemeinsam ziel arbeitet , strategi urban resilienz entwickeln ford . dabei liegt besond schwerpunkt einbind burgerinn burg , unmittelbar projektaktivitat teilnehm . 15 tokens: schaffung planungsrecht bau neu famili - , schul - sportschwimmbad flach nordlich heizkraftwerk bonn-dottendorf . 57 tokens: begleit burgerbeteil konzepterstell neu schwimmbad soll folgend them beteil geb : dialog architektur , schul sportbad , barrierefrei , sauna / wellness / spa , rutsch / attraktion , erschliess sowi betrieb . erst schritt beteil , ? burgerwerkstatt zelt ? bereit novemb 2016 stattgefund . weit schritt burgerbeteil erfolg zeitlich burgerentscheid erhalt / weiterbetrieb kurfurstenbad . 40 tokens: gebietskuliss grun c soll freiraum zukunft sinn naherhol , landwirtschaft naturschutz gesichert weiterentwickelt . hierzu interkommunal integriert handlungskonzept ( inhk ) notwend , zukunft weiterentwickl freiraum regelt . aufbau inhk wurd landesforder " grun infrastruktur " forderantrag umsetz gestellt . 32 tokens: entlast putzch / bechlinghov durchgangsverkehr verbind geplant anschlussstell maarstrass bzw . schliessung anschlussstell putzch vorgeseh , teufelsbachweg l 83n verlang umgehungsstrass auszubau . somit durchgang verbindungsstrass zwisch putzch chausse l 83n . 19 tokens: areal ehemal landwirtschaftskamm sowi angrenz stadtisch flach stadtbezirk beuel , ortsteil hoholz-roleb soll moglich umnutz landwirtschaft flach wohnnutz gepruft 25 tokens: areal herbert-rabius-strass stadtbezirk beuel , ortsteil beuel-mitt soll vorhabenbezog bebauungsplan nr . 6722-2 aufgestellt , ziel , hier planungsrecht erricht buro - verwaltungsgebaud schaff .
erase the punctuation using the erasepunctuation
function.
documents = erasepunctuation(documents); documents(1:10)
ans = 10×1 tokenizeddocument: 27 tokens: gebiet zwisch reuterstrass bundeskanzlerplatz willybrandtalle eduardpflugerstrass strassburg weg bebauungsplan nr 66201 aufzustell ziel abriss bonncent gebaudeensembl burohochhaus maximal 28 geschoss zwei weit 6 7 geschoss burogebaud realisi 25 tokens: vorhabenbezog bebauungsplan nr 65221 didinkirica bundesstadt bonn stadtbezirk bonn ortsteil bonncastell graurheindorf strass 216 strass rosental bebauungsplan aufzustell zielsetz wohnungsbau insgesamt rund 55 wohnein schaff 22 tokens: gebiet zwisch alfredbuchererstrass sebastianstrass fussweg zwisch rockumstrass endenich alle bebauungsplan nr 762156 aufzustell ziel grundstuck wohnbauzweck entwickeln besond berucksicht altengerecht wohnform pfleg 64 tokens: vergang jahr fuhrt klimawandel vielzahl folg umwelt wirtschaft mensch stadt gemeind aufgefordert folg anzupass moglich zukunft szenarios bezog klimawandel vorzubereit anpassungsprozess ford unterstutzt eu kommission aktivitat eumitgliedsstaat europas klimaresilienz stark kapazitat folg klimawandel reagi auszubau epicuro bildet netzwerk 11 europa kommun offent institution zwei jahr lang gemeinsam ziel arbeitet strategi urban resilienz entwickeln ford dabei liegt besond schwerpunkt einbind burgerinn burg unmittelbar projektaktivitat teilnehm 11 tokens: schaffung planungsrecht bau neu famili schul sportschwimmbad flach nordlich heizkraftwerk bonndottendorf 41 tokens: begleit burgerbeteil konzepterstell neu schwimmbad soll folgend them beteil geb dialog architektur schul sportbad barrierefrei sauna wellness spa rutsch attraktion erschliess sowi betrieb erst schritt beteil burgerwerkstatt zelt bereit novemb 2016 stattgefund weit schritt burgerbeteil erfolg zeitlich burgerentscheid erhalt weiterbetrieb kurfurstenbad 31 tokens: gebietskuliss grun c soll freiraum zukunft sinn naherhol landwirtschaft naturschutz gesichert weiterentwickelt hierzu interkommunal integriert handlungskonzept inhk notwend zukunft weiterentwickl freiraum regelt aufbau inhk wurd landesforder grun infrastruktur forderantrag umsetz gestellt 27 tokens: entlast putzch bechlinghov durchgangsverkehr verbind geplant anschlussstell maarstrass bzw schliessung anschlussstell putzch vorgeseh teufelsbachweg l 83n verlang umgehungsstrass auszubau somit durchgang verbindungsstrass zwisch putzch chausse l 83n 18 tokens: areal ehemal landwirtschaftskamm sowi angrenz stadtisch flach stadtbezirk beuel ortsteil hoholzroleb soll moglich umnutz landwirtschaft flach wohnnutz gepruft 19 tokens: areal herbertrabiusstrass stadtbezirk beuel ortsteil beuelmitt soll vorhabenbezog bebauungsplan nr 67222 aufgestellt ziel hier planungsrecht erricht buro verwaltungsgebaud schaff
visualize the raw and cleaned data in word clouds.
figure subplot(1,2,1) wordcloud(documentsraw); title("raw data") subplot(1,2,2) wordcloud(documents); title("cleaned data")
create preprocessing function
creating a function that performs preprocessing can be useful to prepare different collections of text data in the same way. for example, you can use a function to preprocess new data using the same steps as the training data.
create a function which tokenizes and preprocesses the text data to use for analysis. the function preprocessgermantext
, listed at the end of the example, performs these steps:
tokenize the text using
tokenizeddocument
.replace the multiword phrase [
"bad" "godesberg"]
with"bad godesberg"
.remove a list of stop words (such as „der“, „die“, and „das“) using
removestopwords
.normalize the words using
normalizewords
.erase punctuation using
erasepunctuation
.
remove the empty documents after preprocessing using the removeemptydocuments
function. removing documents after using a preprocessing function makes it easier to remove corresponding data such as labels from other sources.
in this example, use the preprocessing function preprocessgermantext
, listed at the end of the example, to prepare the text data.
documents = preprocessgermantext(textdata); documents(1:5)
ans = 5×1 tokenizeddocument: 27 tokens: gebiet zwisch reuterstrass bundeskanzlerplatz willybrandtalle eduardpflugerstrass strassburg weg bebauungsplan nr 66201 aufzustell ziel abriss bonncent gebaudeensembl burohochhaus maximal 28 geschoss zwei weit 6 7 geschoss burogebaud realisi 25 tokens: vorhabenbezog bebauungsplan nr 65221 didinkirica bundesstadt bonn stadtbezirk bonn ortsteil bonncastell graurheindorf strass 216 strass rosental bebauungsplan aufzustell zielsetz wohnungsbau insgesamt rund 55 wohnein schaff 22 tokens: gebiet zwisch alfredbuchererstrass sebastianstrass fussweg zwisch rockumstrass endenich alle bebauungsplan nr 762156 aufzustell ziel grundstuck wohnbauzweck entwickeln besond berucksicht altengerecht wohnform pfleg 64 tokens: vergang jahr fuhrt klimawandel vielzahl folg umwelt wirtschaft mensch stadt gemeind aufgefordert folg anzupass moglich zukunft szenarios bezog klimawandel vorzubereit anpassungsprozess ford unterstutzt eu kommission aktivitat eumitgliedsstaat europas klimaresilienz stark kapazitat folg klimawandel reagi auszubau epicuro bildet netzwerk 11 europa kommun offent institution zwei jahr lang gemeinsam ziel arbeitet strategi urban resilienz entwickeln ford dabei liegt besond schwerpunkt einbind burgerinn burg unmittelbar projektaktivitat teilnehm 11 tokens: schaffung planungsrecht bau neu famili schul sportschwimmbad flach nordlich heizkraftwerk bonndottendorf
remove the empty documents using the removeemptydocuments
function.
documents = removeemptydocuments(documents);
fit topic model
fit a latent dirichlet allocation (lda) topic model to the data. an lda model discovers underlying topics in a collection of documents and infers word probabilities in topics.
to fit an lda model to the data, you first must create a bag-of-words model. a bag-of-words model (also known as a term-frequency counter) records the number of times that words appear in each document of a collection. create a bag-of-words model using bagofwords
.
bag = bagofwords(documents);
remove the empty documents from the bag-of-words model.
bag = removeemptydocuments(bag);
fit an lda model with seven topics using fitlda
. to suppress the verbose output, set 'verbose'
to 0
.
numtopics = 7;
mdl = fitlda(bag,numtopics,'verbose',0);
visualize the first four topics using word clouds.
figure for i = 1:4 subplot(2,2,i) wordcloud(mdl,i); title("topic " i) end
visualize multiple topic mixtures using stacked bar charts. view five input documents at random and visualize the corresponding topic mixtures.
numdocuments = numel(documents); idx = randperm(numdocuments,5); documents(idx)
ans = 5×1 tokenizeddocument: 4 tokens: gastronom angebot sollt verbessert 82 tokens: grunflach dietrichglaunerstrass rand dorfplatz entlang fussweg mehlem bach entlang rheinpromenad gesaumt hundehauf je witter verschlagt gestank mitunt atem weiss einig hundebesitz hinterlassenschaft kumm fast jederman schaut weg hundebesitz ohn anstand eben kehricht kumm grunflach sollt spiel picknick freud genuss hundeklo dien jetzt empfind zumut burg vergess mitarbeit grunamt grunpfleg regelrecht exkrement herumschlag hundesteu sollt empfind erhoht zusatz reinigungsgebuhr flankiert einnahm sollt ordnungskraft eingestellt verstoss geg sorgfaltspflicht hundehalt konsequent ahnd zud sollt zusatzeinnahm ausreich bemess kostendeck reinig offent grunflach hundekot stadtisch kraft refinanzi 116 tokens: sportplatz plittersdorf kommt leid regelmass unschon vorfall einsehbar umfeld heruntergekomm gesichert ca jahr wurd flutlichtscheinwerf waff kaputt geschoss reparatur dauert mehr woch kostet stadt 5000 euro netz tor regelmass kaputt geschnitt schon mindest 34 tor gestang mindest 2 tor rad zerbroch wahrschein unsachgemass behandelt wurd abgeholt geschweisst kost dafur unerheb platz regelmass chipstut flasch zigarett hundehauf verdreckt obwohl hund ausfuhr eigent verbot umkleid vereinsbud desolat zustand allein fussballmannschaft sohn saison 3 fahrrad 1 sporttasch fahrradhelm geklaut word training folgend vorschlag statt geland sollt richtig zaun platz gemacht hund drauf erleicht idealerweis sollt ganz geland umzaunt richtung friedhof gotenstrass hausmeist gotenschul morg abend abgeschloss ssv plittersdorf sollt dabei unterstutzt ordent vereinsheim erstell geland aufzuwert prasenz polizei ordnungsdien 64 tokens: mainz strass bereich geschaft kirch uberwieg beidseit zugeparkt unschon sond fussgang radfahr absolut unkomfortabel unubersicht buss steh andauernd stau gegenverkehr parkend fahrzeug durchfahrt verhind gibt fast vernunft abstellmog fahrrad mehlem zentrum attraktiv mach sollt park seit strass komplett untersagt strassenrand sollt dafur grunpflanz zb kubel installiert park sollt wenig ausnahm zb kurzparkzon poststell kostenpflicht ortszentrum schon fussgang radfahr sich ausserd okolog ansatz einzig zukunftstracht 50 tokens: "1" "bezirksverodnet" "sollt" "kulturburgermeist" "gewahlt" "hatt" "aufgab" "vertret" "verschied" "bad godesberg" "tatig" "kulturverein" "bzw" "einricht" "theat" "galeri" "orch" "gesangsgrupp" "literaturgrupp" "filmtheat" "ua" "zwei" "drei" "mal" "jahrlich" "rund" "tisch" "einzulad" "gemeinsam" "vorhab" "zb" "kulturf" "geplant" "vorbereitet" "2" "wertvoll" "hrdlickaskulptur" "sollt" "bundesinnenministerium" "graurheindorf" "strass" "wohin" "sieb" "jahr" "entfuhrt" "wurd" "bad godesberg" "zuruckgefuhrt" "hier" "aufgestellt"
topicmixtures = transform(mdl,documents(idx)); figure barh(topicmixtures(1:5,:),'stacked') xlim([0 1]) title("topic mixtures") xlabel("topic probability") ylabel("document") legend("topic " string(1:numtopics),'location','northeastoutside')
example preprocessing function
the function preprocessgermantext
, performs these steps:
tokenize the text using
tokenizeddocument
.replace the multiword phrase [
"bad" "godesberg"]
with"bad godesberg"
.remove a list of stop words (such as „der“, „die“, and „das“) using
removestopwords
.normalize the words using
normalizewords
.erase punctuation using
erasepunctuation
.
function documents = preprocessgermantext(textdata) % tokenize the text. documents = tokenizeddocument(textdata); % replace multiword phrases old = ["bad" "godesberg"]; new = "bad godesberg"; documents = replacengrams(documents,old,new); % remove a list of stop words. documents = removestopwords(documents); % normalize the words. documents = normalizewords(documents); % erase the punctuation. documents = erasepunctuation(documents); end
see also
tokenizeddocument
| removestopwords
| | addpartofspeechdetails
| | normalizewords