<br>Could you give an example. Assuming you are indeed facing this situation: what problem are you working on and what features are you including or trying ?<br><br>In general,<br><br>I think that certainly yes you could include too many. depending on the context you could rank or weight them ? Perhaps then that would give you a hook to optimize the results with ?<br>
<br>Possibly clues in the application area. <br><br>For instance with textual data classification : some preprocessing is usually prudent. Also here it may be better to work with word triples rather than individual words, sometimes even rather than working with adjacent words to pick related words in close proximity, these are ways to reduce the disambiguation problem (most words have several possible uses that should not be treated the same - this could be semantic or syntactic), without resorting to problematic NLP analysis. <br>
<br>Other forms of preprocessing include reducing the data set, either via an application area understanding (eg news articles vs scientific abstracts) or a mathematical / statistical method of eliminating less important data points (such as LSI - which also makes it both faster and less susceptible to calculation error effects).<br>
<br><div class="gmail_quote">On Mon, Apr 25, 2011 at 5:37 PM, Ben Weisburd <span dir="ltr"><<a href="mailto:ben.weisburd@gmail.com">ben.weisburd@gmail.com</a>></span> wrote:<br><blockquote class="gmail_quote" style="margin:0 0 0 .8ex;border-left:1px #ccc solid;padding-left:1ex;">
Hi Mike, <div>I'm looking for some help with these topics, so if somebody would be willing to talk about them it would be much appreciated:</div><div>- feature selection for binary classification (or any classification) - when you're just starting to work on a problem and have some ideas about possible features, how do you decide which features are worth including? Lets say you don't care about computational cost - should you just include all the features you can think of? Or can some features actually hurt classification performance (lets you're using SVMs)? </div>


<div><div>- iteratively improving performance - lets say you've picked a training set of positive and negative examples, optimized meta-parameters through cross validation, trained your classifier and run it to get some predictions. When you look at the predictions, you see some that you think should have been predicted the other way (based on your intuitive understanding of the data). What should do? </div>


</div><div><br></div><font color="#888888"><div>-Ben</div></font><div><div></div><div class="h5"><div><br></div><div><br></div><div><br><br><div class="gmail_quote">On Mon, Apr 25, 2011 at 2:49 PM, Mike Schachter <span dir="ltr"><<a href="mailto:mike@mindmech.com" target="_blank">mike@mindmech.com</a>></span> wrote:<br>


<blockquote class="gmail_quote" style="margin:0 0 0 .8ex;border-left:1px #ccc solid;padding-left:1ex">Does anyone want to present something this week or have<br>
a specific thing they'd like to talk about? If not, how about<br>
we just meet up and mess around with R? I'd like to get<br>
random forests going with some example code:<br>
<br>
<a href="http://cran.r-project.org/web/packages/randomForest/index.html" target="_blank">http://cran.r-project.org/web/packages/randomForest/index.html</a><br>
<br>
 mike<br>
_______________________________________________<br>
ml mailing list<br>
<a href="mailto:ml@lists.noisebridge.net" target="_blank">ml@lists.noisebridge.net</a><br>
<a href="https://www.noisebridge.net/mailman/listinfo/ml" target="_blank">https://www.noisebridge.net/mailman/listinfo/ml</a><br>
</blockquote></div><br></div>
</div></div><br>_______________________________________________<br>
ml mailing list<br>
<a href="mailto:ml@lists.noisebridge.net">ml@lists.noisebridge.net</a><br>
<a href="https://www.noisebridge.net/mailman/listinfo/ml" target="_blank">https://www.noisebridge.net/mailman/listinfo/ml</a><br>
<br></blockquote></div><br>