<?xml version="1.0" encoding="UTF-8"?>
<rss xmlns:content="http://purl.org/rss/1.0/modules/content/" xmlns:dc="http://purl.org/dc/elements/1.1/" xmlns:rdf="http://www.w3.org/1999/02/22-rdf-syntax-ns#" xmlns:taxo="http://purl.org/rss/1.0/modules/taxonomy/" version="2.0">
  <channel>
    <title>topic Indexing XHTML in Alfresco Archive</title>
    <link>https://connect.hyland.com/t5/alfresco-archive/indexing-xhtml/m-p/142479#M99758</link>
    <description>&lt;HTML&gt;&lt;HEAD&gt;&lt;/HEAD&gt;&lt;BODY&gt;&lt;SPAN&gt;Hi,&lt;/SPAN&gt;&lt;BR /&gt;&lt;BR /&gt;&lt;SPAN&gt;I see that currently, only the cm:content of nodes of type HTML but not of type XHTML are indexed to Lucene.&lt;/SPAN&gt;&lt;BR /&gt;&lt;BR /&gt;&lt;SPAN&gt;I'd like to contribute a transformer from XHTML to plain text, only question I have is: which library should I use?&lt;/SPAN&gt;&lt;BR /&gt;&lt;BR /&gt;&lt;SPAN&gt;I see form HtmlParserContentTransformer.java (in Alfesco SVN) that Alfresco currently uses &lt;/SPAN&gt;&lt;A href="http://htmlparser.sourceforge.net/" rel="nofollow noopener noreferrer"&gt;http://htmlparser.sourceforge.net/&lt;/A&gt;&lt;SPAN&gt; for HTML-to-plain-text conversion. I could not find, however, any info on whether this thing works for XHTML, too.&lt;/SPAN&gt;&lt;BR /&gt;&lt;BR /&gt;&lt;SPAN&gt;Any suggestions?&lt;/SPAN&gt;&lt;BR /&gt;&lt;BR /&gt;&lt;SPAN&gt;Kaspar&lt;/SPAN&gt;&lt;/BODY&gt;&lt;/HTML&gt;</description>
    <pubDate>Thu, 06 Dec 2007 10:07:28 GMT</pubDate>
    <dc:creator>hbf</dc:creator>
    <dc:date>2007-12-06T10:07:28Z</dc:date>
    <item>
      <title>Indexing XHTML</title>
      <link>https://connect.hyland.com/t5/alfresco-archive/indexing-xhtml/m-p/142479#M99758</link>
      <description>Hi,I see that currently, only the cm:content of nodes of type HTML but not of type XHTML are indexed to Lucene.I'd like to contribute a transformer from XHTML to plain text, only question I have is: which library should I use?I see form HtmlParserContentTransformer.java (in Alfesco SVN) that Alfresc</description>
      <pubDate>Thu, 06 Dec 2007 10:07:28 GMT</pubDate>
      <guid>https://connect.hyland.com/t5/alfresco-archive/indexing-xhtml/m-p/142479#M99758</guid>
      <dc:creator>hbf</dc:creator>
      <dc:date>2007-12-06T10:07:28Z</dc:date>
    </item>
    <item>
      <title>Re: Indexing XHTML</title>
      <link>https://connect.hyland.com/t5/alfresco-archive/indexing-xhtml/m-p/142480#M99759</link>
      <description>&lt;HTML&gt;&lt;HEAD&gt;&lt;/HEAD&gt;&lt;BODY&gt;&lt;SPAN&gt;Here is a very simple and untested and maybe incomplete (w.r.t. efficiency, for example) version based on Xerces. It might serve as a starting point to others.&lt;/SPAN&gt;&lt;BR /&gt;&lt;BR /&gt;&lt;PRE class="language-none line-numbers"&gt;&lt;CODE&gt;&lt;BR /&gt;import java.io.File;&lt;BR /&gt;import java.util.Map;&lt;BR /&gt;&lt;BR /&gt;import org.alfresco.repo.content.MimetypeMap;&lt;BR /&gt;import org.alfresco.repo.content.transform.AbstractContentTransformer;&lt;BR /&gt;import org.alfresco.service.cmr.repository.ContentReader;&lt;BR /&gt;import org.alfresco.service.cmr.repository.ContentWriter;&lt;BR /&gt;import org.alfresco.util.TempFileProvider;&lt;BR /&gt;import org.apache.commons.logging.Log;&lt;BR /&gt;import org.apache.commons.logging.LogFactory;&lt;BR /&gt;import org.htmlparser.beans.StringBean;&lt;BR /&gt;import org.xml.sax.Attributes;&lt;BR /&gt;import org.xml.sax.ContentHandler;&lt;BR /&gt;import org.xml.sax.ErrorHandler;&lt;BR /&gt;import org.xml.sax.Parser;&lt;BR /&gt;import org.xml.sax.SAXException;&lt;BR /&gt;import org.xml.sax.XMLReader;&lt;BR /&gt;import org.xml.sax.helpers.DefaultHandler;&lt;BR /&gt;import org.xml.sax.helpers.ParserFactory;&lt;BR /&gt;&lt;BR /&gt;/**&lt;BR /&gt; * Based on Alfresco's HtmlParserContentTransformer implementation.&lt;BR /&gt; */&lt;BR /&gt;public class XHtmlParserContentTransformer extends AbstractContentTransformer {&lt;BR /&gt;&amp;nbsp; private static final Log logger = LogFactory.getLog(XHtmlParserContentTransformer.class);&lt;BR /&gt;&lt;BR /&gt;&amp;nbsp; /**&lt;BR /&gt;&amp;nbsp;&amp;nbsp; * Only support XHTML to TEXT.&lt;BR /&gt;&amp;nbsp;&amp;nbsp; */&lt;BR /&gt;&amp;nbsp; public double getReliability(String sourceMimetype, String targetMimetype)&lt;BR /&gt;&amp;nbsp; {&lt;BR /&gt;&amp;nbsp;&amp;nbsp;&amp;nbsp; if (!MimetypeMap.MIMETYPE_XHTML.equals(sourceMimetype) || !MimetypeMap.MIMETYPE_TEXT_PLAIN.equals(targetMimetype)) {&lt;BR /&gt;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp; // only support XHTML -&amp;gt; TEXT&lt;BR /&gt;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp; return 0.0;&lt;BR /&gt;&amp;nbsp;&amp;nbsp;&amp;nbsp; } else {&lt;BR /&gt;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp; return 1.0;&lt;BR /&gt;&amp;nbsp;&amp;nbsp;&amp;nbsp; }&lt;BR /&gt;&amp;nbsp; }&lt;BR /&gt;&lt;BR /&gt;&amp;nbsp; public void transformInternal(ContentReader reader, ContentWriter writer, Map&amp;lt;String, Object&amp;gt; options) throws Exception&lt;BR /&gt;&amp;nbsp; {&lt;BR /&gt;&amp;nbsp;&amp;nbsp;&amp;nbsp; // we can only work from a file&lt;BR /&gt;&amp;nbsp;&amp;nbsp;&amp;nbsp; File xhtmlFile = TempFileProvider.createTempFile("HtmlParserContentTransformer_", ".html");&lt;BR /&gt;&amp;nbsp;&amp;nbsp;&amp;nbsp; reader.getContent(xhtmlFile);&lt;BR /&gt;&lt;BR /&gt;&amp;nbsp;&amp;nbsp;&amp;nbsp; // get a parser (TODO: create a pool of parsers for efficiency)&lt;BR /&gt;&amp;nbsp;&amp;nbsp;&amp;nbsp; final String parserName = "org.apache.xerces.parsers.SAXParser";&lt;BR /&gt;&amp;nbsp;&amp;nbsp;&amp;nbsp; XMLReader parser = (XMLReader) Class.forName(parserName).newInstance();&lt;BR /&gt;&amp;nbsp;&amp;nbsp;&amp;nbsp; parser.setFeature("&lt;A href="http://xml.org/sax/features/validation" rel="nofollow noopener noreferrer"&gt;http://xml.org/sax/features/validation&lt;/A&gt;", false);&lt;BR /&gt;&amp;nbsp;&amp;nbsp;&amp;nbsp; // parser.setFeature( "&lt;A href="http://xml.org/sax/features/namespaces" rel="nofollow noopener noreferrer"&gt;http://xml.org/sax/features/namespaces&lt;/A&gt;", false);&lt;BR /&gt;&amp;nbsp;&amp;nbsp;&amp;nbsp; // parser.setFeature( "&lt;A href="http://apache.org/xml/features/validation/schema" rel="nofollow noopener noreferrer"&gt;http://apache.org/xml/features/validation/schema&lt;/A&gt;",&lt;BR /&gt;&amp;nbsp;&amp;nbsp;&amp;nbsp; // setSchemaSupport );&lt;BR /&gt;&amp;nbsp;&amp;nbsp;&amp;nbsp; // parser.setFeature(&lt;BR /&gt;&amp;nbsp;&amp;nbsp;&amp;nbsp; // "&lt;A href="http://apache.org/xml/features/validation/schema-full-checking" rel="nofollow noopener noreferrer"&gt;http://apache.org/xml/features/validation/schema-full-checking&lt;/A&gt;", false);&lt;BR /&gt;&amp;nbsp;&amp;nbsp;&amp;nbsp; parser.setFeature("&lt;A href="http://apache.org/xml/features/continue-after-fatal-error" rel="nofollow noopener noreferrer"&gt;http://apache.org/xml/features/continue-after-fatal-error&lt;/A&gt;", true);&lt;BR /&gt;&lt;BR /&gt;&amp;nbsp;&amp;nbsp;&amp;nbsp; // create the extractor&lt;BR /&gt;&amp;nbsp;&amp;nbsp;&amp;nbsp; Converter converter = new Converter(parser, xhtmlFile);&lt;BR /&gt;&lt;BR /&gt;&amp;nbsp;&amp;nbsp;&amp;nbsp; // extract&lt;BR /&gt;&amp;nbsp;&amp;nbsp;&amp;nbsp; String text = converter.getText();&lt;BR /&gt;&lt;BR /&gt;&amp;nbsp;&amp;nbsp;&amp;nbsp; writer.putContent(text);&lt;BR /&gt;&amp;nbsp; }&lt;BR /&gt;&lt;BR /&gt;&amp;nbsp; private class Converter extends DefaultHandler {&lt;BR /&gt;&amp;nbsp;&amp;nbsp;&amp;nbsp; private XMLReader parser;&lt;BR /&gt;&amp;nbsp;&amp;nbsp;&amp;nbsp; private StringBuilder text;&lt;BR /&gt;&lt;BR /&gt;&amp;nbsp;&amp;nbsp;&amp;nbsp; public Converter(XMLReader parser, File xhtmlFile) throws Exception&lt;BR /&gt;&amp;nbsp;&amp;nbsp;&amp;nbsp; {&lt;BR /&gt;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp; this.parser = parser;&lt;BR /&gt;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp; this.text = new StringBuilder();&lt;BR /&gt;&lt;BR /&gt;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp; // set up parser&lt;BR /&gt;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp; parser.setContentHandler(this);&lt;BR /&gt;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp; parser.setErrorHandler(this);&lt;BR /&gt;&lt;BR /&gt;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp; // parse&lt;BR /&gt;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp; String path = "file://" + xhtmlFile.getAbsolutePath();&lt;BR /&gt;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp; long before = System.currentTimeMillis();&lt;BR /&gt;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp; parser.parse(path);&lt;BR /&gt;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp; long after = System.currentTimeMillis();&lt;BR /&gt;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp; logger.debug("Conversion time: " + (after - before) + "ms.");&lt;BR /&gt;&amp;nbsp;&amp;nbsp;&amp;nbsp; }&lt;BR /&gt;&lt;BR /&gt;&amp;nbsp;&amp;nbsp;&amp;nbsp; public void characters(char[] ch, int start, int length) throws SAXException&lt;BR /&gt;&amp;nbsp;&amp;nbsp;&amp;nbsp; {&lt;BR /&gt;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp; text.append(' ');&lt;BR /&gt;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp; text.append(ch, start, length);&lt;BR /&gt;&amp;nbsp;&amp;nbsp;&amp;nbsp; }&lt;BR /&gt;&lt;BR /&gt;&amp;nbsp;&amp;nbsp;&amp;nbsp; public final String getText()&lt;BR /&gt;&amp;nbsp;&amp;nbsp;&amp;nbsp; {&lt;BR /&gt;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp; final String words = text.toString();&lt;BR /&gt;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp; if (logger.isDebugEnabled())&lt;BR /&gt;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp; logger.debug("Text is: "+words);&lt;BR /&gt;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp; return words;&lt;BR /&gt;&amp;nbsp;&amp;nbsp;&amp;nbsp; }&lt;BR /&gt;&lt;BR /&gt;&amp;nbsp; }&lt;BR /&gt;}&lt;BR /&gt;&lt;SPAN class="line-numbers-rows"&gt;&lt;SPAN&gt;‍&lt;/SPAN&gt;&lt;SPAN&gt;‍&lt;/SPAN&gt;&lt;SPAN&gt;‍&lt;/SPAN&gt;&lt;SPAN&gt;‍&lt;/SPAN&gt;&lt;SPAN&gt;‍&lt;/SPAN&gt;&lt;SPAN&gt;‍&lt;/SPAN&gt;&lt;SPAN&gt;‍&lt;/SPAN&gt;&lt;SPAN&gt;‍&lt;/SPAN&gt;&lt;SPAN&gt;‍&lt;/SPAN&gt;&lt;SPAN&gt;‍&lt;/SPAN&gt;&lt;SPAN&gt;‍&lt;/SPAN&gt;&lt;SPAN&gt;‍&lt;/SPAN&gt;&lt;SPAN&gt;‍&lt;/SPAN&gt;&lt;SPAN&gt;‍&lt;/SPAN&gt;&lt;SPAN&gt;‍&lt;/SPAN&gt;&lt;SPAN&gt;‍&lt;/SPAN&gt;&lt;SPAN&gt;‍&lt;/SPAN&gt;&lt;SPAN&gt;‍&lt;/SPAN&gt;&lt;SPAN&gt;‍&lt;/SPAN&gt;&lt;SPAN&gt;‍&lt;/SPAN&gt;&lt;SPAN&gt;‍&lt;/SPAN&gt;&lt;SPAN&gt;‍&lt;/SPAN&gt;&lt;SPAN&gt;‍&lt;/SPAN&gt;&lt;SPAN&gt;‍&lt;/SPAN&gt;&lt;SPAN&gt;‍&lt;/SPAN&gt;&lt;SPAN&gt;‍&lt;/SPAN&gt;&lt;SPAN&gt;‍&lt;/SPAN&gt;&lt;SPAN&gt;‍&lt;/SPAN&gt;&lt;SPAN&gt;‍&lt;/SPAN&gt;&lt;SPAN&gt;‍&lt;/SPAN&gt;&lt;SPAN&gt;‍&lt;/SPAN&gt;&lt;SPAN&gt;‍&lt;/SPAN&gt;&lt;SPAN&gt;‍&lt;/SPAN&gt;&lt;SPAN&gt;‍&lt;/SPAN&gt;&lt;SPAN&gt;‍&lt;/SPAN&gt;&lt;SPAN&gt;‍&lt;/SPAN&gt;&lt;SPAN&gt;‍&lt;/SPAN&gt;&lt;SPAN&gt;‍&lt;/SPAN&gt;&lt;SPAN&gt;‍&lt;/SPAN&gt;&lt;SPAN&gt;‍&lt;/SPAN&gt;&lt;SPAN&gt;‍&lt;/SPAN&gt;&lt;SPAN&gt;‍&lt;/SPAN&gt;&lt;SPAN&gt;‍&lt;/SPAN&gt;&lt;SPAN&gt;‍&lt;/SPAN&gt;&lt;SPAN&gt;‍&lt;/SPAN&gt;&lt;SPAN&gt;‍&lt;/SPAN&gt;&lt;SPAN&gt;‍&lt;/SPAN&gt;&lt;SPAN&gt;‍&lt;/SPAN&gt;&lt;SPAN&gt;‍&lt;/SPAN&gt;&lt;SPAN&gt;‍&lt;/SPAN&gt;&lt;SPAN&gt;‍&lt;/SPAN&gt;&lt;SPAN&gt;‍&lt;/SPAN&gt;&lt;SPAN&gt;‍&lt;/SPAN&gt;&lt;SPAN&gt;‍&lt;/SPAN&gt;&lt;SPAN&gt;‍&lt;/SPAN&gt;&lt;SPAN&gt;‍&lt;/SPAN&gt;&lt;SPAN&gt;‍&lt;/SPAN&gt;&lt;SPAN&gt;‍&lt;/SPAN&gt;&lt;SPAN&gt;‍&lt;/SPAN&gt;&lt;SPAN&gt;‍&lt;/SPAN&gt;&lt;SPAN&gt;‍&lt;/SPAN&gt;&lt;SPAN&gt;‍&lt;/SPAN&gt;&lt;SPAN&gt;‍&lt;/SPAN&gt;&lt;SPAN&gt;‍&lt;/SPAN&gt;&lt;SPAN&gt;‍&lt;/SPAN&gt;&lt;SPAN&gt;‍&lt;/SPAN&gt;&lt;SPAN&gt;‍&lt;/SPAN&gt;&lt;SPAN&gt;‍&lt;/SPAN&gt;&lt;SPAN&gt;‍&lt;/SPAN&gt;&lt;SPAN&gt;‍&lt;/SPAN&gt;&lt;SPAN&gt;‍&lt;/SPAN&gt;&lt;SPAN&gt;‍&lt;/SPAN&gt;&lt;SPAN&gt;‍&lt;/SPAN&gt;&lt;SPAN&gt;‍&lt;/SPAN&gt;&lt;SPAN&gt;‍&lt;/SPAN&gt;&lt;SPAN&gt;‍&lt;/SPAN&gt;&lt;SPAN&gt;‍&lt;/SPAN&gt;&lt;SPAN&gt;‍&lt;/SPAN&gt;&lt;SPAN&gt;‍&lt;/SPAN&gt;&lt;SPAN&gt;‍&lt;/SPAN&gt;&lt;SPAN&gt;‍&lt;/SPAN&gt;&lt;SPAN&gt;‍&lt;/SPAN&gt;&lt;SPAN&gt;‍&lt;/SPAN&gt;&lt;SPAN&gt;‍&lt;/SPAN&gt;&lt;SPAN&gt;‍&lt;/SPAN&gt;&lt;SPAN&gt;‍&lt;/SPAN&gt;&lt;SPAN&gt;‍&lt;/SPAN&gt;&lt;SPAN&gt;‍&lt;/SPAN&gt;&lt;SPAN&gt;‍&lt;/SPAN&gt;&lt;SPAN&gt;‍&lt;/SPAN&gt;&lt;SPAN&gt;‍&lt;/SPAN&gt;&lt;SPAN&gt;‍&lt;/SPAN&gt;&lt;SPAN&gt;‍&lt;/SPAN&gt;&lt;SPAN&gt;‍&lt;/SPAN&gt;&lt;SPAN&gt;‍&lt;/SPAN&gt;&lt;SPAN&gt;‍&lt;/SPAN&gt;&lt;SPAN&gt;‍&lt;/SPAN&gt;&lt;SPAN&gt;‍&lt;/SPAN&gt;&lt;SPAN&gt;‍&lt;/SPAN&gt;&lt;SPAN&gt;‍&lt;/SPAN&gt;&lt;SPAN&gt;‍&lt;/SPAN&gt;&lt;SPAN&gt;‍&lt;/SPAN&gt;&lt;SPAN&gt;‍&lt;/SPAN&gt;&lt;SPAN&gt;‍&lt;/SPAN&gt;&lt;/SPAN&gt;&lt;/CODE&gt;&lt;/PRE&gt;&lt;BR /&gt;&lt;SPAN&gt;You have to configure this using something like&lt;/SPAN&gt;&lt;BR /&gt;&lt;BR /&gt;&lt;PRE class="language-none line-numbers"&gt;&lt;CODE&gt; &amp;lt;bean id="transformer.XHtmlParser" class="org.my.module.mypackage.transformers.XHtmlParserContentTransformer" parent="baseContentTransformer" /&amp;gt;&lt;BR /&gt;&lt;SPAN class="line-numbers-rows"&gt;&lt;SPAN&gt;‍&lt;/SPAN&gt;&lt;SPAN&gt;‍&lt;/SPAN&gt;&lt;/SPAN&gt;&lt;/CODE&gt;&lt;/PRE&gt;&lt;/BODY&gt;&lt;/HTML&gt;</description>
      <pubDate>Fri, 14 Dec 2007 10:10:31 GMT</pubDate>
      <guid>https://connect.hyland.com/t5/alfresco-archive/indexing-xhtml/m-p/142480#M99759</guid>
      <dc:creator>hbf</dc:creator>
      <dc:date>2007-12-14T10:10:31Z</dc:date>
    </item>
    <item>
      <title>Re: Indexing XHTML</title>
      <link>https://connect.hyland.com/t5/alfresco-archive/indexing-xhtml/m-p/142481#M99760</link>
      <description>&lt;HTML&gt;&lt;HEAD&gt;&lt;/HEAD&gt;&lt;BODY&gt;&lt;SPAN&gt;An updated version is available &lt;/SPAN&gt;&lt;A href="http://wiki.alfresco.com/wiki/XHTML_to_TEXT_Transformer" rel="nofollow noopener noreferrer"&gt;on this Wiki page&lt;/A&gt;&lt;SPAN&gt;.&lt;/SPAN&gt;&lt;/BODY&gt;&lt;/HTML&gt;</description>
      <pubDate>Thu, 06 Nov 2008 13:01:52 GMT</pubDate>
      <guid>https://connect.hyland.com/t5/alfresco-archive/indexing-xhtml/m-p/142481#M99760</guid>
      <dc:creator>hbf</dc:creator>
      <dc:date>2008-11-06T13:01:52Z</dc:date>
    </item>
  </channel>
</rss>

