కేస్ స్టడీ: సంభాషణ AI

3 భారతీయ భాషలలో ASR ని నిర్మించడానికి 8k గంటలకు పైగా డేటా సేకరించబడింది, విభజించబడింది మరియు లిప్యంతరీకరించబడింది.

సంభాషణ AI

భాషిణి ప్రాజెక్ట్ ద్వారా వారి స్వంత మాతృభాషలో ఇంటర్నెట్ & డిజిటల్ సేవలను సులభంగా యాక్సెస్ చేసేలా తమ పౌరులను ప్రారంభించాలని ప్రభుత్వం లక్ష్యంగా పెట్టుకుంది.

భారతదేశం యొక్క AI ఆధారిత భాషా అనువాద ప్లాట్‌ఫారమ్ భాషిణి, డిజిటల్ ఇండియా చొరవలో కీలకమైన భాగం.

MSMEలు, స్టార్టప్‌లు మరియు స్వతంత్ర ఆవిష్కర్తలకు ఆర్టిఫిషియల్ ఇంటెలిజెన్స్ (AI) మరియు నేచురల్ లాంగ్వేజ్ ప్రాసెసింగ్ (NLP) సాధనాలను అందించడానికి రూపొందించబడిన భాషిణి ప్లాట్‌ఫారమ్ పబ్లిక్ రిసోర్స్‌గా పనిచేస్తుంది. భారతీయ పౌరులు తమ మాతృభాషల్లో దేశంలోని డిజిటల్ కార్యక్రమాలతో పరస్పరం వ్యవహరించేలా చేయడం ద్వారా డిజిటల్ చేరికను ప్రోత్సహించడం దీని లక్ష్యం.

అదనంగా, ఇది భారతీయ భాషలలో ఇంటర్నెట్ కంటెంట్ లభ్యతను గణనీయంగా విస్తరించాలని లక్ష్యంగా పెట్టుకుంది. ఇది ప్రత్యేకంగా పాలన మరియు విధానం, సైన్స్ మరియు టెక్నాలజీ మొదలైన ప్రజా ప్రయోజన రంగాలను లక్ష్యంగా చేసుకుంది. తత్ఫలితంగా, ఇది పౌరులను వారి స్వంత భాషలో ఇంటర్నెట్‌ని ఉపయోగించుకునేలా ప్రోత్సహిస్తుంది, వారి క్రియాశీల భాగస్వామ్యాన్ని ప్రోత్సహిస్తుంది.

రియల్ వరల్డ్ సొల్యూషన్

డేటాతో స్థానికీకరణ యొక్క శక్తిని ఆవిష్కరించడం

భారతీయ భాషలలో డిజిటల్ సేవలను అందించడానికి బహుభాషా డేటాసెట్‌లు మరియు AI- ఆధారిత భాషా సాంకేతిక పరిష్కారాలను రూపొందించడంపై దృష్టి సారించే వేదిక భారతదేశానికి అవసరం. ఈ చొరవను ప్రారంభించడానికి, ఇండియన్ ఇన్‌స్టిట్యూట్ ఆఫ్ టెక్నాలజీ, మద్రాస్ (IIT మద్రాస్) బహుభాషా ప్రసంగ నమూనాలను నిర్మించడానికి భారతీయ భాషా డేటాసెట్‌లను సేకరించి, విభజించి, లిప్యంతరీకరించడానికి షైప్‌తో భాగస్వామ్యం కుదుర్చుకుంది.

సవాళ్లు

భారతీయ భాషల కోసం వారి స్పీచ్ టెక్నాలజీ స్పీచ్ రోడ్‌మ్యాప్‌తో క్లయింట్‌కు సహాయం చేయడానికి, AI మోడల్‌ను రూపొందించడానికి బృందం పెద్ద మొత్తంలో శిక్షణ డేటాను పొందడం, విభజించడం మరియు లిప్యంతరీకరించడం అవసరం. క్లయింట్ యొక్క క్లిష్టమైన అవసరాలు:

వివరాల సేకరణ

  • ఒక్కో భాషకు 3000 మాండలికాలతో 8 భారతీయ భాషల్లో 4 గంటల శిక్షణ డేటాను పొందండి.
  • ప్రతి భాష కోసం, సరఫరాదారు ఎక్స్‌టెంపోర్ ప్రసంగాన్ని సేకరిస్తారు మరియు
    18-60 సంవత్సరాల వయస్సు సమూహాల నుండి సంభాషణ ప్రసంగం
  • వయస్సు, లింగం, విద్య & మాండలికాల వారీగా మాట్లాడేవారి విభిన్న మిశ్రమాన్ని నిర్ధారించుకోండి
  • స్పెసిఫికేషన్‌ల ప్రకారం రికార్డింగ్ పరిసరాల యొక్క విభిన్న మిశ్రమాన్ని నిర్ధారించుకోండి.
  • ప్రతి ఆడియో రికార్డింగ్ కనీసం 16kHz కానీ ప్రాధాన్యంగా 44kHz ఉండాలి

డేటా విభజన

  • 15 సెకన్ల స్పీచ్ సెగ్మెంట్‌లను సృష్టించండి & అందించిన ప్రతి స్పీకర్, ధ్వని రకం (ప్రసంగం, బాబుల్, సంగీతం, శబ్దం), మలుపులు, ఉచ్చారణలు & పదబంధాల కోసం ఆడియోను మిల్లీసెకన్‌లకు టైమ్‌స్టాంప్ చేయండి
  • ప్రారంభ & ముగింపులో 200-400 మిల్లీసెకన్ల ప్యాడింగ్‌తో లక్ష్య సౌండ్ సిగ్నల్ కోసం ప్రతి విభాగాన్ని సృష్టించండి.
  • అన్ని విభాగాల కోసం, కింది వస్తువులు తప్పనిసరిగా పూరించాలి అంటే, ప్రారంభ సమయం, ముగింపు సమయం, సెగ్మెంట్ ID, లౌడ్‌నెస్ స్థాయి, ధ్వని రకం, భాషా కోడ్, స్పీకర్ ID మొదలైనవి.

డేటా ట్రాన్స్క్రిప్షన్

  • అక్షరాలు మరియు ప్రత్యేక చిహ్నాలు, స్పెల్లింగ్ మరియు వ్యాకరణం, క్యాపిటలైజేషన్, సంక్షిప్తాలు, సంకోచాలు, వ్యక్తిగతంగా మాట్లాడే అక్షరాలు, సంఖ్యలు, విరామచిహ్నాలు, సంక్షిప్త పదాలు, అస్పష్టమైన, ప్రసంగం, అర్థం కాని ప్రసంగం, లక్ష్యం కాని భాషలు, మొదలైన వాటి గురించిన వివరాల లిప్యంతరీకరణ మార్గదర్శకాలను అనుసరించండి.

నాణ్యత తనిఖీ & అభిప్రాయం

  • అన్ని రికార్డింగ్‌లు నాణ్యత అంచనా & ధృవీకరణకు లోబడి ఉంటాయి, ధృవీకరించబడిన ప్రసంగం మాత్రమే అందించబడుతుంది

సొల్యూషన్

సంభాషణాత్మక AI గురించి మాకున్న లోతైన అవగాహనతో, 8 భారతీయ భాషలలో ఆడియో డేటాసెట్ యొక్క పెద్ద కార్పస్‌ను రూపొందించడానికి నిపుణులైన కలెక్టర్లు, భాషావేత్తలు మరియు వ్యాఖ్యాతల బృందంతో క్లయింట్ డేటాను సేకరించడం, విభజించడం మరియు లిప్యంతరీకరించడంలో మేము సహాయం చేసాము.

షాయ్ప్ పని పరిధిలో పెద్ద మొత్తంలో ఆడియో శిక్షణ డేటాను పొందడం, ఆడియో రికార్డింగ్‌లను బహుళంగా విభజించడం, డేటాను లిప్యంతరీకరించడం మరియు మెటాడేటా [స్పీకర్ ఐడి, వయస్సు, లింగం, భాష, మాండలికం, మాతృభాష, అర్హత, వృత్తి, డొమైన్, ఫైల్ ఫార్మాట్, ఫ్రీక్వెన్సీ, ఛానల్, ఆడియో రకం, స్పీకర్ల సంఖ్య, విదేశీ భాషల సంఖ్య, ఉపయోగించిన సెటప్, నారోబ్యాండ్ లేదా వైడ్‌బ్యాండ్ ఆడియో మొదలైనవి] కలిగిన సంబంధిత JSON ఫైల్‌లను అందించడం మాత్రమే కాకుండా, ఇవి కూడా ఉన్నాయి.

సంక్లిష్ట ప్రాజెక్ట్‌ల కోసం స్పీచ్ టెక్నాలజీకి శిక్షణ ఇవ్వడానికి కావలసిన నాణ్యత స్థాయిని కొనసాగిస్తూ షేప్ 3000 గంటల ఆడియో డేటాను స్కేల్‌లో సేకరించారు. పాల్గొనే ప్రతి ఒక్కరి నుండి స్పష్టమైన సమ్మతి ఫారమ్ తీసుకోబడింది.

1. వివరాల సేకరణ

2. డేటా సెగ్మెంటేషన్

  • సేకరించిన ఆడియో డేటాను ఒక్కొక్కటి 15 సెకన్ల ప్రసంగ విభాగాలుగా విభజించారు మరియు ఇచ్చిన ప్రతి స్పీకర్, ధ్వని రకం, మలుపులు, ఉచ్చారణలు మరియు సంభాషణలోని పదబంధాలకు మిల్లీసెకన్లకు టైమ్‌స్టాంప్ చేశారు.
  • సౌండ్ సిగ్నల్ ప్రారంభంలో మరియు ముగింపులో 200-400 మిల్లీసెకన్ల ప్యాడింగ్‌తో దాని లక్ష్య సౌండ్ సిగ్నల్ కోసం ప్రతి సెగ్మెంట్‌ను సృష్టించింది.
  • అన్ని విభాగాల కోసం, కింది ఆబ్జెక్ట్‌లు ఉన్నాయి మరియు పూరించబడ్డాయి అంటే, ప్రారంభ సమయం, ముగింపు సమయం, సెగ్మెంట్ ID, లౌడ్‌నెస్ స్థాయి (లౌడ్, సాధారణం, నిశ్శబ్దం), ప్రాథమిక ధ్వని రకం (స్పీచ్, బాబుల్, సంగీతం, నాయిస్, అతివ్యాప్తి), లాంగ్వేజ్ కోడ్ స్పీకర్ ID, లిప్యంతరీకరణ మొదలైనవి.

3. నాణ్యత తనిఖీ మరియు అభిప్రాయం

  • అన్ని రికార్డింగ్‌లు నాణ్యత కోసం అంచనా వేయబడ్డాయి మరియు WER 90% మరియు TER 90%తో ధృవీకరించబడిన ప్రసంగ రికార్డింగ్‌లు మాత్రమే పంపిణీ చేయబడ్డాయి
  • నాణ్యత చెక్‌లిస్ట్ అనుసరించబడింది:
    » సెగ్మెంట్ పొడవు గరిష్టంగా 15 సెకన్లు
    » నిర్దిష్ట డొమైన్‌ల నుండి లిప్యంతరీకరణ, అవి: వాతావరణం, వివిధ రకాల వార్తలు, ఆరోగ్యం, వ్యవసాయం, విద్య, ఉద్యోగాలు లేదా ఆర్థిక
    » తక్కువ నేపథ్య శబ్దం
    » ఆడియో క్లిప్ ఆఫ్ లేదు - వక్రీకరణ లేదు
    » ట్రాన్స్క్రిప్షన్ కోసం సరైన ఆడియో సెగ్మెంటేషన్

4. డేటా ట్రాన్స్క్రిప్షన్

సంకోచాలు, పూరక పదాలు, తప్పుడు ప్రారంభాలు మరియు ఇతర శబ్ద సంకోచాలతో సహా అన్ని మాట్లాడే పదాలు ట్రాన్స్‌క్రిప్షన్‌లో ఖచ్చితంగా సంగ్రహించబడ్డాయి. మేము క్యాపిటల్ మరియు చిన్న అక్షరాలు, స్పెల్లింగ్, క్యాపిటలైజేషన్, సంక్షిప్తాలు, సంకోచాలు, సంఖ్యల చుట్టూ ఉన్న వివరాల లిప్యంతరీకరణ మార్గదర్శకాలను కూడా అనుసరించాము.
విరామ చిహ్నాలు, ఎక్రోనింస్, అస్పష్టమైన ప్రసంగం, నాన్-స్పీచ్ శబ్దాలు మొదలైనవి. అంతేకాకుండా సేకరణ మరియు లిప్యంతరీకరణ కోసం అనుసరించిన వర్క్ ఫ్లో క్రింది విధంగా ఉంది:

ఫలితం

నిపుణులైన భాషావేత్తల నుండి అధిక-నాణ్యత ఆడియో డేటా, ఇండియన్ ఇన్‌స్టిట్యూట్ ఆఫ్ టెక్నాలజీ - మద్రాస్, నిర్ణీత సమయంలో వివిధ మాండలికాలతో 8 భారతీయ భాషలలో బహుభాషా స్పీచ్ రికగ్నిషన్ మోడల్‌లను ఖచ్చితంగా శిక్షణ ఇవ్వడానికి మరియు రూపొందించడానికి అనుమతిస్తుంది. స్పీచ్ రికగ్నిషన్ మోడల్స్ వీటిని ఉపయోగించవచ్చు:

  • పౌరులను వారి స్వంత మాతృభాషలో కార్యక్రమాలకు అనుసంధానించడం ద్వారా డిజిటల్ చేరిక కోసం భాషా అవరోధాన్ని అధిగమించండి.
  • డిజిటల్ గవర్నెన్స్‌ను ప్రోత్సహిస్తుంది
  • భారతీయ భాషలలో సేవలు మరియు ఉత్పత్తుల కోసం పర్యావరణ వ్యవస్థను రూపొందించడానికి ఉత్ప్రేరకం
  • ప్రజా ప్రయోజనాల డొమైన్‌లలో మరింత స్థానికీకరించబడిన డిజిటల్ కంటెంట్, ప్రత్యేకించి, పాలన & విధానం
గోల్డెన్-5-స్టార్

సంభాషణ AI స్పేస్‌లో షైప్ యొక్క నైపుణ్యంతో మేము ఆకట్టుకున్నాము. కఠినమైన సమయపాలన మరియు మార్గదర్శకాలలో 8 భాషలలో నిపుణులైన భాషావేత్తల నుండి అవసరమైన శిక్షణ డేటాను సోర్సింగ్, సెగ్మెంటింగ్, లిప్యంతరీకరణ మరియు పంపిణీ నుండి వారి మొత్తం ప్రాజెక్ట్ అమలు సామర్థ్యం; ఇప్పటికీ ఆమోదయోగ్యమైన నాణ్యత ప్రమాణాన్ని కొనసాగిస్తూనే.”

మీ తదుపరి AI చొరవతో మేము ఎలా సహాయపడతామో మాకు చెప్పండి.